Treebank Search
|
|||||||||||||
| 概要 Penn-Helsinki Parsedコーパス用検索ソフトウェア 単語を指定して、コーパスから検索をする。その際構文解析された情報を同時に取り出すことができる。POSタグの集計をすることができる。
使用可能コーパス
など |
|||||||||||||
| 操作手順1 コーパスファイル
|
Addボタンにより検索ファイルを指定する。 不要なファイルはRemoveボタンによりリストから削除する。 |
||||||||||||
| 操作手順2 検索指定ページ |
Keyword欄に検索したい語や文字列を入力する。 as a word指定は、単語全体の完全一致に場合にヒットする。正規表現チェックボックスは、チェック状態で正規表現を利用可能となる。 POSやSyntactic1-3を指定すると、より条件を厳密に検索する。 ( (IP-MAT (CONJ And) spakeに対するSyntactic Annotationは、近い順(からIP-SUB, CP-REL, NPなる。POSは、VBDとなる。 これらの欄が空白の場合には、それぞれの標識に関係なく、全ての検索語がヒットする。指定をした場合には、検索語と同形の語の内、指定標識が付加された例のみがヒットする。
Context Wordは、左右の共起語の制限をするために、設定する。左右の範囲(1-10語以内)に指定語がある場合にのみ、検索にヒットするようになる。
|
||||||||||||
| 操作手順3 結果出力ページ |
検索結果には、以下の項目が出力される。 file名 LeftにはKeyword(Node)の左側、KWICにはKeyword、RightにはKeyword(Node)の右側、line欄は検索語が含まれるID単位全体の文を表し、positionは検索語が現れるその文先頭からの文字数を表す。 Phrase欄には、検索語の上位に位置する全てのSyntactic Annotationが/で区切られて、全て列挙される。上記の例の場合は、IP-MAT/NP-OB1/CONJP/NP/CP-REL/IP-SUB/のように出力される。 Untagには、統語・品詞標識を取り除いた文が表示される。
検索結果の該当行をクリックすると、コーパス検索行が別ウィンドウに表示される。(内部処理の関係で、該当文のID部分がハイライトされる。)
|
||||||||||||
| クリップボード 出力例 |
検索結果出力ページにあるCopyボタンにより、表示された検索結果がクリップボードにコピーされる。各項目はタブで区切られるので、必要に応じてデータベースや表計算ソフトで処理することができる。
|
||||||||||||
| Parts of Speech 集計 | POS countページのStart Countingをクリックすることにより、コーパス内のPOS, Syntactic
Tagを一覧にすることができる。Copyボタンにより、検索結果をクリップボードにコピーすることができる。 |
||||||||||||
| ダウンロード | Version 1.0
使用環境: .NET Framework利用可能なPC
インストール手順
|
||||||||||||
| このプログラムに関する連絡先 | |||||||||||||