English 

 

Treebank Search

 

  概要

Penn-Helsinki Parsedコーパス用検索ソフトウェア

単語を指定して、コーパスから検索をする。その際構文解析された情報を同時に取り出すことができる。POSタグ、単語の集計をすることができる。

 

使用可能コーパス

The Penn-Helsinki Parsed Corpus of Middle English, second edition (PPCME2)
The Penn-Helsinki Parsed Corpus of Early Modern English (PPCEME)
The Penn-Helsinki Parsed Corpus of Modern Brisith English (PPCMBE)
The York-Helsinki Parsed Corpus of Old English Poetry
The York-Toronto-Helsinki Parsed Corpus of Old English Prose
The Brooklyn-Geneva-Amsterdam-Helsinki Parsed Corpus of Old English

など

操作手順1

コーパスファイル
ページ

 

Addボタンにより検索ファイルを指定する。

不要なファイルはRemoveボタンによりリストから削除する。

操作手順2

検索指定ページ

Keyword欄に検索したい語や文字列を入力する。

as a word指定は、単語全体の完全一致に場合にヒットする。正規表現チェックボックスは、チェック状態で正規表現を利用可能となる。

POSやSyntactic1-3を指定すると、より条件を厳密に検索する。
Syntactic1-3は、Penn-Parsed CorpusのSyntactic Annotationに相当し、1から順に検索語から近いものを指す。例えば下記のコーパスのspakeを例とした場合

( (IP-MAT (CONJ And)
  (NP-SBJ (PRO they))
  (MD coulde)
  (NEG not)
  (VB resist)
  (NP-OB1 (NP (D the) (N wysdome))
       (, ,)
      (CONJP (CONJ and)
           (NP (D the)
                 (N sprete)
                 ( ,  ,)
                (CP-REL (WPP-1 (P with)
                             (WNP (WPRO which)))
                      (C 0)
                      (IP-SUB (PP *T*-1)
                              (NP-SBJ (PRO he))
                              (VBD spake))))))
      (. .)) (ID TYNDNEW-E1-P2,VI,1A.19))
 

spakeに対するSyntactic Annotationは、近い順(からIP-SUB, CP-REL, NPなる。POSは、VBDとなる。

これらの欄が空白の場合には、それぞれの標識に関係なく、全ての検索語がヒットする。指定をした場合には、検索語と同形の語の内、指定標識が付加された例のみがヒットする。

 

Context Wordは、左右の共起語の制限をするために、設定する。左右の範囲(1-10語以内)に指定語がある場合にのみ、検索にヒットするようになる。

 

 

操作手順3

結果出力ページ

検索結果には、以下の項目が出力される。

file名
ID
Syntactic3 (S3)
Syntactic2 (S2)
Syntactic1 (S1)
POS
KWIC
Line
Position
Phrase
Untag

LeftにはKeyword(Node)の左側、KWICにはKeyword、RightにはKeyword(Node)の右側、line欄は検索語が含まれるID単位全体の文を表し、positionは検索語が現れるその文先頭からの文字数を表す。

Phrase欄には、検索語の上位に位置する全てのSyntactic Annotationが/で区切られて、全て列挙される。上記の例の場合は、IP-MAT/NP-OB1/CONJP/NP/CP-REL/IP-SUB/のように出力される。

Untagには、統語・品詞標識を取り除いた文が表示される。
 

 

検索結果の該当行をクリックすると、コーパス検索行が別ウィンドウに表示される。(内部処理の関係で、該当文のID部分がハイライトされる。)

 

 

クリップボード
出力例
 

検索結果出力ページにあるCopyボタンにより、表示された検索結果がクリップボードにコピーされる。各項目はタブで区切られるので、必要に応じてデータベースや表計算ソフトで処理することができる。

 

 

 

 

Parts of Speech 集計

POS countページのStart Countingをクリックすることにより、コーパス内のPOS, Syntactic Tagを一覧にすることができる。Copyボタンにより、検索結果をクリップボードにコピーすることができる。

POS count

 

単語集計
WordlistページのStart Countingをクリックすることにより、コーパス内の単語を一覧にすることができる。Copyボタンにより、検索結果をクリップボードにコピーすることができる。


Wordlist

ダウンロード Version 1.2

プログラム Version 動作環境 サイズ 更新日
Treebank Search(Windows Installer版) 1.2 Windows 7 / 8 /10 280KB 2015年8月25日
Treebank Search (実行ファイルのみ) 80KB


Version 1.1

プログラム Version 動作環境 サイズ 更新日
Treebank Search(Windows Installer版) 1.1 Windows XP/2000/Vista/7
+.NET Framework 3.5
475KB 2014年4月22日
Treebank Search (実行ファイルのみ) 72KB

使用環境: .NET Framework利用可能なPC

  • .NET Frameworkのインストール方法  (Windows Updateでインストール可能。)
    「スタート」ボタン(画面左下)−「すべてのプログラム」−「Microsoft Update」でアクセス可能なMicrosoft Update ホームから画面中央にある「カスタム」ボタンを選択肢、インストール済みのファイルを確認後、左側「追加選択(ソフトウェア)」をクリックする。その中に、「Microsoft .NET Framework Version 3.5 日本語版」を選択後、選択した更新プログラムをインストールする。

 

インストール手順

・Windows Installerインストール
ダブルクリックにより、解凍先フォルダ・ディレクトリー等の指定が促され、ショートカットが作成されます。
注意:この版のインストールには、Microsoft .NET Framework Version 3.5およびWindows Installerが必要です。

・実行ファイルのみ
適当なフォルダーにコピーする。
注意:この版のインストールには、Microsoft .NET Framework Version 3.5が必要です。

 

  このプログラムに関する連絡先

tukamoto@chs.nihon-u.ac.jp

   

ホームページへ戻る