英語コーパス学会第10回大会
1997年10月4日(土) 大東文化大学
日本大学 塚本 聡
概略
- コーパスファイル設定
- 単語リスト
- 語尾順リスト
- インデックス
- コンコーダンス
- SGML形式ファイル
- COCOA形式ファイル
- データベース入力・クロス集計(ビボットテーブル)
- Penn-Helsinkiファイル
参考
このワークショップでは、Windows(3.1以上)環境で作動するコンコーダンスプログラムKWIC Concordance for Windowsを例に、コンピュータコーパスと、それを処理する検索プログラムについて、初心者を対象に初歩的な実習を行います。
現在コーパスは、ネットワーク上で入手可能なものをはじめCD-ROM等、多数存在します。しかしその資料を処理する際に、ワープロ等の検索機能の利用にとどまっている場合があるようです。このような使用では、用例の比較などは画面をスクロールしての比較となり、はなはだ不便です。awkやgrepをはじめとするテキストツールは多数存在しますが、これらは初心者には難解であり、また、コーパスに関する情報がCOCOA形式等で付加された場合には、なお一層扱いにくいものとなります。このようなコーパスを扱えるプログラムでは、Micro-OCPが著名ですが、これはコマンドファイルを使用するバッチ形式のプログラムで、GUIの環境に慣れ親しんだコンピューター初心者の中には敷居が高いと感じる方も多いと思われます。
これらの点から、出来るだけ簡便で、かつ、COCOA形式等のコーパスを扱えるKWIC Concordance for Windowsを用い、単語リスト、コンコーダンス等を作成しながら、便利さを確かめてもらうことを目標とします。また、希望者にはこのプログラムを収めたフロッピーディスクを配布する予定です。なお、当プログラムはhttp://www.chs.nihon-u.ac.jp/eng_dpt/tukamoto/またはNiftyServe英会話フォーラム・コミュニケーション館(FENG)データライブラリー「プログラム・マクロ・画像」より入手可能です。
| 種類・形式 | サンプルファイル名 |
| Text | text.txt |
| COCOA | cocoa.txt (Helsinki Corpus, =cediar3a +ceotest1 + ceplay2a + cetri2a) |
| SGML | sgml.txt (kjbible.sgm) |
| 固定長 | brown.txt (=brown1_m.txt) |
| Penn-Helsinki | penn.txt (=cmpeterb.m1) |
Text形式は、参照部を持たない一般的なファイル。
COCOA形式は、サンプルファイルで見られるように、"<"で始まり、次の1文字のアルファベットがパラメター名を表し、スペースを1つおいた後、そのパラメター値が示され、最後は">"で参照部のを割を示す。たとえば、<N
DIARY PEPYS>の場合には、Nというパラメター(それが何を意味するかは別途指定する。)の値が"DIARY
PEPYS"あるということを表す。
SGML形式は、<S ID=T22010000300 N='0.11'>&t;a he gefor &t;a feng Ceol to
&t;am rice, & heold <foreign>vi</foreign> gear.</S>の様に、"<"で始まり、次にパラメターが示される(この例の場合S)。さらに属性として"="を含む形式で、値が示される。この場合"ID"という属性には"T22010000300"、"ID"という属性には"0.11"がそれに相当する。最後に該当パラメターの終わりを示す"</S>"が続く。
また、サンプルファイルの様に<p n=O1.1.1>In the beginning God created
the heaven and the earth. という形で、終わりの"</P>"が示されなり場合がある。
固定長形式は、M01 0010 Now that he knew himself to be self he was free to grok ever
closerの様に行の一定の位置に決められた長さで、参照部(この場合はM01
0010)が置かれた形式。
Penn-Helsinki形式は、( [t +Ta ] [vt com ] [s Henri ] [d abbot ] )(PETERB,54.2)の様に、各文が"("で始まり、")"で終わり、その後に出典情報(ここではPETERB,54.2)が付加されている。また、各語には"[t"の様な文法タグがつけられている。
| ファイル | 編集 | 表示 | 単語リスト | コンコーダンス | ウィンドウ | ヘルプ |
| コーパスファイル設定 | 単語リスト | KWICコンコーダンス | ||||
| 開く | 語尾順リスト | 左ソートKWIC | ||||
| 閉じる | インデックス | 右ソートKWIC | ||||
| コーパスオプション | ライムインデックス | KWIC書式 | ||||
| 行折り畳み | リストオプション |
・プログラム
・KWIC Concordance for Windows Ver. 2.5 (Windows3.1以上)
・KWIC Concordance for Windows95 Ver. 3.1 (Windows95)
プログラムの入手先・最新版
・http://www.chs.nihon-u.ac.jp/eng_dpt/tukamoto/
・NiftyServe英会話フォーラム・コミュニケーション館(FENG)
データライブラリー「プログラム・マクロ・画像」
・サンプルファイル(sample.lzh)(185KB)のダウンロード
アスキーテキスト
text.txt
以下のBrown Corpusファイルから固定長参照部を取り除いたファイル。
固定長形式
Brown Corpus:
Brown1_m.txt M: FICTION: SCIENCE
Helsinki Corpus (COCOA形式)
Cediar3a:
PEPYS d. 1666-67 (5140 words)
PEPYS, SAMUEL. (E3)
THE DIARY OF SAMUEL PEPYS, VII (1666); (CEDIAR3A)
VIII (1667).
Ceotest1:
TYNDOLD d. 1530 (10100 words)
TEXT: THE OLD TESTAMENT. (E1)
WILLIAM TYNDALE'S FIVE BOOKS OF MOSES (CEOTEST1)
CALLED THE PENTATEUCH.
Ceplay2a:
SHAKESP d. folio 1623 (1597) (6170 words)
SHAKESPEARE, WILLIAM. (E2)
TEXT: THE MERRY WIVES OF WINDSOR. (CEPLAY2A)
Cetri2a:
ESSEX d. 1600 (5980 words)
TEXT: THE TRIAL OF THE EARL OF ESSEX. (E2)
THE DR. FARMER CHETHAM MS. (CETRI2A)
SGML形式
kjbible.sgm:
"The King James Bible": electronic edition
The Old Testament: Genesis 1 - 35.
cf. Oxford Text Archive.
Penn-Helsinki Parsed Corpus of Middle English
cmpeterb.m1:
THE PETERBOROUGH CHRONICLE, 1070-1154. ED. C. CLARK. LONDON: OXFORD
UNIVERSITY PRESS, 1958. PP. 54.1 - 60.19