ワークショップ
《初めてのコンピュータコーパス》

英語コーパス学会第10回大会
1997年10月4日(土) 大東文化大学

日本大学   塚本 聡


目次

レジュメ

概略

コーパスの種類・形式

On-Line etext関連ホームページ

KWIC Concordance for Windowsコマンド

実習

  1. コーパスファイル設定
  2. 単語リスト
  3. 語尾順リスト
  4. インデックス
  5. コンコーダンス
  6. SGML形式ファイル
  7. COCOA形式ファイル
  8. データベース入力・クロス集計(ビボットテーブル)
  9. Penn-Helsinkiファイル

参考

プログラム

フロッピーディスク上のプログラムのインストール方法

Text Source

 


レジュメ

このワークショップでは、Windows(3.1以上)環境で作動するコンコーダンスプログラムKWIC Concordance for Windowsを例に、コンピュータコーパスと、それを処理する検索プログラムについて、初心者を対象に初歩的な実習を行います。

現在コーパスは、ネットワーク上で入手可能なものをはじめCD-ROM等、多数存在します。しかしその資料を処理する際に、ワープロ等の検索機能の利用にとどまっている場合があるようです。このような使用では、用例の比較などは画面をスクロールしての比較となり、はなはだ不便です。awkやgrepをはじめとするテキストツールは多数存在しますが、これらは初心者には難解であり、また、コーパスに関する情報がCOCOA形式等で付加された場合には、なお一層扱いにくいものとなります。このようなコーパスを扱えるプログラムでは、Micro-OCPが著名ですが、これはコマンドファイルを使用するバッチ形式のプログラムで、GUIの環境に慣れ親しんだコンピューター初心者の中には敷居が高いと感じる方も多いと思われます。

これらの点から、出来るだけ簡便で、かつ、COCOA形式等のコーパスを扱えるKWIC Concordance for Windowsを用い、単語リスト、コンコーダンス等を作成しながら、便利さを確かめてもらうことを目標とします。また、希望者にはこのプログラムを収めたフロッピーディスクを配布する予定です。なお、当プログラムはhttp://www.chs.nihon-u.ac.jp/eng_dpt/tukamoto/またはNiftyServe英会話フォーラム・コミュニケーション館(FENG)データライブラリー「プログラム・マクロ・画像」より入手可能です。

 

概略

コーパスの種類・形式

種類・形式 サンプルファイル名
Text text.txt
COCOA cocoa.txt (Helsinki Corpus, =cediar3a +ceotest1 + ceplay2a + cetri2a)
SGML sgml.txt (kjbible.sgm)
固定長 brown.txt (=brown1_m.txt)
Penn-Helsinki penn.txt (=cmpeterb.m1)

Text形式は、参照部を持たない一般的なファイル。
COCOA形式は、サンプルファイルで見られるように、"<"で始まり、次の1文字のアルファベットがパラメター名を表し、スペースを1つおいた後、そのパラメター値が示され、最後は">"で参照部のを割を示す。たとえば、<N DIARY PEPYS>の場合には、Nというパラメター(それが何を意味するかは別途指定する。)の値が"DIARY PEPYS"あるということを表す。
SGML形式は、<S ID=T22010000300 N='0.11'>&t;a he gefor &t;a feng Ceol to &t;am rice, &amp; heold <foreign>vi</foreign> gear.</S>の様に、"<"で始まり、次にパラメターが示される(この例の場合S)。さらに属性として"="を含む形式で、値が示される。この場合"ID"という属性には"T22010000300"、"ID"という属性には"0.11"がそれに相当する。最後に該当パラメターの終わりを示す"</S>"が続く。
また、サンプルファイルの様に<p n=O1.1.1>In the beginning God created the heaven and the earth. という形で、終わりの"</P>"が示されなり場合がある。
固定長形式は、M01 0010 Now that he knew himself to be self he was free to grok ever closerの様に行の一定の位置に決められた長さで、参照部(この場合はM01 0010)が置かれた形式。
Penn-Helsinki形式は、( [t +Ta ] [vt com ] [s Henri ] [d abbot ] )(PETERB,54.2)の様に、各文が"("で始まり、")"で終わり、その後に出典情報(ここではPETERB,54.2)が付加されている。また、各語には"[t"の様な文法タグがつけられている。

On-Line etext関連ホームページ

  • JAECS http://muse.doshisha.ac.jp/JAECS/index.html
  • Internet Information Resources for Corpus Studies(by Haruo Nishinoh)
         http://www.amherst.edu/~hnishino/corpus/index.html
  • ICAME http://www.hd.uib.no/icame.html
  • Project Gutenberg http://gutenberg.etext.org/
  • Oxford Text Archive http://ota.ox.ac.uk/
  • English Language Corpora and Corpus resources http://info.ox.ac.uk/bnc/corpora.html
  • Michael Barlow http://www.ruf.rice.edu/~barlow/corpus.html
  • Corpus Research Homepage http://clg1.bham.ac.uk/
  • SGML http://sable.ox.ac.uk/ota/sgml.htm
  • Penn-Helsinki Parsed Corpus of Middle English http://www.ling.upenn.edu/mideng/
  •  

    KWIC Concordance for Windowsコマンド

    ファイル 編集 表示 単語リスト コンコーダンス ウィンドウ ヘルプ
    コーパスファイル設定 単語リスト KWICコンコーダンス
    開く 語尾順リスト 左ソートKWIC
    閉じる インデックス 右ソートKWIC
    コーパスオプション ライムインデックス KWIC書式
    行折り畳み リストオプション

     

     

    実習

    1. コーパスファイル設定
    2. 単語リスト
    3. 語尾順リスト
    4. インデックス
    5. コンコーダンス
    6. SGML形式ファイル
    7. COCOA形式ファイル
    8. データベース入力・クロス集計(ビボットテーブル)
    9. Penn-Helsinkiファイル

     

    参考

    ・プログラム
      ・KWIC Concordance for Windows Ver. 2.5 (Windows3.1以上)
      ・KWIC Concordance for Windows95 Ver. 3.1 (Windows95)

    プログラムの入手先・最新版
    ・http://www.chs.nihon-u.ac.jp/eng_dpt/tukamoto/
    ・NiftyServe英会話フォーラム・コミュニケーション館(FENG)
      データライブラリー「プログラム・マクロ・画像」

     

    ・フロッピーディスク上のプログラムのインストール方法

    ディレクトリー(フォルダ)ごと(kwic25またはkwic31)ハードディスク上にコピーする。
    ファイルマネージャー・エクスプローラーからコピーされたディレクトリー(フォルダ)内のファイルkwic.exeを起動する。
    必要に応じて、アイコン・ショートカットを設定する。

     

    サンプルファイル(sample.lzh)(185KB)のダウンロード

    このワークショップで使用した5種類のサンプルファイル(text.txt, cocoa,txt, sgml.txt, brown.txt, penn.txt)をLHA圧縮によりアーカイブしたもの。適宜解凍してください。

     

    ・Text Source

    アスキーテキスト
    text.txt
    以下のBrown Corpusファイルから固定長参照部を取り除いたファイル。

    固定長形式
    Brown Corpus:
    Brown1_m.txt M: FICTION: SCIENCE

    Helsinki Corpus (COCOA形式)
    Cediar3a:
    PEPYS d. 1666-67 (5140 words)
    PEPYS, SAMUEL. (E3)
    THE DIARY OF SAMUEL PEPYS, VII (1666); (CEDIAR3A)
    VIII (1667).

    Ceotest1:
    TYNDOLD d. 1530 (10100 words)
    TEXT: THE OLD TESTAMENT. (E1)
    WILLIAM TYNDALE'S FIVE BOOKS OF MOSES (CEOTEST1)
    CALLED THE PENTATEUCH.

    Ceplay2a:
    SHAKESP d. folio 1623 (1597) (6170 words)
    SHAKESPEARE, WILLIAM. (E2)
    TEXT: THE MERRY WIVES OF WINDSOR. (CEPLAY2A)

    Cetri2a:
    ESSEX d. 1600 (5980 words)
    TEXT: THE TRIAL OF THE EARL OF ESSEX. (E2)
    THE DR. FARMER CHETHAM MS. (CETRI2A)

    SGML形式
    kjbible.sgm:
    "The King James Bible": electronic edition
    The Old Testament: Genesis 1 - 35.
    cf. Oxford Text Archive.

     

    Penn-Helsinki Parsed Corpus of Middle English
    cmpeterb.m1:
    THE PETERBOROUGH CHRONICLE, 1070-1154. ED. C. CLARK. LONDON: OXFORD
    UNIVERSITY PRESS, 1958. PP. 54.1 - 60.19