現在主要英英辞典の定義語彙データを作ろうとしているのですが、各辞書の定義語彙データの有無についてまとめてみました。
一番簡単なのはOALD7で、データが掲載されています。
http://www.oup.com/elt/catalogue/teachersites/oald7/oxford_3000/oxford_3000_list?cc=global
次に簡単なのはMED2です。
CD-ROMのヘルプに定義語彙データがあります。
アルファベット別になっているので、まとめるのは若干手間がかかりますが、作業は簡単にできます。
ここから先は容易ではないものです。
まずはLDOCE5。Longman Defining Vocabularyの古いバージョンとおぼしきデータはいろいろと見つかりますが、どれも最新のものではありません。(http:// は外してあります。)
www.cs.utexas.edu/~kbarker/working_notes/ldoce-vocab.html
wiki.frath.net/Longman_Defining_Vocabulary/alphabetically
home.earthlink.net/~neilbawd/longman.txt
www.pu-kumamoto.ac.jp/~jay/class/modeng/handouts/ldv.html
www2.cmp.uea.ac.uk/~jrk/conlang.dir/LongmanVocab.html
www.luweixmu.com/home/article.asp?id=33
見つけた中では一番下のものがLDOCE5のデータに一番近いようです。これをもとに書籍版誌面と見比べて修正していくのが一番楽そうです。
なお、LAAD2の定義語彙はでPDFデータで提供されていますが、LDOCE5のものとは品詞の表示なども含めれば結構違います。
http://longmanusahome.com/dictionaries/defining.php
COBUILD6については、定義語彙も書籍版紙面には載っているのですが、データとしては存在しないようです。
約3,000項目あるので、手で入力するよりは、スキャンしてOCR処理をして修正した方が早そうです。
一番問題なのはCALD3で、そもそも定義語彙が明らかにされていないようです。
ただ、定義のデータはあるので、これを見出し語化して、定義の中で定義語以外だと明示されている語を除けば、(想定版)定義語彙データが作れそうです。
その後LDOCE5とCOBUILD6の定義語彙データは作成が完了しました。
0 件のコメント:
コメントを投稿