Dictionary Corpus


Big 5のXMLデータから定義・本文を抽出するPerlスクリプト


extract_definitions_and_examples.20150226.zip

抽出したデータを利用した研究成果を発表される場合で引用をしていただける場合は、バージョン(20150226)と、次の文献を挙げていただけますとありがたく存じます。
  • Ishii, Y. 2011. "Comparing the Vocabulary Sets Used in the "Big Five" English Monolingual Dictionaries for Advanced EFL Learners." In Akasu, K. and S. Uchida (eds.), LEXICOGRAPHY: Theoretical and Practical Perspectives, The Asian Association for Lexicography, pp. 180-189. (PDF)

XMLデータ自体の取得方法については、LDOCE5 DVDをEPWING化するで公開されているldoce5-fpw-20100111.tar.gzに含まれるidx2txt.plを利用します。


詳しい使い方はPerlスクリプト本体の上部のコメントをご覧ください。
概要だけを示しますと、xmlデータを"辞書略称(下記).xml"として、スクリプトと同じディレクトリに置いて、コマンドラインで下記のように実行します。
LDOCE5の用例を抽出する例: perl extract_definitions_and_examples.pl LDOCE5 EX
辞書略称(第1引数): CALD4, COBUILD6, LDOCE5, MED2, OALD8
出力内容(第2引数): EX(用例), DEF(定義)




上記の定義・用例スクリプトに特化したコンコーダンサー(Perl CGI)


dac.20100920.zip

こちらはPerlconc 0.3を改造したものですので、オリジナルのライセンスが適用されます。

抽出したデータを利用した研究成果を発表される場合で引用をしていただける場合は、バージョン(20100920)と、次の文献を挙げていただけますとありがたく存じます。
  • 石井康毅. 2011. 「学習者向け英英辞書データのコーパスとしての活用可能性の考察」 『東京理科大学紀要(教養編)』第43号, 東京理科大学, pp. 269-292. (PDF)

0 件のコメント:

コメントを投稿