2010年3月26日金曜日

英辞郎のデータ形式

英辞郎から用例データを抽出しようと思い、データ形式について調べたところ
http://www.eijiro.jp/kensaku2/files.htm
に情報がありました。
ただ、上記のページには「●」が文例の開始点を示すと書いてあるのですが、Version 116のデータでは「■・」が文例の開始点になっていました。

データ形式がわかったところで、Perlで処理しようとしたのですが、文字コードの扱いに悪戦苦闘。検索・置換の際にこの記号類がちょっと邪魔をします。
いろいろと試行錯誤して時間をとられたのですが、結局今回はエディターの置換で済ませました。

いずれ文字コードの扱いについてよく勉強する必要があるということは分かりました。

0 件のコメント:

コメントを投稿