2011年4月1日金曜日

新年度、新環境

今日から所属が変わりました。
新しい環境で心機一転、教育はもちろん、研究にも力を注ぎたいと思います。

2011年1月1日土曜日

2011年もよろしくお願いいたします

あっという間に2010年も終わり、今日から新たな一年です。
2010年は研究面でも教育面でも最低限のことはやったと言えると思いますが、残念ながら満足できるものとは言えませんでした。
2011年は研究面でも教育面でも大きな進展を目指してがんばりたいと思います。
昨年お世話になったみなさま、ありがとうございました。今年もよろしくお願いいたします。
今年新たにお世話になるみなさま、よろしくお願いいたします。

2010年10月13日水曜日

OALD8のEPWING化

OALD8をEPWINGに変換するツールが公開されました。
URLはEBシリーズサポート掲示板の投稿です。
http://hishida.s271.xrea.com/wforum_eb/wforum.cgi?no=619&reno=600&oya=600&mode=msgview&page=0

oald7-fpwを使ってOALD7を変換したものと比べて、以下の利点があります。
・Windows環境のみで簡単に変換できる。
・発音記号が表示される。
・用例ごとに改行される。
・参照にリンクが付いている。
・example bankも表示される。
語源やexample bankなどの追加情報はエントリー末尾に表示されるのでうるさくありません。

example bankに含まれる多くの用例が他のEPWING辞書と簡単に切り替えながら参照できるようになったので、非常にうれしいです。
(Logophileでは以前から、example bankも含めてOALD8が表示できますが、起動が遅いのでちょっと使うのが億劫です。)

2010年6月26日土曜日

PerlとXPathでXMLファイルの処理

XMLファイルに対して正規表現で処理をしていたのを、XPathを使ってもっと楽にできないかとやってみました。
XMLとはどんなものか、という非常に初歩的なことしか分からない超初心者ですが、Active PerlのパッケージシステムからXML::XPathのモジュールをインストールして、小さなテストファイルでやってみたところ、なんとかなりました。
今更ですが、XMLエディターで構造を見て、あとはXPathでノード名を使って処理というのが簡単な処理方法だと実感しました。

2010年3月26日金曜日

英辞郎のデータ形式

英辞郎から用例データを抽出しようと思い、データ形式について調べたところ
http://www.eijiro.jp/kensaku2/files.htm
に情報がありました。
ただ、上記のページには「●」が文例の開始点を示すと書いてあるのですが、Version 116のデータでは「■・」が文例の開始点になっていました。

データ形式がわかったところで、Perlで処理しようとしたのですが、文字コードの扱いに悪戦苦闘。検索・置換の際にこの記号類がちょっと邪魔をします。
いろいろと試行錯誤して時間をとられたのですが、結局今回はエディターの置換で済ませました。

いずれ文字コードの扱いについてよく勉強する必要があるということは分かりました。

2010年3月15日月曜日

英辞郎 on the WEBの整列・頻度集計機能

metal-heartさんの記事で知ったのですが、英辞郎 on the WEBで整列・頻度集計機能が利用できるようになっています。
つまり、英辞郎データに対してKWIC表示や共起語の頻度集計が利用可能だということです。
調べたところどうやら2月初頭から利用できるようになっていたようです。
ちょうど来週話すネタがこういう話だったので、これも紹介することにします。

β 版ということで、将来有料化されたりする可能性もありそうですが、その時はちょうど私が今作っている辞書データKWIC表示CGIを公開して、(当然英辞郎のデータを正当に所持している個人が自分専用に使うという制限は付きますが、)英辞郎データも簡単にKWIC表示できるようにするお手伝いはできそうです。
(まあ「簡単に」とはいってもウェブサーバーでCGIを動かさなくてはいけないので、「簡単」とは言い難いのですが。JAVAとかで作ればスタンドアロンで完結しますが、自分が必要としないのでそこまでのことはしようとも思いませんし・・・。)

2010年3月6日土曜日

kaoiro

朝のテレビで見た顔文字専用スタンプkaoiroが気になりました。
小テストとかで押して返却すると楽しいかも。