2010年3月6日土曜日

kaoiro

朝のテレビで見た顔文字専用スタンプkaoiroが気になりました。
小テストとかで押して返却すると楽しいかも。


2010年3月5日金曜日

シェルでの複数コマンドの連続実行

bashなどでは複数のコマンドを連続して実行するには、;で区切ればいいのですが、これをWindowsのコマンドプロンプトでやろうとしても正しく処理されず、困ってしまいました。
調べたところ、コマンドプロンプトでは&が同等の機能を担うということが分かりました。

こういう細かい違いが結構あるので、LinuxとWindowsの両方を使っているとストレスを感じます。
Windows PowerShellをインストールすると、bash感覚により近づきそうですが、まだ試してはいません。

2010年3月3日水曜日

EFL辞書の定義語彙

現在主要英英辞典の定義語彙データを作ろうとしているのですが、各辞書の定義語彙データの有無についてまとめてみました。

一番簡単なのはOALD7で、データが掲載されています。
http://www.oup.com/elt/catalogue/teachersites/oald7/oxford_3000/oxford_3000_list?cc=global

次に簡単なのはMED2です。
CD-ROMのヘルプに定義語彙データがあります。
アルファベット別になっているので、まとめるのは若干手間がかかりますが、作業は簡単にできます。

ここから先は容易ではないものです。

まずはLDOCE5。Longman Defining Vocabularyの古いバージョンとおぼしきデータはいろいろと見つかりますが、どれも最新のものではありません。(http:// は外してあります。)
www.cs.utexas.edu/~kbarker/working_notes/ldoce-vocab.html
wiki.frath.net/Longman_Defining_Vocabulary/alphabetically
home.earthlink.net/~neilbawd/longman.txt
www.pu-kumamoto.ac.jp/~jay/class/modeng/handouts/ldv.html
www2.cmp.uea.ac.uk/~jrk/conlang.dir/LongmanVocab.html
www.luweixmu.com/home/article.asp?id=33
見つけた中では一番下のものがLDOCE5のデータに一番近いようです。これをもとに書籍版誌面と見比べて修正していくのが一番楽そうです。
なお、LAAD2の定義語彙はでPDFデータで提供されていますが、LDOCE5のものとは品詞の表示なども含めれば結構違います。
http://longmanusahome.com/dictionaries/defining.php

COBUILD6については、定義語彙も書籍版紙面には載っているのですが、データとしては存在しないようです。
約3,000項目あるので、手で入力するよりは、スキャンしてOCR処理をして修正した方が早そうです。

一番問題なのはCALD3で、そもそも定義語彙が明らかにされていないようです。
ただ、定義のデータはあるので、これを見出し語化して、定義の中で定義語以外だと明示されている語を除けば、(想定版)定義語彙データが作れそうです。



その後LDOCE5とCOBUILD6の定義語彙データは作成が完了しました。

2010年3月1日月曜日

テキストファイルからKWICコンコーダンスを生成するCGI

テキストファイルからKWICコンコーダンスを生成するCGIスクリプトを探しました。
そんなものはいくらでもあるだろうと思ったのですが、探し方が悪かったのか、意外にもほとんどありませんでした。
その中で見つけたのがPerlconcです。
まだ一部機能が実装されていないなどの残念な点はありますが、正規表現を使って複数のテキストが自由に選択できて、見やすいですし、割と良さそうな感じです。

ただ、開発が0.3で完全に止まっていますし、今後のアップデートもないでしょう。
また、230行目の「href」の前の二重引用符がエスケープされていないため、そのままではエラーとなります。
この点だけ修正すれば、最低限使うことはできます。

これをベースにいろいろ手を入れていけば使いやすいものにできそうです。
あるいは、この実装を参考にゼロから作り直した方が早いかもしれませんが。



その後さっそく改造して、Unicode対応にして、日本語のファイル名・テキスト・検索キーワードも適切に扱えるようにました。
これでそれなりに使えるようになりました。
いずれ気が向いたら公開するかもしれません。

2010年2月21日日曜日

胎児のうちから2言語に接しているとバイリンガル環境にスムーズに入れるらしい

胎児に2言語聞かせるとバイリンガルになりやすい?加研究

新生児の言語に対する好みを判断するにあたり、研究者らは、新生児の吸引反射に注目した。吸い付く動作は、赤ちゃんの刺激に対する関心を示すとされている。

まず、最初の実験では、1分ごとに英語とタガログ語が交互に話される演説を、赤ちゃんに10分間聞かせた。

その結果、胎内で英語だけを聞いていた赤ちゃんたちは、タガログ語の演説よりも英語の演説を聞いているときに「吸引行動が増加する」ことが観察された。つまり、タガログ語よりも英語の方に、より関心を示したことになる。

一方、2言語が聞こえる環境で胎内にいた赤ちゃんグループは、英語とタガログ語の両方に等しく関心を示した。

この結果から、研究者らは、出生前からバイリンガルの環境にある新生児は2つの母国語を覚えるための準備をしているとみられると結論づけた。


モノリンガルな環境で子どもをバイリンガルにしようと思ったら、生まれる前からバイリンガル環境を意図的に作った方がより効果が高いようです。
例えば日本で子どもを日英のバイリンガルにしようと思ったら、父親か母親の一方は英語で、もう一方は日本語で話すようにして、子どもが外に出るようになったら、どうしても日本語に接する時間が長く、相対的に英語に接する時間が短くなってしまうので、その分テレビや音楽などで英語に接する時間を長くとるようにすればなんとかなるかもしれません。
インタラクションを伴わないテレビなどの映像教材だけでは母語としての言語修得はできませんが、ある程度認知レベルが上がった段階でうまく利用すれば、テレビなどもインプットを補う役割は果たせるのではないかと思うのですが、どうなんでしょうかね。

2010年2月13日土曜日

CLAWSのLinux版が出た?

BNCの品詞タグ付与にも使われたタガーCLAWSの販売ページ(Obtaining a licence for the CLAWS tagger)の記述に変化が見られ、Linux版が出たようにも読めます。
以前はSolaris (Sparc)用バイナリがサイトライセンスとして£750、またはWindows用Java版がWinClaws Academic Licenceとして$200でしたが、現在サイトでは次のように書かれています。
The site licence is available for Unix variants (Solaris, Linux or MacOSX) or Windows versions. Academic single user licences are also available for CLAWS4 for £100 + VAT (as appropriate).

これ以上の詳細がないので、購入手続きをするか、問い合わせをしないと、実際にはどういう状況なのか分からないのですが、新しいパッケージが出て、$200から£100に若干値下げされたということなのでしょうか。

2010年2月2日火曜日

語源を扱うブログというのはユニークかも

英語語源検定 by 織田哲司
語源にまつわる記事を精力的に書かれています。

そして今日の記事。
イースターにはなぜ卵を飾る?
その答えは記事を見ていただくことにして。
予想以上に深い背景があったのですね。

MOSTLY LINGUISTICと謳いながらあまりlinguisticなことを書かないこのブログとは違って(笑)勉強になります。