2009年12月31日木曜日

よいお年を

今年もみなさんのご支援・励ましに支えられて、健康に一年を過ごすことができましたことに、心より感謝いたします。

研究面では、今年の成果は質・量ともに満足できる水準には程遠いものでした。来年は懸命に努力して成果を出さねばなりません。
授業も今年の反省を活かして、来年は今年よりもよい授業をしたいと思います。
日々努力と反省を重ね、しかし焦らず着実に、一歩一歩進んでいかねばと思っております。

2010年もよろしくお願いいたします。
2010年もみなさんにとって良い年となりますように。

2009年8月27日木曜日

ハイフン・マイナス・ダッシュの使い分けと入力方法

これまであまり意識せずに使ってきたハイフン・マイナス・ダッシュの記号の厳密な違いと入力方法について調べてみました。

hypen(‐): いわゆるハイフン (U+2010)
figure dash(‒): 電話番号など (U+2012)
minus sign(−): マイナス符号 (U+2212)
en dash(–): 範囲を示す (U+2013) WindowsではAltを押しながらテンキーで0150か、MS WordではCtrl+テンキーのマイナスで入力可。
em dash(—): いわゆるダッシュ (U+2014) WindowsではAltを押しながらテンキーの0151か、MS WordではCtrl+Alt+テンキーのマイナスで入力可。

MS WordでUnicode文字を入れるには、上記のU+の後の4桁を入力して、それからAlt+xで変換するという方法もあります。

キーボード上のハイフン・テンキー上のマイナス符号はいずれもhyphen-minus(U+002D)という、上記とはまた別の記号です。
しかし、一般にはこのhyphen-minusがfigure dash・hyphen・minus signを包摂するものとして広く使われていますので、特に厳密に区分する必要がなければ、ダッシュ以外のハイフン・マイナス系統にはこれを使っておけばいいでしょう。

なお、記号の前後のスペースの有無等についてはスタイル等で異なるようです。

2009年8月3日月曜日

夏休みまであと少し

前期も終わりが見えてきましたが、授業がない時にこそ集中して勉強せねばなりません。
NHKラジオ『実践ビジネス英語』2009年7月22日放送分のQuote ... Unquote (テキスト2009年7月号51ページ) より、自戒の念を込めて引用。
The man who does not read good books has no advantage over the man who can't read them. --Mark Twain (U.S. writer, 1835-1910)


2009年7月12日日曜日

BNCwebの改造版インターフェイス on Greasemonkey

BNCwebの改造版インターフェイスをちまちまと作って自分で使っていたわけですが、最大の欠点は自分で立てたサーバー上でしか使えないというものでした。
この欠点を克服して誰でも使えるように、Firefox + Greasemonkeyのスクリプトで対応できるようにしたものを現在作成しています。
基本機能は今日一日でほぼできたので、もう少し細かいところを詰めた上で近々公開したいと思います。

2009年6月26日金曜日

CQPを使った同じ名詞を含む表現の検索 その2

先日のN is Nを受けて、once (a/an) N(,) always (a/an) Nはどうだろうというお話を聞いたので、さっそく検索してみました。
検索したCQPは以下の通りです。
[word="once"] ([word="a"]|[word="an"])? n1:[pos="NN.*"] ([word=","])? [word="always"] ([word="a"]|[word="an"])? n2:[pos="NN.*"] :: n1.lemma = n2.lemma


検索結果は、2例のみでした。
once a misfit, always a misfit

once a hit always a hit
です。

含んでいるテキストのジャンルなどが原因で、イディオム、メタファー、ことわざ、常套句などはBNCではあまりヒットしないことが多いと感じていますが、このパターンも同様のようです。

2009年6月23日火曜日

BNCweb上でCQPを使ったパワフルな検索

BNCwebでRules are rules.やBoys will be boys.のようなN is N.型の表現を検索する方法の紹介です。

このタイプの検索はCQPを使わないとできません。
Query modeにCQP syntaxを選び、以下の検索式を入力します。
n1:[pos="NN.*"] ([pos="VM0"])? [hw="be"] n2:[pos="NN.*"] :: n1.lemma = n2.lemma

すると、"N (aux.) be N"というパターンを検索することができます。
実際に検索してみると、372例見つかります。
この中には言い直しによる繰り返しなどの例も含まれていますし、上記の検索式でN is N型の表現全てを網羅できているわけでもないので、このタイプの表現のうちのかなりの部分を検索することができます。(形容詞による修飾の考慮や、近接検索の条件付加などによりさらに精度を上げることができるでしょう。)

なお、上記の検索を始め、BNCwebの検索については、Corpus Linguistics with BNCweb - a Practical Guideが非常に詳しいのでお勧めです。
現在Amazon.co.jpでは購入できませんが、私は紀伊國屋書店のBookWeb Proを通して入手しました。

not to put too fine a point on it

NHKの実践ビジネス英語の2009年6月18日放送分のビニェットに"not to put too fine a point on it"という表現が出てきて、訳には「率直に言うと」とだけあります。
ややイディオム的な表現なのですが、pointが具体的にはどのようなイメージであるのかなど、この表現の句源・由来が気になりましたが、各種辞書・OED・『研究社-ロングマンイディオム英和辞典』などをちょっと調べた限りでは、由来までは分かりませんでした。
今度、もう少し大きな辞書で調べてみたいと思います。

2009年6月11日木曜日

100万語目の英単語は「Web 2.0」

100万語目の英単語が今日誕生? サイトでカウントダウン

そもそもどうやって数えてるんだと思いましたが、その基準については説明されていました。
コンピューターを使って約5000のウェブサイト、辞書、学術出版物、ニュース記事をチェックしており、利用頻度を調べて2万5000回以上使わていれば、新語として認定しカウントする。

明示的な基準ではありますが、この基準からすると、古い語はその語彙リストからどんどん抜け落ちていくことになりそうです。
一度語彙リストに入った単語はもう永久に英単語として認定されるのでしょうか。
じゃあ中英語なんかの単語はどうするのでしょう。そもそもこの語彙リストには入らないでしょうし・・・。
つまり、例えば、5年前に新語として登場して爆発的に使われるようになって、でもすぐに忘れ去られた単語は語彙リストに残り、もっと昔の単語はそれよりもずっと長い期間使われていたにもかかわらずそもそもこのリストには入っていないということになるのでしょうか。
まあ、新語の調査ですから、そういうところは比較的どうでもいいのでしょうけれど。

同氏の説によれば、英語は世界の言語の中で最も単語の数が多い。2番目の中国語は約45万語。英語はインターネットによってさらに多言語との接触が増え、より豊かに、より複合的になっているという。

中国語の単語の認定ってそんなに簡単なんでしょうか。じゃあ日本語はどうするんでしょう・・・。

ただし同氏の説は、言語学者にはほとんど相手にされていない。言葉は常に変化するものであり、単語の数を数えるのは不可能に近いというのが学者の見解だ。英語がほかの言語に比べて単語数が多いという見方は支持しても、世界一多いとは断定できないという。

オックスフォード英語辞典の編集にかかわったジェシー・シードロワー氏は「単語を数えることは不可能だ。数えられないものを数えられると言うのはまやかしだ」と手厳しい。

まあそうでしょうね。

これに対してパヤック氏は、単語の数は興味の対象として自分たちで設定した基準に基づいて推定しているにすぎず、カウントダウンは英語が国際語になったことを記念するものだと反論した。

この研究の単語数を数えるという側面については妥当性を欠いているとは思いますが、様々な点で学術的な価値もあると思います。

そして、その続報。
100万語目の英単語は「Web 2.0」、サイトが独自計算
というわけで、Web 2.0が100万語目として認定されたそうです。
ついでにこういった新語の定義もほしいところですね。ここで認定された新語専門のWiktionaryとかがあると面白いかもしれません。(あるいはWiktionaryで常に更新されているかもしれません。)

2009年5月31日日曜日

文系と理系の違い

隣の理系がワカラナイ 第12回 文系だってワカラナイ! 前編 (R25)後編

『文系の方々は「ワードの○○って、どうするの」とか、すぐ人に聞く。「ネットで調べて!」「ヘルプ使って!」と思ってしまうのは、私の心が狭いのでしょうか』(奈良県/20歳/女性)

なんてあたりは同感です。

私はちょっとだけ理系よりの「文系バカ」ですが、こんなことを頭の片隅に置いておくともうちょっとだけ幸せになれそうです。
「理系の人は『正確でないことを話してはいけない』と、何年もかけて教育されています。だから、会話の最中に『それってどこの情報?』なんて聞くし、その話に反証の余地がないかどうか無意識に探してしまうんです」(竹内さん)

「ただし、論理的でないことをそんなに否定すべきではないと思いますよ。どんなに完璧な論理でも、実験などによって間違いが証明されることはたくさんあります。それに、生物学的に見れば、生存率を左右するのは論理ではなく感情です。未知の相手と対峙したとき、『怖い』と感じる感情があるから瞬時に逃げて身を守ることができる。『今、逃げるべきかどうか』なんて論理的に考えていたら、その間にやられてしまいますよ」(竹内さん)

「理系バカには『事実以外認めない』という頑ななところがあり、ひどくなると、小説や映画に対して『事実が描かれていないものを読んでなにになる』とまで言います。そうやってフィクションを認めない人はコミュニケーション力、表現力が低く、論理的でない人のことを見下したりする。でも、たとえ素晴らしい研究成果が出ても、表現力が低ければ世界の人にそれをアピールすることができません。だから、一流のサイエンティストはフィクション作品もよく読んでいて、表現力が高いのです」

「論理的であることは絶対ではないけれど、伝聞情報を鵜呑みにすることは危険ですし、数学とか物理を『難しそう』『関係ない』と頭から否定してしまうのも問題です。数学のエキスパートである必要はありませんが、せめて理系的な教養を否定せず、ものによっては興味を持ってみるくらいのことも必要では?」

理系と文系では、お互いに「常識」と考えるものが大きく違う。それが文理間の溝を作っているようです。


2009年5月18日月曜日

BNCwebの簡易マニュアル

2009年3月23日に行われたJAECS東支部コーパスツール講習会の時に配布した資料をアップロードしました。
BNCwebを使ったコーパス検索

BNCを詳しく検索したいが最初の敷居が高いという方にはよい資料となるかもしれません。
間違いやお気づきの点などがありましたらお知らせください。

2009年5月17日日曜日

音声データ編集用ソフトウェア

リスニング教材などの音声データ編集を行うためのソフトウェアの紹介です。

以前はAudacityを使っていましたが、今回新たにFree Audio Editorを使ってみました。
どちらも最初はある程度慣れが必要なのですが、個人的にはAudacityよりもFree Audio Editorの方が使いやすいと感じました。
どちらも波形を見ながらコピー・カット・ペーストなどの基本的な編集が行えるだけでなく、任意の時間の無音を入れたり、様々なエフェクトをかけたりすることができます。

複数ファイルの音量を揃えるには、mp3の場合はMP3Gainが、waveの場合はWaveGain frontendが便利です。

これらを使って既存の音声素材からカスタマイズした教材などを作ることができます。

2009年1月1日木曜日

あけましておめでとうございます。

2008年は多くの人に支えられながら、多くの新しい経験をすることができました。充実した1年でしたが、あっという間に過ぎたような気がします。

昨年は携わっていた辞書が2点刊行され(1点は2009年刊行という扱い)、新規に書いた論文は2点(ともに刊行待ちで他に共著論文の刊行待ちが1点あり)、口頭発表が2回でした。
授業の準備などに時間がかかったということもありますが、研究成果としては満足できるものではありません。
時間がかかる辞書をだいぶ整理し、授業の準備も1周終えたので、今年は研究でもしっかり満足できる成果を残したいと思います。

2009年がみなさまにとってよい年となりますようお祈り申し上げます。