2009年6月26日金曜日

CQPを使った同じ名詞を含む表現の検索 その2

先日のN is Nを受けて、once (a/an) N(,) always (a/an) Nはどうだろうというお話を聞いたので、さっそく検索してみました。
検索したCQPは以下の通りです。
[word="once"] ([word="a"]|[word="an"])? n1:[pos="NN.*"] ([word=","])? [word="always"] ([word="a"]|[word="an"])? n2:[pos="NN.*"] :: n1.lemma = n2.lemma


検索結果は、2例のみでした。
once a misfit, always a misfit

once a hit always a hit
です。

含んでいるテキストのジャンルなどが原因で、イディオム、メタファー、ことわざ、常套句などはBNCではあまりヒットしないことが多いと感じていますが、このパターンも同様のようです。

2009年6月23日火曜日

BNCweb上でCQPを使ったパワフルな検索

BNCwebでRules are rules.やBoys will be boys.のようなN is N.型の表現を検索する方法の紹介です。

このタイプの検索はCQPを使わないとできません。
Query modeにCQP syntaxを選び、以下の検索式を入力します。
n1:[pos="NN.*"] ([pos="VM0"])? [hw="be"] n2:[pos="NN.*"] :: n1.lemma = n2.lemma

すると、"N (aux.) be N"というパターンを検索することができます。
実際に検索してみると、372例見つかります。
この中には言い直しによる繰り返しなどの例も含まれていますし、上記の検索式でN is N型の表現全てを網羅できているわけでもないので、このタイプの表現のうちのかなりの部分を検索することができます。(形容詞による修飾の考慮や、近接検索の条件付加などによりさらに精度を上げることができるでしょう。)

なお、上記の検索を始め、BNCwebの検索については、Corpus Linguistics with BNCweb - a Practical Guideが非常に詳しいのでお勧めです。
現在Amazon.co.jpでは購入できませんが、私は紀伊國屋書店のBookWeb Proを通して入手しました。

not to put too fine a point on it

NHKの実践ビジネス英語の2009年6月18日放送分のビニェットに"not to put too fine a point on it"という表現が出てきて、訳には「率直に言うと」とだけあります。
ややイディオム的な表現なのですが、pointが具体的にはどのようなイメージであるのかなど、この表現の句源・由来が気になりましたが、各種辞書・OED・『研究社-ロングマンイディオム英和辞典』などをちょっと調べた限りでは、由来までは分かりませんでした。
今度、もう少し大きな辞書で調べてみたいと思います。

2009年6月11日木曜日

100万語目の英単語は「Web 2.0」

100万語目の英単語が今日誕生? サイトでカウントダウン

そもそもどうやって数えてるんだと思いましたが、その基準については説明されていました。
コンピューターを使って約5000のウェブサイト、辞書、学術出版物、ニュース記事をチェックしており、利用頻度を調べて2万5000回以上使わていれば、新語として認定しカウントする。

明示的な基準ではありますが、この基準からすると、古い語はその語彙リストからどんどん抜け落ちていくことになりそうです。
一度語彙リストに入った単語はもう永久に英単語として認定されるのでしょうか。
じゃあ中英語なんかの単語はどうするのでしょう。そもそもこの語彙リストには入らないでしょうし・・・。
つまり、例えば、5年前に新語として登場して爆発的に使われるようになって、でもすぐに忘れ去られた単語は語彙リストに残り、もっと昔の単語はそれよりもずっと長い期間使われていたにもかかわらずそもそもこのリストには入っていないということになるのでしょうか。
まあ、新語の調査ですから、そういうところは比較的どうでもいいのでしょうけれど。

同氏の説によれば、英語は世界の言語の中で最も単語の数が多い。2番目の中国語は約45万語。英語はインターネットによってさらに多言語との接触が増え、より豊かに、より複合的になっているという。

中国語の単語の認定ってそんなに簡単なんでしょうか。じゃあ日本語はどうするんでしょう・・・。

ただし同氏の説は、言語学者にはほとんど相手にされていない。言葉は常に変化するものであり、単語の数を数えるのは不可能に近いというのが学者の見解だ。英語がほかの言語に比べて単語数が多いという見方は支持しても、世界一多いとは断定できないという。

オックスフォード英語辞典の編集にかかわったジェシー・シードロワー氏は「単語を数えることは不可能だ。数えられないものを数えられると言うのはまやかしだ」と手厳しい。

まあそうでしょうね。

これに対してパヤック氏は、単語の数は興味の対象として自分たちで設定した基準に基づいて推定しているにすぎず、カウントダウンは英語が国際語になったことを記念するものだと反論した。

この研究の単語数を数えるという側面については妥当性を欠いているとは思いますが、様々な点で学術的な価値もあると思います。

そして、その続報。
100万語目の英単語は「Web 2.0」、サイトが独自計算
というわけで、Web 2.0が100万語目として認定されたそうです。
ついでにこういった新語の定義もほしいところですね。ここで認定された新語専門のWiktionaryとかがあると面白いかもしれません。(あるいはWiktionaryで常に更新されているかもしれません。)