手のひらにコーパスを—SR-E10000の活用事例

電子辞書大研究英語充実モデルの比較和文英訳編—電子辞書徹底活用高校生向け電子辞書
「辞書」について考えるトップ院試塾トップ

手のひらにコーパスを—SR-E10000の活用事例

SIIのSR-E10000には,Collins COBUILD Wordbankのデータが約500万語分収録されている。これをコーパス(例文データベース)として活用すれば,英語についてより深く学ぶことができるとともに,実際に英語を用いる場合にもより正確さを期すことができる。本稿では,具体的な事例を通して,このコーパスの活用について検討していく。

使用電子辞書

SR-E10000(SII)
関連収録辞書:COBUILD Advanced Learner's English DictionaryCOBUILD Wordbank/新編英和活用大辞典/新和英大辞典/ジーニアス英和大辞典

活用の実践

課題設定

和文英訳編—電子辞書徹底活用で「実験」という意味の名詞experimentについてとりあげた。その際,experimentを目的語にとる動詞としてdo, carry out, performがあることを見た。これらの用例を検索しながら,コーパスの利用法について見ていくことにする。

名詞experimentと動詞との連語関係—英和活用大辞典で調べる

まず,英和活用大辞典で,名詞experimentを目的語にとる動詞を調べてみる。名詞experimentを見出し語として引き,【動詞+】の項目の例文を表示してみると,「実験をする」に相当するものとしてattempt / carry out / conduct / do / make / perform / run / tryが見つかる。英和辞典も見ておこう。ジーニアス大英和の用例には,carry out / conduct / do / make / performが見つかった。この5つは英和活用大辞典とも一致しているので,とりあえずこの5つの動詞を見ていくことにしよう。

コーパスの検索

それではWordbankを検索してみよう。まずはcarry outexperimentのつながりである。Wordbankの検索では,「語順指定」と「範囲」が指定できる。前者は,入力ボックスに入力した語順どおりに各語が出現するものだけを対象とするかどうかだが,受動態になっているとexperiment(s) ... carried outの語順になることが想定されるので,語順指定なしで検索してみる。これではout ... carry [carrying / carries / carried] ... experiment(s)の語順で出現しているものもあれば引っかかるが,数が多くなければ順に見て排除すればよい。

入力ボックスに「carry&out&experiment&」とまず入力する。ここで重要なのは,最後にも&をつけることだ。これによって,experimental(ly)のような派生語を除外することができる(ただし,同形の動詞は当然排除できないので,順に見て排除する必要がある)。これで語順指定なしで検索すると9件がヒットした。順に見ていくと,やはり関係のないもの(以下「ノイズ」)も引っかかっていることがわかる。結果をざっと紹介しておこう。

  1. In ... experiment, ... he could listen to a conversation carried out ...
  2. ... carried out the experiment ...
  3. In experiments carried out earlier this year, ...
  4. ... to carry out the few experiments ...
  5. ... to carry out a ... analysis ... whether an animal experiment can be justified.
  6. The experiments, carried out in America ...
  7. Designed Experiments ... to carry out a Project ...
  8. ... and carry out experiment-based projects ...
  9. ... to human experiments being carried out ...

この9件のうち現在の関心の対象となるのは2,3,4,6,8,9の6件である。確認しておかなければならないのは,もし語順指定ありにしていたら3,6,9はヒットしなかった点である。また,心配していたout ... carry [carrying / carries / carried] ... experiment(s)という語順のものはさいわい含まれていない。

続いてconductexperimentの組み合わせを検索してみると,5件中3件が必要な用例である。doexperimentでは35件(さすがに多いが,助動詞のdo / don'tも対象となってしまうのが原因の1つである)中11件,makeexperimentでは11件中2件,performexperimentでは3件中1件という結果になった。以下に表にまとめておこう。

動詞+experiment
動詞 件数 総件数 「ノイズ」率
carry out 6 9 33%
conduct 3 5 40%
do 11 35 69%
make 2 11 82%
perform 1 3 66%

この結果から即多数決でdoexperimentの組み合わせがもっともよく用いられると即断するわけにはいかない。もっと大きな規模のコーパスをより詳細に検討していく必要がある(これについては今後研究課題とする予定)。ここから言えるのは,どれもヒットしている点から特に問題のある(極度に頻度の低い)組み合わせはないということくらいだろう。つまり,とりあえずはどれを使ってもそう問題はない,ということだ。

サブコーパスの検討

SR-E10000Wordbankでは,検索対象を特定のサブコーパスに限定することができ,また各用例にはどのサブコーパスに含まれるものであるかが,たとえば「<UK Written>」(イギリス英語の書き言葉)といった形式で示されている。この情報を整理したのが以下の表である。

動詞+experimentとサブコーパス
動詞 連語件数 UK US
Written Spoken Written Spoken
carry out 6 6 0 0 0
conduct 3 1 0 2 0
do 11 4 0 0 7
make 2 2 0 0 0
perform 1 0 1 0 0

この結果についても即断は避けなければならないが,特に目につくのがdoとの組み合わせでUS Spokenが多くなっている点である。少なくとも,どうやらdoexperimentの組み合わせはどちらかといえばインフォーマルなものである,ということは言えそうに思える(とは言うものの,話し言葉にもスピーチのようにフォーマルなものもあれば,書き言葉にも特にephemeraと呼ばれるものを中心にインフォーマルなものもある)。また,conduct以外はUS Writtenの用例がない点や,performの1例がUK Spokenである点も,さらに検討してみる価値はありそうだ。

COBUILD辞典との比較

以上の結果が,COBUILD辞典の検索結果と比較した場合にどうかを検討してみよう。上と同じ5つの組み合わせで辞典を例文検索してみると,以下のような結果となった。なお,句動詞・熟語・文法・語法の結果も含まれている。

WordbankCOBUILD辞典との比較(1)
動詞 Wordbank 辞典
有効件数 総件数 「ノイズ」率 有効件数 総件数 「ノイズ」率
carry out 6 9 33% 2 2 0%
conduct 3 5 40% 2 2 0%
do 11 35 69% 4 9 56%
make 2 11 82% 0 2 100%
perform 1 3 66% 0 0 N/A

まず注目すべきは,辞典の方がノイズが少ない項目がある点だ。carry outconductについては,辞典でヒットした用例はすべて的確なものであった。doについても,ノイズ率は下がっている。辞書の用例がある意図にもとづいて選択されているものであることを考えれば,ある程度は納得のいくことだ。

一方で,makeperformについては,的確な例文はまったくヒットしなかった(さらにperformについて言えば,そもそもexperimentとの組み合わせ自体がヒットしない)。このことの意味についても,その統計上の優位性も含めて,さらに大規模なコーパスでの検証が必要だろう。

もう1つ検討しておきたいのが,Wordbankと辞典での検索結果中,それぞれの動詞を含むものの構成比である。これは以下のようにまとめることができる。

WordbankCOBUILD辞典との比較(2)
動詞 Wordbank 辞典
有効件数 構成比 有効件数 構成比
carry out 6 26% 2 25%
conduct 3 13% 2 25%
do 11 48% 4 50%
make 2 9% 0 0%
perform 1 4% 0 0%
23   8  

少なくともcarry out / doに関しては,2つの動詞の構成比はWordbankと辞書でほぼ一致している。また,conductについても,ややoverrepresentation気味ではあるが,絶対数が少ない点も考え合わせると,適正だと言えるかもしれない。make / performについては,そもそもWordbankでも少ない点が影響しているかもしれない。

まとめ

500万語というコーパスの規模は,現在のコーパス言語学の状況を考えると決して大きなものではなく,これだけをもとに厳密なことが言えるわけではない。しかし,これだけのデータが個人レベルで簡単に利用できることの意味は大きいだろう。本稿をヒントに,読者の皆さんにも自分なりの利用法を考えてみてほしい。

Presented by:
インターネット大学院予備校「院試塾」
Web Site: http://homepage1.nifty.com/inshi/
E-mail: hatayan.yasumichi@nifty.ne.jp