このブログを検索

2016/12/14

2016.12.14 国語研日本語ウェブコーパス検索系講習会参加


表記の講習会に参加し,国語研究所で開発中の10億語コーパスの新しい検索技術について学びました。


日時:2016/12/14 (水) 9:30-11:30
場所:大阪:梅田:イオンコンパス大阪駅前会議室 Room D
講師:浅原正幸先生(国立国語研究所)

参考
国語研日本語ウェブコーパス http://pj.ninjal.ac.jp/corpus_center/nwjc/

1)ウェブを母集団とする
2)100 億語規模
3)「稀言語現象の言語学的、心理学的および情報処理的視点からの研究」用
4)「言語研究のための用例収集、日本語使用実態の定量的な把握」などの用途を想定

検索結果例 http://pj.ninjal.ac.jp/corpus_center/nwjc/bonten-results.html

所感
大納言・中納言・梵天などの種別があるという「四十松」に着想を得て命名された新しい検索系は,係受けをビジュアルに示すという点で,統語研究などに有益であると感じました。また,わかりやすアウトプットがあれば(たとえば,単語Xを指定すれば,受けの側のYの頻度リストを自動生成する等),さらに利便性が高まると感じました。ただ,新コーパスについては,サイズが圧倒的に大きいことや,editingが入っていないデータも多いだけに,言語教育研究への応用の是非については,伸長に考えていきたいと感じた次第です。