このブログを検索

2017/03/07

2017.3.7 国立国語研究所言語資源活用ワークショップ2016で研究発表

表記で発表を行いました。

石川慎一郎(神戸大) 日本語学習者コーパスの教育応用における留意点―『多言語母語の日本語学習者横断コーパス』に見る母語話者L1産出データの安定性検証を中心に―

当日は,日本語学習者コーパスI-JASのデータを用い,我々が正確で安定的であると前提視している母語話者のL1産出が実際には想像以上の揺らぎと多様性を持ちうることを報告しました。


学習者コーパス研究では,NS/NNS比較を行ってNNSの特徴を抽出し,L2教育に役立てるということが一般的ですが,この時,比較の基準となるNSのL1産出をどう見るかは悩ましいポイントです。検討すべき問題は2つあります。

1つは,属性的多様性,つまり,さまざまNSがいる中で,どのような人を集めるのか,ということです。もっとも,この点については,古くはLeech(1988)の指摘もあり,学習者コーパス研究の側でもある程度の対応を考えてきています。たとえば,BNCのdemographic dataの作り方などが参考になるでしょう。

もう1つは,産出的多様性です。これは,仮に均質な母語話者を集めて統制的課題を与えたとしても,その産出には一定のブレが発生しうるという問題です。こちらは従来あまり論じられてきませんでした。



上図で,青をNS,赤をNNSとします。従来,学習者コーパス研究は,NNS側については,様々な要因(属性,習熟度,プロンプト等)でブレが生じうることを織り込んでおり,それらを「点」でなく「面」とみなしていましたが,NSについては安定的で収束的な「点」とみなすことが一般的でした。つまり,NSとNNSを「点」と「面」と見立てて比較を行ってきたわけです(上図の真ん中のパタン)。

しかし,今回のデータ分析で浮かび上がってきたのは,NSのL1産出にも相対的に大きなブレがあり,NS/NNS比較は,点と点,点と面ではなく,面と面とみなして実施すべきではないかということです。

面と面の比較を行うのだと考えれば,NS/NNS比較を行う際の統計的な道具だても連動して変化させる必要があるでしょう。発表では,この点に関して,カイ二乗統計量系の指標から分散分析系の指標(F値)に移行することを提案しました。

カイ二乗系の処理では,コーパスを1つのかたまりととらえ,総語数と当該語の頻度だけで議論を組みたてます。一方,分散分析系の処理では,個々のテキストごと,個々の書き手ごとに頻度を取得し,各々の群(たとえば,NS群およびNNS群)の内部的な分散を量化した上で,群間分散との比率で差異の問題を考えることができます。

※なお,上記のスライド中,3つの群の関係を示すイラストは,向後研究室のウェブサイトのイラストを加工して使わせていただいています。
http://kogolab.chillout.jp/elearn/hamburger/chap6/sec2.html

コーパス研究では,ソフトウェアで実装されたアルゴリズムをそのまま使うことが多く,特徴語の検出には原則としてカイ二乗系の指標を使ってきたわけですが,NS/NNS比較のように,それぞれ内部的な分散が大きいデータを比べて処理を行う場合,統計量の妥当性についても再検討の必要がありそうです。

おまけ
なお,今回からプロシーディングスが電子化されています。全体をテキスト化して,形態素をザクッと見てみました。こういう分析を経年的に行えば,国内の日本語学関連のコーパス研究の関心の推移などがわかるかもしれません。(KH Coderによる分析)

高頻度形態素(主要品詞)

共起ネットワーク分析