表記で講演を行いました。
第2部 ワークショップ 14:50-15:50
「森を見ながら木を見る」コーパスデータ処理方法の提案―英語・日本語の複数テキストから形態素解析済み統合頻度表を自動作成するEJ-WFTGの開発―
(石川慎一郎 神戸大学教授)
・・・・・・・・・・・・・・・・・・・
概要
【森から木へ】 ESP研究,史的言語研究,社会言語研究,習得研究など,言語変種間の差異の解明を目指す研究においては,集めたテキスト資料を特定の観点(ジャンル,時代,発話環境,母語・習熟度など)で群化してマージし,マージデータ間で計量的な比較を行って,特定変種の特徴語や特徴表現を抽出するアプローチが広くとられています。この場合,研究の関心は,変種というまとまり,たとえて言えば,1つの森に向けられていることになります。しかし,森の実態は雑多な樹木の集合であり,その中には,高い木もあれば低い木もあり,常緑樹もあれば落葉樹もあることでしょう。このことをふまえれば,言語変種研究においても,「森を見ながら木を見る」,つまりは,群の情報を保ったまま個体データを観察するというアプローチが重要になってきます。
【複数テキストデータからの統合頻度表の作成】 こうした立場に立つ場合,まず必要になるのは,数十種,時には,数百種におよぶ個別テキストごとに,そこに含まれるすべての語の頻度を調べ,それらを全テキスト間で相互比較できるようにした「統合語彙表」の作成です。しかし,個別テキストから作成した頻度表を,エクセル上で加工して1つの巨大な「統合頻度表」に仕上げていくのは,手作業では膨大な時間がかかります。また,語彙頻度を扱う場合は,出現形(表層形,書字形,表記形)と集約形(語彙素,レマ)といった単位の違い,さらには,個々の語の品詞にも着目する必要がありますが,これらの処理もきわめて煩瑣なものです。
【EJWFTG】そこで,石川研究室では,一連の作業を自動化するEnglish/Japanese Word Frequency Table Generator(EJWFTG)を開発・公開しました。EJWFTGは,(1)日本語・英語の2言語に対応し、(2)OS環境を問わず稼働し、(3)基本形から集約形への変換、(4)品詞情報の付与、の一連の作業を自動処理する統合頻度表作成ツールです。EJWFTGは、Google Colaboratoryの機能を使って作成されており、Pythonで処理が行われます。EJWFTGは,ESP研究者はもちろん,史的言語研究者,社会言語研究者,SLAや学習者コーパスの研究者など,何らかの形で変種の問題を扱う幅広い研究者にとって有益なツールになると思います。なお、EJWFTGは今尾康裕氏のCasualConcの機能にインスパイアされて開発されました。
【ワークショップ】 ワークショップでは,まず,筆者自身の過去の研究(とくにコーパスを用いた性差研究)を振り返りつつ,「森を見ながら木を見る」アプローチの重要性についてお話します。続いて,EJWFTGの使用法をハンズオンで解説します。その後,ESP分野のサンプルデータ(当日配布)から実際に統合頻度表を作成してみます。余裕があれば,フリーの統計処理ツールを用い(当日配布),統合頻度表をベースとして,クラスター分析や対応分析を実行する方法も学びます。当日は各自にパソコンをご持参いただき,一連の作業をご自身で体験いただければと思います。おそらく1時間で,EJWFTGでの処理から多変量解析までの処理の流れを身につけていただけるのではと思います。受講にあたり,特段の前提知識は不要ですが,院生の方などで,こうした処理の経験がまったくない場合は,語彙論の基本的な枠組み,とくに,出現形と集約形の違い,単語の品詞判定の方式などについて,少しだけ学んでおいていただけると当日の理解が早まるかと思います(たとえば,石川2023『ベーシックコーパス言語学(2版)』の7.1.3~7.16などを参照)。また,3月末以降,復習用資料として,下記がオンラインで読めるようになる予定です。
石川慎一郎(in press)「『森を見ながら木を見る』学習者コーパス研究の意義―複数テキストから統合頻度表を自動作成するEJWFTG開発の狙い―」『統計数理研究所共同研究リポート』469, 1-22. https://x.gd/WoiEV