このブログを検索

2023/05/26

2023.5.26~ 新LCR本プロジェクト

Last Updated 2024/2/23

日本の読者に学習者コーパス研究(learner corpus research: LCR)の実践方法を紹介する新しい出版プロジェクトの進捗記録です。誤りを減らすために、また、万一誤りがあった場合は原因を探せるようにするため、執筆の進捗を記録に残します。

●開始までの経緯
2021/2月 企画書を提出
2021/2月 内諾あり、ただしシリーズとの不適合性の指摘あり
(この間、コロナで着手できず)
2021/12月 方向変更の可能性を打診
(この間、他の本の執筆作業を行っていたため引き続き着手できず)
2023/3月 関連するほか本の出版と再版改訂作業がすべて終了
2023/5/26 出版社に経緯を説明し、刊行可能性を改めて照会
2023/6/09 シリーズを変更したうえで、可能との返信確認
2023/6/12 新しい目次案を打診
2023/6/13 内諾あり、how to的内容も削らず、という方向を相互で確認
2023/6/14 執筆に着手

●2024/2
2/5 科研シンポが終わってようやく再開。ただ科研シンポで個別データを見る重要性が改めて認識され、ここにきて、冒頭のマージセクションの妥当性に疑問が生じてきている。。。まとめて形態素解析やタグ付けにかけたほうが楽というのはbackstage storyであって、本来は個別に処理すべきだという意見には納得するが、群で見るというのも大事で、ちょっと迷い中。
2/7 文化庁申請の書類作りが終わり、授業も最終日。ようやく続けられる。異常に忙しく、1月に比べると執筆のスピードが落ちていた。上記で書いたマージの是非は悩み中。ぐちゃぐちゃになっていた共起語検索については、小見出しを新設し、何とか終了。続く語彙頻度検索は内容少ないのでサクサクと終了。あと1つでこのセクション終われそう。現在全体110p程度。
2/9 いちおう特徴語分析まで書き終えて準備の部が完成したが、以下が気になり始める。
(i) 共起語の統計量はLLRだけだが、特徴語はいろいろで、説明の順序と矛盾
(ii) そもそもKWIC→3種のMWU→単語→特徴語という順序はちょっとおかしい(視点が小→大になっていて、一般的なデータの観察の手順とあわない)
(iii) how toだけ書いたが、サンプルの中身に踏み込んだ解説がないと面白くない。。。
ということで、この部分の大改造に着手する羽目に
2/10 方針決定
(i')(ii') Word/Keyword → KWIC → MWUの順に。統計の話はKeywordのところに先に固めてやってしまう(統計量と効果量など)
(iii') なるべく結果についてもちょっとだけ触れる
(iv) データ登録セクションを新設。セクションの階層を修正。各分析の階層を1個上げ。
授業終わったので執筆のスピードは上がっているし、続けて書いているので気が散らず、集中力が維持できている。 さっさとこの箇所書き直して早く次の部に行きたい。
2/11 執筆が進む。特徴語のセクションを大幅に増補。私の理解もあやふやだったAntConc4の各種の統計値の説明をまとめて入れてしまうことに。
2/12 特徴語の説明をどんどん続ける。Anthonys先生ご自身による2012の詳しい統計ガイドを見つける。この資料は役立つ。
2/13 ダイス係数の式がしっくりこなかったのだが、公式の項目を全部ばらして、pptで概念図を書いていくことで、自分の理解もすっきりした。コーパス集合と当該語集合の重複部を見ているのだ、と理解すると後は話が早い。
2/13 AntConcの操作だけの章としていたが、各手法をそれぞれ独立の章として、そこにコンコーダンサの使い方と、ケーススタディを一緒に入れ込んでしまったほうがいいのでは、という気になる。その方向で、部の扉の修正。
2/15 新しい構想で構成を作りなおし、とりあえず語彙頻度分析の章がなんとなくできる。この感じでまずは各手法ごとに構成を修正していく予定。
2/16-19 修正の継続。特徴語が終わりKWICの途中。
2/23 修正を続け、細かい補充を随所でやりながら、いちおう第3部が半完成する。なお、当初、cluster/n-gram/collocateを1つにまとめる予定だったが、これは没にして、最初にcollocateを示し、その後にn/gram/clusterをまとめて扱うことに。各章のケーススタディはまだからっぽで、最終部もできていないが現状168pほど。圧縮しないといけないかもしれない。ちょっとほかの仕事が止まっているのでここで少し止めるかも。


●2024/1
1/1-2 英語のタグ付けセクションを新設。
1/6 基礎編がほぼ完成。編ごとに扉コラムを作る。実践編の冒頭として語彙分析をかきかけるが、その前に、AntConcの概要を示すセクションを追加
1/7-8 AntConcセクションの執筆を進める。
1/8 n-gramまで。TTとEntの復習ができてよかった(よくわかってなかった・・・)
1/9-13 ほかの仕事(LCSAW, WE5.2準備ほか)で執筆中断
1/14 執筆再開。AntConcの解説の章を1部に移動。2章のText Joinの解説に、並べ替えのステップを追加。3章タイトルの事前解析をアノテーションに変更。
1/15-18 ほかの雑用(パキスタンの博論審査、ジェンダー論文の提出など)処理を優先させた関係でこの間執筆が止まる
1/19 ようやく再開。1週間ほど止めると、もうどこを書いていたのかもはっきりせず、時間が無駄になる…AntConcの処理についてtoken definitionの解説を追加(Spacyでcan'tがca n tの3語になる謎現象の理由が書き出すことで自分でもようやく理解できた)
1/22 KWIC, cluster, n-gramまで同じ枠組での書き直しが終了。
1/23~文化庁申請、科研シンポ準備で時間がなく執筆止まる

●2023/12
12/13 別件の原稿がようやく完成し、遠ざかっていたこちらの執筆作業に切り替え。6月に書いていたころから半年たっているので、前に書いたものはいったん全部没にして、新たに演習タスク集のような形でまとめるのがよいのではないかと思い始め、その方向で新規に1セクションを書き始める(まだ自分の中でコンセプトがぶれている)
12/14 とりあえず1人の学習者のデータを使った日本語語彙表作成で書き出す。
12/15 一通り書き上げるが、マージデータのほうがおもしろいと思いなおす。ただマージするにはそのための手続きが膨大なので、マージの章を先に置くことにし、いちおうそこに着手。ついでに、結果を見て遊べるよう、習熟度別と、NS別比較ができるように。まだまだだが、とりあえずこちらの執筆にスイッチが入ったのはよかった。
12/17 一度スイッチが入ると後は快調に進んでいる。当初、CHNの個別学習者のデータで語彙表作成をやるというタスクの解説を書きかけていたが、分析に意味を持たせるために、(1)群データに切り替える、それに呼応して、(2)テキストマージと、(3)形態素解析を、それぞれ独立した章として前に置く、という方向で修正中。なお、執筆にあたり、()や<>の一括削除について、当初powershellを試したがエンコードでこけるので、Excelのワイルドカードを使うことに。Wordはワイルドカードにチェックを入れるステップがあるのに、Excelはデフォルトでワイルドカード対応になっていること(仕様の不ぞろい??)に改めて気づいた。35pほど書き終わった。
12/18 読み返して途中で、解説のデータを取り違えていることに気づき修正かける。あと、フィルタで学習者列を抽出した段階で置換していたのを、先に全体置換してからフィルタ書ける方針に変更(フィルタの状態で新しい列を作ると、フィルタがそこに反映されず、結果がずれる可能性があるため)。楽しくなってきた。。。40pぐらい。これなら300pぐらいはすぐだろう。
12/22 しばらく授業で離れていたがまた再開。ICNALE関連の記述を修正し、I-JASの概説に入る。この仕事、毎日ちょっとでも書かないとだめだな。1日飛ぶとテンションが落ちる。
12/23 I-JASの解説セクションを執筆
12/24 上記に合わせてICNALEの解説セクションを追加。ICNALEのマージのセクションを新設(途中)。わかりやすくておもしろいので、日韓の男女の発話量比較のような例題にする予定。
12/27 英語を書き上げて日本語の修正に入る。できるだけ対照的に書きたいので、前書いていたものは全部没で上書き。日本語は横断コーパスらしさを出すにはやはり複数母語にしたい。男女にしてみるべきかどうかは迷い中。英語は一瞬B1/B2の比較も入れようと思ったがそれは別に男女でなくてもいいので男女はB1/B2のみで。ちょっとぐちゃっとしてきた。整理しないと。
12/28 修論指導で時間がとれない
12/29 朝から英語と日本語セクションの整理・修正を行う。英語は男女比較、日本語はCLJの中級上級比較に決める(元に戻った?)。手順が見えやすくなるようサブセクションをつけて、日英での記述をそろえる。

●2023/9-2023/11の状況
異常に忙しく、ほとんど執筆が進まない。how toにするのかもう少しgeneralにするのか気持ちがぶれてなかなか方針が決まらない。

●2023/8の状況
8/1-20 国語研WS準備の関係でB-JASデータについて整理と概観を行う
8/29 学会で担当編集者と面会、9月末めどに中途のものを送る方向で

●2023/7の状況
7/1-5 ICNALEのデータ遺漏の対応に追われて執筆できず。明日から再開したい。

●2023/6の状況
6/14 SLAとL2の概念についての内容を書く
6/16 how toセクションを先行させるため、コンコーダンサの入手について書き始める
6/19 ICNALEとI-JASのデータ入手について解説を書き始める(通勤電車でしかゆっくり書く時間がとれない・・・)
6/20 一寸流れが悪いので、コンコーダンサのセクションに書いたオンラインvsスタンドアロンの話を上に持ってきて、国際コーパスのメリット、スタンドアロン研究のメリット、として、再構成する(流れはたぶんよくなったはず) 
6/23 やはり執筆は大学に行く通勤電車内が進む。ICNALEのデータDLと、データ構成について解説。途中で、モジュール間のフォルダネームの不一致が気になってきた。この機会に揃えるか? Data or text or transcriptsとか、plain text/ taggedとか。
6/26 RQが多数になりすぎたので、入門書としてちょっと不適。RQを1つか2つに絞って、例題1a、例題1b・・みたいにする方向に修正。英語語彙表作成は、頻度とレンジで。
6/27 語彙表に関して、表記形とレマの違いを示す表を追加。フォルダ名称変更の前提として、Ishikawa 2023の記述を再確認。幸い、言及なかった。変えるか。。。

=============================
現況のずれ
(EE) EE_Unmerged_Unclassified
(SD)  ICNALE SD 1.3 Classified
(SM)  Unmerged
(WE)  Unmerged
=============================
6/28-30 執筆を止めて、ICNALEのアップデート作業を行う。フォルダの統一、SDのファイルネームの統一、vertのtxt化など、懸案事項を一挙に処理し、HPの改訂まで行う。これでやっと執筆が再開できる。(この作業の過程でGRAのデータの遺漏が見つかり対策検討中)


2023/05/25

2023.5.25 マレーシア、Universiti Sultan Zainal Abidin大学で特別講演(online)

表記大学の言語学専攻の学部生クラスで、コーパス言語学の特別講義(online)を実施しました。

講義スライドより


講演後には、多くの質問があり、楽しい時間でした。マレーシアの若い学生さんたちが、コーパスに親しんでもらえたならばうれしいことです。

授業風景(画像加工済み)



2023/05/16

2023.5.15-17 SLLT2023(Kalisz, Poland)で研究発表

ポーランドのAdam Mickiewicz Universityで開催されたSecond Language Learning and Teaching: Taking Stock and Looking Aheadに参加し、研究発表を行いました。

学会サイト(写真は会場)

今回の発表では、新科研の方向性をふまえ、学習者の作文データに語彙文法タグを付与し、その観点から分類問題を再考した結果を報告しました。


Biberの6次元で学習者とNSの差異を見る

習熟度か、regionか?


地元ポーランドに加え、近隣のトルコなどの研究者から有意義な指摘やコメントをもらい、このテーマを論文化していくうえで大きなヒントを得ました。質問の多くは、1)母語か地域か、2)文化の影響は、というもので、このあたり、コーパス研究者としては意図的にふみこまないようにしている部分なのですが、まあ、そうもいっていられないよな、とあらためて感じた次第です。

この学会、応用言語学分野のオープンジャーナルで国際的にトップに近い位置にいるSLLTがベースになっており、invitedの顔ぶれも信じられないぐらいの豪華さで、いろいろな研究者の報告を聞くことも勉強になりました。

Invited speakers
Kata Csizér (Eötvös Loránd University, Budapest, Hungary)
Jean-Marc Dewaele (Birkbeck, University of London, London, UK)
Sarah Mercer (University of Graz, Austria)
Agnieszka Otwinowska-Kasztelanic (University of Warsaw, Poland)
Simone Pfenninger (University of Zurich, Switzerland)
Luke Plonsky (Northern Arizona University, USA)

最近の応用言語学のトレンドをふまえ、新しい教育心理学研究(positive psychology, gritなど)、新しい研究手法(complex dynamic system: CDS、replication studies, meta-analysis studiesなど)に焦点を当てた講演や発表が多く、この辺りも勉強になりました。このあたりは、単に、今の研究がこういう流れになっているんだ、という理解で終わらず、コーパス研究者として、どうこのトレンドに対処していくのか、考えていく必要がありそうです。また、講師の講演には、3月に出した「ベーシック応用言語学」の次期の改訂に加えたい内容も多かったです。

結果的に、コロナ後、3年半ぶりの、初めての海外学会となりました。初日の1日だけで、この3年間で自分が話した英語の総量以上を話した気がします(逆に言うと、日本で英語講師をやっていることの楽さ、ということかもしれません)。対面でいろいろな人と会って、あれこれ話すことの重要性を思い出した場でもありましたが、皿に盛られた料理のすぐ上で、大勢が一斉に大声で話しながら食べる、ということにはまだ完全には慣れが戻らず(そんなことを気にしている風の海外参加者はゼロだった)、かなり恐怖感を抱いてしまいました。このあたり、日本の学会がこのようになるまでにはまだ相当の時間が必要という気がします。


................................................

あれこれ聴講メモ

・Metaanalysis論文は通りやすい
・Metaanalysisへの避難として、元の論文の信頼性に限定、バイアスも再現
・石川感想 metaanalysis=Chat GPT??
・応用言語学のparadigm shiftのあれこれ
・対照分析を終わらせたZobl(1980)L1フランス語の英語学習者は I them see とは言わないが、L1英語のフランス語学習者はJe vois ellesと言う
・Metaanalyisisは統計的な厳密性、共通の基準を可能に
・etic(外側・第三者の視点)からemic(内側・当事者の視点)へ
・NS/NNS概念の否定(バイリンガルはモノリンガル×2にあらず)
・発音テストをすると、中国>香港。ESLなのになぜか?(面白い報告、ICNALEの地域区分にも影響する)
・70年代と2000年代?のドイツ語のclassroom発話コーパスの比較、コミュニカティブシフトを量的に検証する(good, fineなどの誉め言葉の頻度の変化)
・gritとresilienceは違う、resilienceは将来に対するマインドセット、gritは起こったことへの対処



 

2023/05/11

2023.5.11 兵庫県立伊川谷北高校探究講演会で講演

表記で講演を行いました。1年生の皆さんが対象でしたが、生徒さんはとても活発で、こちらの問いかけに対しても、多くのユニークな意見を出してくださいました。今後の探究の成果が非常に期待されます。

伊川谷北高校


講演スライドより(Chat GPTに作らせた講演原稿を読み上げてみて、
現代のコンピタンシーについて生徒さんと考えました)

伊川谷北高校のある神戸学園都市には、むかしは流通科学大学、いまは神戸市外大の非常勤教員としてときどき出かけますが、これら2つの学校以外には足を踏み入れる機会がありませんでした。今回、伊川谷北に行く途中で、兵庫県立大学のキャンパスを初めて覗いてきました。駅から近く、キャンパスもきれいで、これまで自分の関連する学会が県立大で開かれていないことが不思議です。


※同学校ウェブサイトより




2023/05/08

2023.5.8 研究メモ:Google Formの入力欄に語数制限をかける

目的:授業の予習課題で、毎週、Google Formでエッセイを提出させるが、指定語数(100-150語)から外れたものは、送信時にはじく(=エラーメッセージを出して修正させる)ようにしたい

1)エッセイを書かせるボックス(段落)の右下の設定ボタン(点が縦三つ)をクリック

2)「回答の検証」を押す

3)左から順に、下記のように入力

正規表現 一致する ^\W*(\w+(\W+|$)){100,150}$  エラーの際のメッセージ

一例


規定に外れた短いエッセイを送ろうとすると・・・


という感じで、再入力が自動で指示されるようになります。

正規表現については、Knowledeg for Google Productsさまに記載されていた内容をアレンジして使わせていただきました。ここにたどり着くまで、あれこれ探したのですが、なかなかほしい情報が見つけられず、このように知見をシェアくださっていること、感謝です。
 

あと、同じようなことで、入力した語数をその都度表示する(※TOEFLの作文テストの画面のようなもの)ものも実現したいのですが、まだこれは(できるかどうかも含めて)調査中です。。 Microsoftならできる、という情報もありますが、Google Formではどうなのか??