このブログを検索

2023/05/26

2023.5.26~ 新LCR本プロジェクト

Last Updated 2024/1/14

日本の読者に学習者コーパス研究(learner corpus research: LCR)の実践方法を紹介する新しい出版プロジェクトの進捗記録です。誤りを減らすために、また、万一誤りがあった場合は原因を探せるようにするため、執筆の進捗を記録に残します。

●開始までの経緯
2021/2月 企画書を提出
2021/2月 内諾あり、ただしシリーズとの不適合性の指摘あり
(この間、コロナで着手できず)
2021/12月 方向変更の可能性を打診
(この間、他の本の執筆作業を行っていたため引き続き着手できず)
2023/3月 関連するほか本の出版と再版改訂作業がすべて終了
2023/5/26 出版社に経緯を説明し、刊行可能性を改めて照会
2023/6/09 シリーズを変更したうえで、可能との返信確認
2023/6/12 新しい目次案を打診
2023/6/13 内諾あり、how to的内容も削らず、という方向を相互で確認
2023/6/14 執筆に着手
2024/2/28 およそ170pほど完了するが分析に使うコーパスデータそのものの課題に気づき悩む
<執筆を停止し、英語コーパスについてはL1種の拡大、日本語コーパスについてはデータそのもの加工を行う>
2024/10/6 約7か月間で、ベースとなるコーパスデータのアップデートが完了し、執筆を再開。すでに書いたものをいったん全部没にして新データで書き直す。
2024/12/10 現在243p。13章構成の10章途中まで完成。
2024/12/15 現在285pほど。いちおう12章分を仕上げ出版社に仮版として送付

●2025/1
1/1 休暇中なので、ホテルでまったり作業中。1章は読み返すとダラダラ長いので、構成を修正中。
1/2 他の章と揃えて「背景」セクションを作り、既存の内容を整理して収納
1/3 コーパス紹介については、5つのサブセクションを立てて2つのコーパスとも同じ順序で解説する方針に変更
1/4 分析手法とツールのセクションを章の末尾から上から2番目に移動
1/5 分析手法の総覧の表を新設。ツールの紹介の表は目的別に3分割して整理。チャプタ冒頭に「本章で学ぶこと」を新設。各セクションの冒頭にセクションサマリーを入れる。データのDL等の話をコーパスの解説から抜き出し、新設の「分析準備」のセクションに移動。ちょっとだけ触るつもりが、いつものようにほとんど作り直しになってきた。。。
1/6 1章の書き直しが終了。元版よりはかなりすっきりしたような気がする。冒頭セクションサマリはやはり不格好なので没に。あと、ICNALEのtagデータのコード化がちょっと不統一で触りたくなっている。。。またWEのtagデータの一部に欠損が見つかり、これも対応必要。☛油断していたら、PCフリーズで、今朝からやったすべての変更データが飛んだ。。。記憶をたどりながら1からやりなおし。作業終了。疲れた。1部にあわせ、2部と3部の扉の内容と書式を修正。
1/7 冒頭章のCIAのところに過剰過少や全体説明性等の話を追加。後でも出てくるがここでしておいたほうが良いかなと。
1/7 編集よりフィードバック到着。全体に読者視点がやや弱かったと反省。
1/8 1章を再度読み直して修正を継続。
1/9 学生レベルの読者を意識して、研究テーマの事例を1章に追加。
1/10 テーマ集はべた書きだったので、表形式に修正して簡潔に。
1/11 テーマ集の修正がほぼ終了。クラスタ分析の用語かぶりが気になる。2コーパス紹介文の修正。冒頭の参加者を概要に変える。書く内容を揃える。2コーパスのプロジェクト開始が2007/2009でほぼ揃っているのが感慨深い。
1/12 両コーパスの産出用例を追加
1/13 I-JAS for CIAの習熟度計算式を追加。ファイルコード関連で、WEのデータ側を調整中。
1/14 WEのtaggedデータの分割、全体のmg、tgのコード追加、tgフォルダへのtag guide追加、SDのリンク表示の修正、を行う。
1章が40pになってしまい、1章最後のデータDLのセクションを独立章に作り替える方向で大工事に突入。
・「2章」を新設
・1章と2章を第1部:準備編とする、以下第2~第4部を実践編に。
・第1部の扉ページを新設。それに合わせて2部以下も修正
・検索手法としてのクラスタ分析は、統計手法との重なりを避けるため単語連鎖検索に修正。
・ようやくここまで終わったところで「データの更新」を掛けると止まってしまい、またしても全喪失かと落ち込んだら今回はデータが残っていた。以後注意すること!



●2024/12
12/2 先月11/22より10日ほど別作業(月末締めの論文の提出、校正、各種の審査などなど)をしていてようやくこちらに復帰。EJWFTGの紹介はいろいろ迷って第3部ではなく第2部の頻度検索の箇所に付け足すことにして執筆再開。6.4.3.4節完了。あわせて関連する記述も修正。第3部の9章はEJWFTGをやめて仮説検定のセクションとする予定。
12/3 統計をかきかけるがちょっとぐちゃぐちゃっぽい。
12/4 それぞれ例題を立てるという、これまでのセクションと同じ構成にすることでなんとか形がついた。カイ二乗のセクションまで一応完成。ANOVAも書きかける。
12/5 ANOVAを書き進めるが、分量が多く、バランスが崩れてきたので、章の冒頭の背景のところに新セクションをたててANOVAを説明する。現状217p。250には収めたい。
12/6 ANOVAのセクション終わり、発展セクションへ
12/7 Holmのルールを復習。忘れていた。途中、HADの変数指定順がいまいちだったことに気づく。(コード・属性・値)だと「分析」からt検定にかからず、(コード・値・属性)にしないといけな。trickyな設定な気がする。丸一日あったので、統計のセクションの構成を書き換え。t検定とANOVAを別手法風に立てることに。(※t検定はANOVAの一部ともみなせるが、ANOVAの出力だと2群でもF値しか出ず、√Fにしないとtにならないので、やはりt検定として扱ったほうがわかりやすいような気がしてきてその方向で大幅に修正。
12/8-9 統計のセクションが膨大にややこしくなってきたがようやく整理完了。
(1) 当初t検定には触れず上位互換のANOVAだけ示すつもり
(2) しかしANOVAの結果ではF値しか出ず、√Fにしないとt値が出ないので、t検定にやはり触れることに
(3) 平均値のセクションとしてt検定とANOVAを同じデータで2群比較・3群比較する方式で書く
(4) しかし、分析手法や結果の読み方が長すぎて章として収集がつかなくなる
(5) t検定を独立させ、分析実例も1つ追加。これで構成が整う
いちおう、3つの例題まで書き直し終了。発展セクションの書き直し中。明日には終わりそう。対応有にも言及する。
12/10 東京出張。往路新幹線で統計の章が完成。帰りで回帰分析に着手、データづくり、枠組み執筆あたりまで。
12/11 回帰分析終了。続けてクラスタ分析へ。
12/12 クラスタ分析まで終了。あと1つになってしまった。HADのクラスタ分析の変数分類が、2-2rでなく、ケース分類と同じユークリッド基準になっていることをいまさらながら発見。。。
12/13 対応分析に着手
12/14 100語分析することに。ついでに結果を比較できるよう、クラスタに戻ってそちらも100語に揃える。対応分析で処理中、途中でHADが「500カテゴリ以上はだめ」とか言ってきたが、いろいろやっているとできてしまう。あと、変数登録のときも、なぜか最後の1個まで一気に指定すると入らない。。。いろいろ挙動に謎が多い。いろいろやり直してなんとか書く。
12/15 留意点のセクションを仕上げる。固有値1以上と言われるが、カテゴリ数増えると下がるのは自明なので、あまり意味がないかも、的なことを書いておく。その後、前書きの残りを仕上げ、12章まで終わり。13を章にするかあとがきに代えるか、出版社の意見を聞くためここでいったん止めて送る。
12/30 まる2週間他の仕事をしていて、こちらに復帰。出版社からのフィードバックがないのが不安だが、一から見直すかな。
12/31 冒頭1章から読み直しと修正に入る。1章は出だしをもっと簡単にする方向で。学部生当たりの読者だとすると、いきなり第2言語習得とは、でなく、第1言語習得との違い、のような話があったほうがよいかなと。。。


●2024/11
11/1 修正に時間を取っていたが、新しい枠組みで3章までいちおう完成。次は共起語。現在89p。全体200ぐらいになるか?完成版の縦横フォーマットに組み替えると現在113pだった。図版が多いのをどうするか。。。
11/2 共起語の英語分析終了、日本語分析途中まで。
11/3 共起語の日本語分析終わる。面白くなさそうだったが書くとそれなりに面白い。続いて統計へ。
11/4 対数尤度比の計算実例を出そうとして、式がわからなくなり午前中いっぱい溶ける。最後、自分が昔作ったファイルを出してきてようやく納得がいった・・・とともに、昔自分が作ったcolstatファイルがもっと拡張できることを発見。後でやろう。いちおう共起語の章が終わり。次はプロット検索へ(一応書けているので修正メイン、次は速そうだが、分布度と位置の話をどのぐらい切り分けるか思案中)
11/6 プロット検索の書き直し終了。グラフと統計値の扱いを一体化。統計値の解説部分を整理して書き直し。すっきりした!(たぶん)
11/7 第2部の扉ページを執筆。単語頻度表セクション着手。冒頭で、出現形、集約形を2個並べて紹介する形式。
11/9 手法に入り、TagAntの紹介、spaCyでのレマ化操作まで終了。
11/10 英語完成、日本語完成。
11/11 発展研究に入る。整合上、クラスター章に戻り発展研究を書き換え。6章終わり。現在161p。7.2の英語分析まで終わり。
11/12 日本語の分析の途中まで。表のデザインを変更、PMW数値追加、冒頭の計量概観のやりなおし、両方に出ているものをマーク。7.2に戻って修正。
11/13 修正版の英日分析が終了。項目は共通項を示し、非共通項で特徴を示す方針に切り替え。その後、統計値の解説に入るが、どうしてもAntconのエントロピーの計算実態がわからず、10時間ぐらい論文探したりぐずぐず考えたりしていて、ようやく日付の変わる前に、数字が一致した!ユーリカ!このほかTTRの説明を初出箇所(語彙頻度)に追加。
11/14 エントロピーの解説をさらに書き換え。TTRとエントロピーがなぜpframeにいるのかを自分なりに納得して説明に加える。
11/15 エントロピーの箇所がほぼ完成。先行研究にエントロピーを連続指標(predictablity low---> high)のようにとらえているものがあるけれど、情報量はinverted u 分布なので、こういうとらえ方は間違っているような気がする。この点は改めて要確認。
11/16 7章終わり。
11/17 第3部の扉だけ書いて進捗状況を出版社に送る(長いご無沙汰すみません。。。)
11/18 第8章(特徴語)に着手
11/19 第8章8.2まで終わり。edited essaysのデータの面白さがよく出た分析に。8.3に入る。現在183pほど。
11/20 第8章8.3(日本語)まで終わり。8.2ほどは面白くないがまあよいか。8.4の構成だけ作る。統計の説明は4章でかなり終わっているのでサクッと済ませたい。
11/21 8.4修正
11/22 8.4完成。あわせて効果量に関して1:10と10:100が変われば統計量は変わるという内容を追記。関連する4章の記述も修正。<ここで2部が終わったので、いったん止めて別の仕事に行く>


●2024/10
ずいぶん時間がたってしまいましたが、この間の整理と進捗の確認。
・原稿は170pほどで、内容はほぼ2月時点のまま。この間、本のベースとなるデータの大幅な拡充と加工に従事。
・I-JASのデータ(ダウンロード版)が非常に構造が複雑で一般的なコンコーダンサでの使用が難しく、このままでは本で紹介するのが難しい☛「I-JAS for CIA」を構築。2024年8月に国語研究WSで発表、その後、開発者の許可が取れ、正式にDLが可能になる見通しに(これで、習熟度統制を行ったデータ比較の問題ができる素地が完成)
・ICNALEについては、Written Essays Plusで大幅に地域が拡大し、2024年8月に新データを使った論文を脱稿。国際比較、言語系統比較の話ができる素地が整った
・10/6 I-JAS WEP V0.3リリース
☛現時点の最新データで再度原稿の書き直しと拡充に着手。当面、12月に草稿の脱稿を目指す。
10/7 古いものを書き足すのでなく再度新しデータを使って一から書いてみることに。教科書をイメージして「全15講」的な構成で。まずはKWICについて英語のほうを書いてみた。
10/8 Pakistanの博論審査で進まず
10/9 英語の方を微修正。日本語について、まずはI-JASのマージデータを作成。その後、「よね」で一応書きあげるが気に入らず、没に。「でも」でやり直しの方向。
10/10 「でも」で書き直し、プロット検索に着手
10/11 日本語データのweb茶豆加工についてのセクションを書き始める
10/12 上記が完成。プロット検索の続きを再開
10/13 プロットの本体部が終了。Juilland's Dの解説とDTの解説を追加(これ、自分の本も含めてきちんと解説してあるのが少ないので分布度やりたい人には有用になるかも)
10/14  ブロック数の増加の話を追加、冒頭でプロット検索に二種あることを追加
10/15 さわっているうちに、overlayも言及したくなる。また、書き換えているうちにちょっと迷走モードに。日本語の分析も入れたい。Juilland's Dの出力値がちょっと納得いかない数字が出る場合がある。
10/16-17 ちょっと迷走中。英語のほう、最初Soでやってあまり面白くなく、reallyで書き直したがまだ面白くない。ちょっとここは冷却期間を置いて、先に日本語のほうをやってみる。
10/18 reallyについては冒頭に説明を入れて何とか落ち着いた。日本語は、コソアを取り上げることに。一度分析まで出したが、アレの中に「そうであれば」が入ることに気づき、取り下げ。この・その・あの、など色々試した挙句、最終的に「これ/それ/あれ+は」でやることにして何とか説明を書ききる。10/10~1週間迷走して何とかここまで来た。後は統計の解説を書き直せばこの沼を抜けられそう。★Juilland's Dは、最後に1回だけでている場合に指標値が極値の1になるなどときどき異常な振る舞いをする気がする。指標の問題? Antconcの問題?
10/19 統計の箇所修正
10/20 n-gram系を書き始める
10/21 Antconcで曖昧な位置づけのp-frame(できるのに、認知されていない)を独立した分析に昇華させて解説することに
10/22 英語ではSDでの連語探し、日本語をclusterにする(n-gram/p-frameと、clusterは本来、性質がだいぶん違う。ほんとはclusterのopen slot検索というのもあってしかるべきのような気がする)
10/23 出張準備でお休み
10/24 再開。
10/24-27 出張期間にクラスター、エヌグラム完成、共起語着手。
10/28 帰国して読み直してみると、どうも説明の順番が気に入らなくなってきた。
(1)語句の研究:kwic、clusterほか
(2)テキスト研究:word, keyword, n-gram
(3)複数テキスト研究:WJWFTG
という新しい区分で構成をやりなおし、1章にこのことを説明するセクション追加、「部」を導入し1部の導入を執筆、cluster/n-gramの結合章を再度バラス作業中。ちょっとぐちゃぐちゃになってきた(が乗り越えるとすっきりするはず)
10/29 別用でかかれず
10/30 書き終えたはずのセクションの構成がどうにも気に入らなくなってきた。背景→研究準備→分析1→分析2となっていたのを、背景→分析準備→分析手法→結果の概観、に変更して、1章をやりなおし。途中、NSとJLEを紹介する順番を変えるなど混迷深まる。。。が、これを超えるとすっきりになるはず、と信じたい。
10/31 新構想に従ってKWICの章をやりなおし。日本語については当初逆接接続詞「でも」で書き上げていたが、インタビュー発話を抜いているので、「でも」が自発話への否定なのか、インタビュワー発話の否定なのかがデータだけでは確認しにくく、没に。例題を「ている」に差し替え。いちおうKWIC章はできあがる。この後、クラスター分析に行く。

●2024/2
2/5 科研シンポが終わってようやく再開。ただ科研シンポで個別データを見る重要性が改めて認識され、ここにきて、冒頭のマージセクションの妥当性に疑問が生じてきている。。。まとめて形態素解析やタグ付けにかけたほうが楽というのはbackstage storyであって、本来は個別に処理すべきだという意見には納得するが、群で見るというのも大事で、ちょっと迷い中。
2/7 文化庁申請の書類作りが終わり、授業も最終日。ようやく続けられる。異常に忙しく、1月に比べると執筆のスピードが落ちていた。上記で書いたマージの是非は悩み中。ぐちゃぐちゃになっていた共起語検索については、小見出しを新設し、何とか終了。続く語彙頻度検索は内容少ないのでサクサクと終了。あと1つでこのセクション終われそう。現在全体110p程度。
2/9 いちおう特徴語分析まで書き終えて準備の部が完成したが、以下が気になり始める。
(i) 共起語の統計量はLLRだけだが、特徴語はいろいろで、説明の順序と矛盾
(ii) そもそもKWIC→3種のMWU→単語→特徴語という順序はちょっとおかしい(視点が小→大になっていて、一般的なデータの観察の手順とあわない)
(iii) how toだけ書いたが、サンプルの中身に踏み込んだ解説がないと面白くない。。。
ということで、この部分の大改造に着手する羽目に
2/10 方針決定
(i')(ii') Word/Keyword → KWIC → MWUの順に。統計の話はKeywordのところに先に固めてやってしまう(統計量と効果量など)
(iii') なるべく結果についてもちょっとだけ触れる
(iv) データ登録セクションを新設。セクションの階層を修正。各分析の階層を1個上げ。
授業終わったので執筆のスピードは上がっているし、続けて書いているので気が散らず、集中力が維持できている。 さっさとこの箇所書き直して早く次の部に行きたい。
2/11 執筆が進む。特徴語のセクションを大幅に増補。私の理解もあやふやだったAntConc4の各種の統計値の説明をまとめて入れてしまうことに。
2/12 特徴語の説明をどんどん続ける。Anthonys先生ご自身による2012の詳しい統計ガイドを見つける。この資料は役立つ。
2/13 ダイス係数の式がしっくりこなかったのだが、公式の項目を全部ばらして、pptで概念図を書いていくことで、自分の理解もすっきりした。コーパス集合と当該語集合の重複部を見ているのだ、と理解すると後は話が早い。
2/13 AntConcの操作だけの章としていたが、各手法をそれぞれ独立の章として、そこにコンコーダンサの使い方と、ケーススタディを一緒に入れ込んでしまったほうがいいのでは、という気になる。その方向で、部の扉の修正。
2/15 新しい構想で構成を作りなおし、とりあえず語彙頻度分析の章がなんとなくできる。この感じでまずは各手法ごとに構成を修正していく予定。
2/16-19 修正の継続。特徴語が終わりKWICの途中。
2/23 修正を続け、細かい補充を随所でやりながら、いちおう第3部が半完成する。なお、当初、cluster/n-gram/collocateを1つにまとめる予定だったが、これは没にして、最初にcollocateを示し、その後にn/gram/clusterをまとめて扱うことに。各章のケーススタディはまだからっぽで、最終部もできていないが現状168pほど。圧縮しないといけないかもしれない。ちょっとほかの仕事が止まっているのでここで少し止めるかも。


●2024/1
1/1-2 英語のタグ付けセクションを新設。
1/6 基礎編がほぼ完成。編ごとに扉コラムを作る。実践編の冒頭として語彙分析をかきかけるが、その前に、AntConcの概要を示すセクションを追加
1/7-8 AntConcセクションの執筆を進める。
1/8 n-gramまで。TTとEntの復習ができてよかった(よくわかってなかった・・・)
1/9-13 ほかの仕事(LCSAW, WE5.2準備ほか)で執筆中断
1/14 執筆再開。AntConcの解説の章を1部に移動。2章のText Joinの解説に、並べ替えのステップを追加。3章タイトルの事前解析をアノテーションに変更。
1/15-18 ほかの雑用(パキスタンの博論審査、ジェンダー論文の提出など)処理を優先させた関係でこの間執筆が止まる
1/19 ようやく再開。1週間ほど止めると、もうどこを書いていたのかもはっきりせず、時間が無駄になる…AntConcの処理についてtoken definitionの解説を追加(Spacyでcan'tがca n tの3語になる謎現象の理由が書き出すことで自分でもようやく理解できた)
1/22 KWIC, cluster, n-gramまで同じ枠組での書き直しが終了。
1/23~文化庁申請、科研シンポ準備で時間がなく執筆止まる

●2023/12
12/13 別件の原稿がようやく完成し、遠ざかっていたこちらの執筆作業に切り替え。6月に書いていたころから半年たっているので、前に書いたものはいったん全部没にして、新たに演習タスク集のような形でまとめるのがよいのではないかと思い始め、その方向で新規に1セクションを書き始める(まだ自分の中でコンセプトがぶれている)
12/14 とりあえず1人の学習者のデータを使った日本語語彙表作成で書き出す。
12/15 一通り書き上げるが、マージデータのほうがおもしろいと思いなおす。ただマージするにはそのための手続きが膨大なので、マージの章を先に置くことにし、いちおうそこに着手。ついでに、結果を見て遊べるよう、習熟度別と、NS別比較ができるように。まだまだだが、とりあえずこちらの執筆にスイッチが入ったのはよかった。
12/17 一度スイッチが入ると後は快調に進んでいる。当初、CHNの個別学習者のデータで語彙表作成をやるというタスクの解説を書きかけていたが、分析に意味を持たせるために、(1)群データに切り替える、それに呼応して、(2)テキストマージと、(3)形態素解析を、それぞれ独立した章として前に置く、という方向で修正中。なお、執筆にあたり、()や<>の一括削除について、当初powershellを試したがエンコードでこけるので、Excelのワイルドカードを使うことに。Wordはワイルドカードにチェックを入れるステップがあるのに、Excelはデフォルトでワイルドカード対応になっていること(仕様の不ぞろい??)に改めて気づいた。35pほど書き終わった。
12/18 読み返して途中で、解説のデータを取り違えていることに気づき修正かける。あと、フィルタで学習者列を抽出した段階で置換していたのを、先に全体置換してからフィルタ書ける方針に変更(フィルタの状態で新しい列を作ると、フィルタがそこに反映されず、結果がずれる可能性があるため)。楽しくなってきた。。。40pぐらい。これなら300pぐらいはすぐだろう。
12/22 しばらく授業で離れていたがまた再開。ICNALE関連の記述を修正し、I-JASの概説に入る。この仕事、毎日ちょっとでも書かないとだめだな。1日飛ぶとテンションが落ちる。
12/23 I-JASの解説セクションを執筆
12/24 上記に合わせてICNALEの解説セクションを追加。ICNALEのマージのセクションを新設(途中)。わかりやすくておもしろいので、日韓の男女の発話量比較のような例題にする予定。
12/27 英語を書き上げて日本語の修正に入る。できるだけ対照的に書きたいので、前書いていたものは全部没で上書き。日本語は横断コーパスらしさを出すにはやはり複数母語にしたい。男女にしてみるべきかどうかは迷い中。英語は一瞬B1/B2の比較も入れようと思ったがそれは別に男女でなくてもいいので男女はB1/B2のみで。ちょっとぐちゃっとしてきた。整理しないと。
12/28 修論指導で時間がとれない
12/29 朝から英語と日本語セクションの整理・修正を行う。英語は男女比較、日本語はCLJの中級上級比較に決める(元に戻った?)。手順が見えやすくなるようサブセクションをつけて、日英での記述をそろえる。

●2023/9-2023/11の状況
異常に忙しく、ほとんど執筆が進まない。how toにするのかもう少しgeneralにするのか気持ちがぶれてなかなか方針が決まらない。

●2023/8の状況
8/1-20 国語研WS準備の関係でB-JASデータについて整理と概観を行う
8/29 学会で担当編集者と面会、9月末めどに中途のものを送る方向で

●2023/7の状況
7/1-5 ICNALEのデータ遺漏の対応に追われて執筆できず。明日から再開したい。

●2023/6の状況
6/14 SLAとL2の概念についての内容を書く
6/16 how toセクションを先行させるため、コンコーダンサの入手について書き始める
6/19 ICNALEとI-JASのデータ入手について解説を書き始める(通勤電車でしかゆっくり書く時間がとれない・・・)
6/20 一寸流れが悪いので、コンコーダンサのセクションに書いたオンラインvsスタンドアロンの話を上に持ってきて、国際コーパスのメリット、スタンドアロン研究のメリット、として、再構成する(流れはたぶんよくなったはず) 
6/23 やはり執筆は大学に行く通勤電車内が進む。ICNALEのデータDLと、データ構成について解説。途中で、モジュール間のフォルダネームの不一致が気になってきた。この機会に揃えるか? Data or text or transcriptsとか、plain text/ taggedとか。
6/26 RQが多数になりすぎたので、入門書としてちょっと不適。RQを1つか2つに絞って、例題1a、例題1b・・みたいにする方向に修正。英語語彙表作成は、頻度とレンジで。
6/27 語彙表に関して、表記形とレマの違いを示す表を追加。フォルダ名称変更の前提として、Ishikawa 2023の記述を再確認。幸い、言及なかった。変えるか。。。

=============================
現況のずれ
(EE) EE_Unmerged_Unclassified
(SD)  ICNALE SD 1.3 Classified
(SM)  Unmerged
(WE)  Unmerged
=============================
6/28-30 執筆を止めて、ICNALEのアップデート作業を行う。フォルダの統一、SDのファイルネームの統一、vertのtxt化など、懸案事項を一挙に処理し、HPの改訂まで行う。これでやっと執筆が再開できる。(この作業の過程でGRAのデータの遺漏が見つかり対策検討中)


2023/05/25

2023.5.25 マレーシア、Universiti Sultan Zainal Abidin大学で特別講演(online)

表記大学の言語学専攻の学部生クラスで、コーパス言語学の特別講義(online)を実施しました。

講義スライドより


講演後には、多くの質問があり、楽しい時間でした。マレーシアの若い学生さんたちが、コーパスに親しんでもらえたならばうれしいことです。

授業風景(画像加工済み)



2023/05/16

2023.5.15-17 SLLT2023(Kalisz, Poland)で研究発表

ポーランドのAdam Mickiewicz Universityで開催されたSecond Language Learning and Teaching: Taking Stock and Looking Aheadに参加し、研究発表を行いました。

学会サイト(写真は会場)

今回の発表では、新科研の方向性をふまえ、学習者の作文データに語彙文法タグを付与し、その観点から分類問題を再考した結果を報告しました。


Biberの6次元で学習者とNSの差異を見る

習熟度か、regionか?


地元ポーランドに加え、近隣のトルコなどの研究者から有意義な指摘やコメントをもらい、このテーマを論文化していくうえで大きなヒントを得ました。質問の多くは、1)母語か地域か、2)文化の影響は、というもので、このあたり、コーパス研究者としては意図的にふみこまないようにしている部分なのですが、まあ、そうもいっていられないよな、とあらためて感じた次第です。

この学会、応用言語学分野のオープンジャーナルで国際的にトップに近い位置にいるSLLTがベースになっており、invitedの顔ぶれも信じられないぐらいの豪華さで、いろいろな研究者の報告を聞くことも勉強になりました。

Invited speakers
Kata Csizér (Eötvös Loránd University, Budapest, Hungary)
Jean-Marc Dewaele (Birkbeck, University of London, London, UK)
Sarah Mercer (University of Graz, Austria)
Agnieszka Otwinowska-Kasztelanic (University of Warsaw, Poland)
Simone Pfenninger (University of Zurich, Switzerland)
Luke Plonsky (Northern Arizona University, USA)

最近の応用言語学のトレンドをふまえ、新しい教育心理学研究(positive psychology, gritなど)、新しい研究手法(complex dynamic system: CDS、replication studies, meta-analysis studiesなど)に焦点を当てた講演や発表が多く、この辺りも勉強になりました。このあたりは、単に、今の研究がこういう流れになっているんだ、という理解で終わらず、コーパス研究者として、どうこのトレンドに対処していくのか、考えていく必要がありそうです。また、講師の講演には、3月に出した「ベーシック応用言語学」の次期の改訂に加えたい内容も多かったです。

結果的に、コロナ後、3年半ぶりの、初めての海外学会となりました。初日の1日だけで、この3年間で自分が話した英語の総量以上を話した気がします(逆に言うと、日本で英語講師をやっていることの楽さ、ということかもしれません)。対面でいろいろな人と会って、あれこれ話すことの重要性を思い出した場でもありましたが、皿に盛られた料理のすぐ上で、大勢が一斉に大声で話しながら食べる、ということにはまだ完全には慣れが戻らず(そんなことを気にしている風の海外参加者はゼロだった)、かなり恐怖感を抱いてしまいました。このあたり、日本の学会がこのようになるまでにはまだ相当の時間が必要という気がします。


................................................

あれこれ聴講メモ

・Metaanalysis論文は通りやすい
・Metaanalysisへの避難として、元の論文の信頼性に限定、バイアスも再現
・石川感想 metaanalysis=Chat GPT??
・応用言語学のparadigm shiftのあれこれ
・対照分析を終わらせたZobl(1980)L1フランス語の英語学習者は I them see とは言わないが、L1英語のフランス語学習者はJe vois ellesと言う
・Metaanalyisisは統計的な厳密性、共通の基準を可能に
・etic(外側・第三者の視点)からemic(内側・当事者の視点)へ
・NS/NNS概念の否定(バイリンガルはモノリンガル×2にあらず)
・発音テストをすると、中国>香港。ESLなのになぜか?(面白い報告、ICNALEの地域区分にも影響する)
・70年代と2000年代?のドイツ語のclassroom発話コーパスの比較、コミュニカティブシフトを量的に検証する(good, fineなどの誉め言葉の頻度の変化)
・gritとresilienceは違う、resilienceは将来に対するマインドセット、gritは起こったことへの対処



 

2023/05/11

2023.5.11 兵庫県立伊川谷北高校探究講演会で講演

表記で講演を行いました。1年生の皆さんが対象でしたが、生徒さんはとても活発で、こちらの問いかけに対しても、多くのユニークな意見を出してくださいました。今後の探究の成果が非常に期待されます。

伊川谷北高校


講演スライドより(Chat GPTに作らせた講演原稿を読み上げてみて、
現代のコンピタンシーについて生徒さんと考えました)

伊川谷北高校のある神戸学園都市には、むかしは流通科学大学、いまは神戸市外大の非常勤教員としてときどき出かけますが、これら2つの学校以外には足を踏み入れる機会がありませんでした。今回、伊川谷北に行く途中で、兵庫県立大学のキャンパスを初めて覗いてきました。駅から近く、キャンパスもきれいで、これまで自分の関連する学会が県立大で開かれていないことが不思議です。


※同学校ウェブサイトより




2023/05/08

2023.5.8 研究メモ:Google Formの入力欄に語数制限をかける

目的:授業の予習課題で、毎週、Google Formでエッセイを提出させるが、指定語数(100-150語)から外れたものは、送信時にはじく(=エラーメッセージを出して修正させる)ようにしたい

1)エッセイを書かせるボックス(段落)の右下の設定ボタン(点が縦三つ)をクリック

2)「回答の検証」を押す

3)左から順に、下記のように入力

正規表現 一致する ^\W*(\w+(\W+|$)){100,150}$  エラーの際のメッセージ

一例


規定に外れた短いエッセイを送ろうとすると・・・


という感じで、再入力が自動で指示されるようになります。

正規表現については、Knowledeg for Google Productsさまに記載されていた内容をアレンジして使わせていただきました。ここにたどり着くまで、あれこれ探したのですが、なかなかほしい情報が見つけられず、このように知見をシェアくださっていること、感謝です。
 

あと、同じようなことで、入力した語数をその都度表示する(※TOEFLの作文テストの画面のようなもの)ものも実現したいのですが、まだこれは(できるかどうかも含めて)調査中です。。 Microsoftならできる、という情報もありますが、Google Formではどうなのか??