神戸大学石川慎一郎研究室　活動報告: 2023.5.26～新LCR本プロジェクト

Last Updated　2026/7/13

日本の読者に学習者コーパス研究（learner corpus research: LCR）の実践方法を紹介する新しい出版プロジェクトの進捗記録です。誤りを減らすために、また、万一誤りがあった場合は原因を探せるようにするため、執筆の進捗を記録に残します。

●開始までの経緯
2021/2月　企画書を提出
2021/2月　内諾あり、ただし当方希望のシリーズとは不適合性の指摘あり
（この間、コロナで着手できず）
2021/12月　方向変更の可能性を打診
（この間、他の本の執筆作業を行っていたため引き続き着手できず）
2023/3月関連するほかの本の出版と再版改訂作業がすべて終了
2023/5/26 出版社に経緯を説明し、刊行可能性を改めて照会
2023/6/09 シリーズを変更したうえで、可能との返信確認
2023/6/12 新しい目次案を打診
2023/6/13 内諾あり、how to的内容も削らず、という方向を相互で確認
2023/6/14 当初版の執筆に着手
2024/2/28 およそ170pほど完了するが分析に使うコーパスデータそのものの課題に気づく
＜執筆中断。ICNALEのデータ整理と、I-JAS for CIA開発作業を半年かけて実施＞
2024/10/6 　コーパスの整理が終わったので執筆を再開。執筆済み原稿を全部没にして新データで書き直す。
2024/12/10 現在243p。13章構成の10章途中まで完成。
2024/12/15 現在285pほど。いちおう12章分を仕上げ出版社に仮版として送付
2025/6/1 一応完成版となる。文献込みで290pほど。
2025/8/31 プリントアウト原稿を入稿。目次抜き、文献込みで293p程度。
2026/1/23 初校受領
2026/2/28 初校返送
2026/5/20 再校返送
2026/7/20 三校返送予定（本文288p）

●2026/7
7/7 三校受領
7/8- 二校反映チェック・索引づくり開始
7/10 全体スキャン、OCR、索引づくり一応完成
7/11 目次チェック
7/12 図版タイトルチェック、英語全データ再チェック
7/13 日本語全データ再チェック、総語数が１語ずれたので検証した結果、冒頭の発話開始コード「:n」をカットしたか否かによることが確認。頻度値の再現を確認。

●2026/5
5/20 返送
5/11 冒頭から最終チェック開始
5/2-10 初校とチェックしながら反映確認
5/2 再校受理

●2026/2
2/26 初校返送
2/23 約1か月かけて全面的な校正（最初の企画書から丸5年。。。超難産の子になった）
主な修正点
・タイトル修正？（調整中）
・各手法の説明文を統一（各章でばらばらだったので）
・ICNALEのデータサイズ増加を反映
（2章）
・web茶まめのインタフェース変更、辞書アップデートを反映→日本語分析の数字が変わる…　書字形→表層形
・AntConcにおけるデータの削除方法を追加
（3章）
・検定統計量をα基準値と比較　OR 統計量からp値を計算してαと比較　の説明追加
・3.4節の例題（サイズ増やせば検定量増大）を差し替え。p値まで出して分かりやすいものに変更
・効果量の日本語名称の一部変更
・閾値についてはデフォルトを遵守し、必要語数が取り出せない場合に限って補正なしで、α＝１％または0.1%にする方針に修正し、全章を統一
（4章）
・図版でAntConcのnodeの文字が薄くなる問題を解決するためall黒字にした図版ファイルを作成しなおし（以下同）
・wouldの用例の解説を一部変更
・表の「ています頻度」「PMW」→「実測頻度」「PMW」に修正（以下同）
・表で双方の独自語を示す表の体裁を全章で統一（左右で比較できる、カンマか、で列記、／は使わない、片方だけは太字イタに）
・最終チェックで「けれど」「けど」「けれども」分析において、「けれど」頻度に「けれども」が入っていたことに気づき、「けど」「けれど」の2語を扱う例題に修正
（7章）
・plotのoverlay機能への言及を追加
・日本語分析の解釈部分をやり直し
（8章）
・日本語の絵描写という表現をストーリーテリングorライティングに修正（Ｄが別途あるため）
（10章）
・手順解説で「■検索条件設定」が落ちていたので追加
・特徴語にもword cloudを適用できることを追加
（11章）
・αとp値の関係を3章にならって追記
・between/withinの誤記を修正
・ともに有意差ありで差がなかったI/weをfor/inに差し替え
・論文報告書式を鈴木2023参考にして修正
・ANOVAの数値解説図版の下に読み方ガイドを追加
・誤差自由度＝全体自由度ー要因自由度を明記
（12章）
・ロジット転換の説明を修正
・回帰分析の結果シートの前半解説と後半解説の間につなぎ文を追加（ＡはわかりましたがＢはまだわかりません。そこで・・）
（13章）
・JarvisのL1 transfer要件の説明追加
（14章）
・語彙解釈→学習者解釈という手順と実例の手順がずれていたので手順のほうを修正
・情報量＝イナーシャ追加
（全体）
・日本語の形態素解析データを再度作り直し結果の再現性を検証

●2026/1
1/23　ほぼ5か月、動きがなく、忘れかけていたころに初校が届く

●2025/8
8/5 原稿を編集部送付→おおむねOK.紙も出すようにとの指示。
8/16-20 旅行先で原稿を読み直し
8/21-22 1～2章の修正。
（１章）序論の内部構成の順序を変更、反証可能性関連の記述を整理、コーパス分類から習熟度レベルをカット、学習者コーパスの実践の箇所をモデルと実例を一体化して圧縮、IELTSのスコア記述のミスを修正、
（２章）図版を入れ替え。手順番号を付記。ICNALEのファイル名の読み方を図に。POSの事例を修正。I-JASの手順を整理。図版差し替え。2章にあったI-JAS for CIAの説明を１章に移動。
（そのほか）Ishikawa, 2023, pp.1-2 方式に変更。p < .05等の表記統一、D, n, pのイタリック確認。統計関係のスペース明け。表頭のセンタリング。
8/24 3章の修正。実測値表と予測値表を１つに。冒頭の概念図カット。効果量の説明を追加。
8/25-29 全体（実例以外の部分）の流れを再度確認。
・クラスタ分析の計算説明を追加
・回帰分析の質的変数、量的変数の説明を追加
・統計、３章との被りをカット
・特徴語分析、石川2025/8から内容を追加
・Sinclairのopen choiceの説明追加
8/30
・図表番号を章内割付に変更。
・token/typeの訳語の説明追加
・図版白黒化
・下記統一
====================================
等→など
％　→%
一つ→1つ
token, type→総語数、語種数
オープンスロット→空所
期待値→予測値
：→:
；→;
====================================
参考文献チェック、言及ないものをカット。不足を追加。順番違えを修正。
8/31　投函、とりあえずいったん手を離れた。。。

●2025/7
7/14 ほぼ2週間放置して作業再開。まず統計専門家の校閲内容を原稿に反映。
7/29 EJTKANの情報を追記。

●2025/6
6/1 図表タイトル修正ほぼ終了。散開度の用語の背景説明追加。ひつじ編集に学会で会って挨拶。
6/2 McEnery&Hardieの引用部分を整理。「再現可能性」の用語のブレについて解説追加。G2が正規分布を前提にしないこと、共起語のスパンのいろいろの説明を追加。
6/3 M&Hの引用ページは英語版に。関連の３名の先生方に原稿を事前送付。読み合わせ依頼。
6/4-6 関連引用文献からの引用の取り込み作業。
6/7 ノンパラの話を追加、ハイフン、―、－の調整。
6/13 編集部からフィードバック。図版の番号の差し替えなどの指示あり。尤度比統計量の中にG2とX2が入る説明を追加。これでAntConcがLikelihoodとしていることの説明がいちおうつく。Grimm & Yarnold（名著！）からの引用を追加。
6/30 統計校閲の結果を受領。

●2025/5
5/1 Ch7の英語用例分析を修正。習熟度はMovice Intermediate Advanced分類に
5/2 Ch8-9の英語用例分析を修正。統計編除いていちおう英語の用例分析の圧縮と体裁の統一が終わる。
5/3 日本語の修正に入る。Ch3-5の修正。
5/4 Ch5の「けど」をやりなおし。「けれど・けど」に。あと、日本語のほうの学習者群の略称ENGとかが、英語とそろっていないのが気になる。英語のほうも略号でNIAというとわけがわからない。Low Mid HiighのLMHが良いような気もするがそれだと学習者にlowというのは言いにくい気もする。いまいちこのへんすっきりしない。あと３日ほどのGW残りでここは済ませたい。Ch5は「けど」だけの調査だったが「けれども・けれど・けど」の比較にアップグレード。Ch6はテーマは同じだが内容を全面的に書き換え。記述の不統一はまだ気になっていてこれはCh9まで終わった段階で再度見直したい。
5/5 朝からCh7の語彙頻度検索をやり直し。表層形と語彙素を並べるスタイルをやめて語彙素のみに。途中までやりかけてピクニック-picnicなどが残っていたことに気づき、web茶まめからやり直し。その際、-picnicを除去する語彙素（代表形）というボタンがあることに気づき解説に追加。夜、いちおう9章まで終了。打ち出し。
5/6 再度冒頭に戻って修正開始。語句→語とする、学習者はNIAでなく、A2などと表示する方向で修正。１日かけて修正がかなり進む。気になっていたNIAは削除。A2、B1など直接表記。手法面中心に記述を縦に見て揃えていく。Ch4 KWICの発展メモは大幅にカット。
5/7 Ch5共起語検索の発展編にある統計の箇所の修正に着手
5/8 短くまとめていたが、実測値と予測値の出し方を丁寧に説明する方針に変更。分量増えるかもと懸念。
5/9 各章の発展編の見直しと圧縮に着手。Ch5の発展編が長すぎて一部を統計の章に移動させる方針で。分布度について、実際にデータで検証して一致を確認。AntConcのSDはn-1でなくnで割る母集団標準偏差であることを確認。Juilland's Dもそれを受け継いでいる。なぜn-1でないのだろう？　コーパスは基本標本のはずだけど。
5/10 発展編の修正続行。7章のEJWFTG終えて8章へ。p-frameのentropyについての説明を全面的にやり替え。実際の文字列データを作って検証を行いやっと値が一致した！！
5/11 やろうかどうしようか迷っていたAntConcがらみの統計解説を１か所にまとめる大改造、ついに思い切ってやることに。しかし、これによって発生する変更は膨大で、ちょっとdauntingな気分になっている。
5/12 いちおう新３章（統計）が完成。このあとこの変更に伴う修正に入る。章節番号の修正一応終了（08:02）。共起語と特徴語の発展セクションの記載を修正。分布度→分散度に（12:00）。残っている大きい作業１．各章の番号が動いたので、分析ファイルの連番がずれて図版を取りなおす必要がある。２。統計章の見直し。以上の作業一通り終わり。日本語と英語の実例の見直し、新しいコード化に揃えて図版の撮り直しまで終了（19:32）。あと残っているのは第４部の統計のセクション。今月には終わるんじゃなかろうか。
5/13 カイ二乗まで終了。分散度は分散とまぎわらしいので散開度という聞いたことない言葉に代える。。。
5/14 t検定やりなおし。縮約辞のsについては、ちゃんとデータを調べて所有格の頻度を抜く。解説も一から書き直し。ANOVAの解説をやりなおし。サルでも（石川でも）わかる解説にしたく、こんな図も考案。統計ソフトで下記みたいに出力してくれたら便利なのに。

5/15 仮説検定の章終わり。期待した分量圧縮jはかなわず34pのまま。ショック。余計な絵を増やしたせいかも。気になっていた月末締め切りの別の論文がほぼ終わり。あと２週間、仕上げまで行けるか！？
5/16 重回帰の章を全部やり替え。説明変数の用語解説なども新規に追加。例題も入れ替え。r2が５割から７割にあがり、より魅力的な例題になった。やはり推定は表層形に限る
5/17 回帰のセクションの発展として投入基準の変更について追記。クラスターに入る（7:32）。先が見えてきた。。。
5/18 クラスタ終了。背景の部分を統計学的背景の説明に変更。対応分析に着手。手法の説明が全然なかったので位置から書いていく。自分の勉強にもなった。そうか、ユークリッド距離なんだ。そうか次元圧縮ってこういうことなんだ。。。樋口先生のわかりやすい論文に感謝！　ついでに、13章と同じデータでお茶を濁していた実例分析も日本語データに切り替えて一からやりなおし。
5/19 対応分析の説明が終了。先が見えてきたぞ。14章まで終了。参考文献の取り込み開始。
5/20 Kindleから参考文献を入れていく
5/21 書籍版と比較するとKindleのページはでたらめなことが判明。。。いちおう本にあたって文献追加。ついでに気になっていたwordcloudの解説追加。日本語も表示できることを発見してしまった。しかしなぜYahieなのか？？
5/22 Ch1-2の修正と圧縮進める。UTFの説明の場所を初出に移動。
5/23 Ch3の統計の修正に入る。冒頭に概念図追加。共起語の例題がわかりにくいので特徴語に変更する。統計３章の修正が終わる。この辺でいったん止めて他の懸案の仕事にいく。
5/26 ２日開けて復帰。２日飛ぶだけで意識も飛ぶ。別件で特徴語のシステムを作っていてAntConcの数字で挙動が合わないのがある。う～ん。もやもや感。

5/31 他用が終わりかける。こっちにもどらきゃ。図表のタイトルのずれを修正

●2025/4
4/11 １か月前に帰国したときに「月末入稿？」とふざけたことを書いておきながら、その後なんだかんだの締め切り仕事がずらり並んでいて、１個ずつこなしていって、ようやくあらかた終わってふと我に帰ったら１か月もたっていた。ふがいない。原稿一応ひととおりはできているがまだ固い気がする。これから頭から毎日読み直して直す。ＧＷには。。。（予定・・・未定・・・願望）。ここに書くことで、弾みがつくと期待。
4/12 まえがき。読み直すと5pもある。これは2pにしたく書き直しに着手。。。したところでもう１つ大きい仕事のdueがすぎていたことを忘れていたのでそっちを先にやる。
4/13 ほぼ１日で片付いたのにこちらに復帰。まえがき修正継続。修正完了。3pにまとめる。あわせて各部のタイトルなどを一括して修正。新書名案にあわせ、語彙解析、テキスト解析、統計解析という３本柱をわかりやすく。
4/14 clusterの訳を単語結合「形」に変更。三位一体、三次元アプローチの概念を強調。記述に■見出し追加。1章の修正中。M&Hよりコーパス利点のまとめを引用。
4/15 Ch 1の修正。先に1.2.3でCIAの説明を書くがちょっと流れが悪い。→前史の３段階変化を明示。CIAとkeyword analysisの関係がちょっともやっとしている。
4/16 スイッチが入って楽しくなってきた。再度一番最初に戻り、修正を進める。「学習者コーパスの重要性」→「学習者コーパス研究とはなにか」に変更。Apling /SLAとの関係解説を追加。M&Hの引用はむつかしいので言葉をかみ砕いて翻案的に紹介する方向に変更。1.2.2まで修正done。このあと、1.2.3に入る。
4/17-18 修正継続。完全にスイッチが入り、面白くなってきた。CIAに関する記述を全面的にやりかえ。CIA1→CIA2の順序を明確にし（概念図は２つまとめて出すのをやめて１個ずつ出す）、前史はCIA1説明の中に繰り込み。母語話者・非母語話者に加えて学習者という概念の問題点の指摘を追加。研究テーマと手法が重なっていたので、前者をカットし、新規に「学習者コーパス研究の実践」セクションを作り研究フローを示す。本書で使用するコーパスと、本書で使用するツールの順序を入れ替え、コーパス紹介は、構築理念セクションをなくして分量減らして概要の一部に統合、ICNALEは使用しないモジュールの説明をカット。
4/19 文献ガイドまでdone。分量は元と変わらず。2章に入る。ICNALE/I-JASをともに同じサブセクションで切っていたが、分量が違うのでサブセクションの構成を変える方向に。本での記述とそろえるためICNALEのsurveyシートを更新。Learner→Participantに。
4/20 ICNALEの記述がほぼ終わったので、I-JASの記述修正に着手。サブセクションを増やし、I-JAS for CIAの紹介などを加えてほぼ終わる。
4/21 ２章修正
4/22 3章へ。
4/23 実践編に入り、研究実例の冒頭の書きぶりの不統一が気になりはじめ、まず英語についてのみ縦に記述のスタイルを統一していく。また、コンパクト化のため、目的とデータを１につまとめる。
4/24 英語のほうの統一修正完了。日本語へ（※コーパス紹介でlearner backgroundを実例で使っていないのでカットすべきかちょっと悩み中）
4/25 日本語のほうの実例冒頭セクションの統一を一応終了。実例のタイトルを短く。ICNALE/I-JASの属性データの詳細説明はカット。
4/26 英語実例の本体（手法＋結果）を縦に通しで見てスタイルの統一を取る作業を開始。手法については■見出しで流れを明確にする。
4/27 英語について3章～6章まで終了。作業しつつ、証憑テキストファイルを作っていくことにする。初級とか中級とか言わず、また、日本人or日本語母語話者問題を回避するため、JPN-N、KOR-I、CHN_Aなどと呼称することに変更。
4/28 早朝から通勤時間でかなり大規模な変更を実施。AntConcへのデータ登録を簡易登録でなく本登録に変更。その過程を2章の最後に新セクションとして追加。修正作業が終わっていた3~6章の英語実例分析について上記に伴う変更を反映。触りすぎて果たして内容がよくなっているのかどうだかだんだんわからなくなってきたがよくなっていると信じたい。夜までやって、Ch 6のプロット検索まで終了。ついでにAntConcに各章の分析データを保存する作業を実施（後で検証ができる）。授業の合間を縫って作業を続けていると、朝の気分とは異なり、記述がより体系化されてきたような気がちょっとしてくる。このまま明日まで書き続けたいが明日は講演の仕事があり少しストップ。
4/29 Ch7の単語頻度検索の修正に入る、TagAntの解説新設
4/30 レマ化の頻度を作るのは無意味だという気がしてきてその個所をカットし、かつネイティブとの比較に切り替え
5/1 TagAntの内容を全部カット。元の公開済みのTree taggerを使うセクションを新設。このセクション大工事になってしまった

●2025/3
3/4 出張先（武漢）で作業を再開。
3/5 統計セクションの「この章で学ぶこと」の追加。クラスター分析まで終了。あと１つで終わり。
3/7 いちおう体裁上の修正が完了。
3/10 帰国して再度見直しを開始する。月末入稿？

●2025/2
2/1 学習者コーパスシンポで講演。この本の内容についても一部を紹介。
2/5 年度末で他の用事に忙殺されており3週間ぶりにこちらに戻ってくる。ともかく無理やりにでも戻らないと調子が出ないので、まずは「部」の表紙部分をちょこっと修正。
2/6-16 修正を継続。cluster/ngramの訳語を修正することを決断。
--- 統計数理の論文だし ---
2/25 ISM論文が終了し、この作業に戻ってくる。ちょっとやっては止まってなので、なかなか進まない。3月は専念でいきたいところ。
2/26- 統計でサンプル数のセクションを新設。N=385の説明など。

●2025/1

1/1 休暇中なので、ホテルでまったり作業中。1章は読み返すとダラダラ長いので、構成を修正中。
1/2 他の章と揃えて「背景」セクションを作り、既存の内容を整理して収納
1/3 コーパス紹介については、5つのサブセクションを立てて2つのコーパスとも同じ順序で解説する方針に変更
1/4 分析手法とツールのセクションを章の末尾から上から２番目に移動
1/5 分析手法の総覧の表を新設。ツールの紹介の表は目的別に３分割して整理。チャプタ冒頭に「本章で学ぶこと」を新設。各セクションの冒頭にセクションサマリーを入れる。データのＤＬ等の話をコーパスの解説から抜き出し、新設の「分析準備」のセクションに移動。ちょっとだけ触るつもりが、いつものようにほとんど作り直しになってきた。。。
1/6 1章の書き直しが終了。元版よりはかなりすっきりしたような気がする。冒頭セクションサマリはやはり不格好なので没に。あと、ICNALEのtagデータのコード化がちょっと不統一で触りたくなっている。。。またWEのtagデータの一部に欠損が見つかり、これも対応必要。☛油断していたら、PCフリーズで、今朝からやったすべての変更データが飛んだ。。。記憶をたどりながら１からやりなおし。作業終了。疲れた。1部にあわせ、2部と3部の扉の内容と書式を修正。
1/7 冒頭章のCIAのところに過剰過少や全体説明性等の話を追加。後でも出てくるがここでしておいたほうが良いかなと。
1/7 編集よりフィードバック到着。全体に読者視点がやや弱かったと反省。
1/8 １章を再度読み直して修正を継続。
1/9　学生レベルの読者を意識して、研究テーマの事例を１章に追加。
1/10 テーマ集はべた書きだったので、表形式に修正して簡潔に。
1/11 テーマ集の修正がほぼ終了。クラスタ分析の用語かぶりが気になる。2コーパス紹介文の修正。冒頭の参加者を概要に変える。書く内容を揃える。２コーパスのプロジェクト開始が2007/2009でほぼ揃っているのが感慨深い。
1/12 両コーパスの産出用例を追加
1/13 I-JAS for CIAの習熟度計算式を追加。ファイルコード関連で、WEのデータ側を調整中。
1/14 WEのtaggedデータの分割、全体のmg、tgのコード追加、tgフォルダへのtag guide追加、SDのリンク表示の修正、を行う。
１章が40pになってしまい、1章最後のデータＤＬのセクションを独立章に作り替える方向で大工事に突入。
・「2章」を新設
・1章と2章を第１部：準備編とする、以下第２～第４部を実践編に。
・第１部の扉ページを新設。それに合わせて２部以下も修正
・検索手法としてのクラスタ分析は、統計手法との重なりを避けるため単語連鎖検索に修正。
・ようやくここまで終わったところで「データの更新」を掛けると止まってしまい、またしても全喪失かと落ち込んだら今回はデータが残っていた。以後注意すること！

●2024/12
12/2 先月11/22より10日ほど別作業（月末締めの論文の提出、校正、各種の審査などなど）をしていてようやくこちらに復帰。EJWFTGの紹介はいろいろ迷って第３部ではなく第２部の頻度検索の箇所に付け足すことにして執筆再開。6.4.3.4節完了。あわせて関連する記述も修正。第３部の９章はEJWFTGをやめて仮説検定のセクションとする予定。
12/3 統計をかきかけるがちょっとぐちゃぐちゃっぽい。
12/4 それぞれ例題を立てるという、これまでのセクションと同じ構成にすることでなんとか形がついた。カイ二乗のセクションまで一応完成。ANOVAも書きかける。
12/5 ANOVAを書き進めるが、分量が多く、バランスが崩れてきたので、章の冒頭の背景のところに新セクションをたててANOVAを説明する。現状217p。250には収めたい。
12/6 ANOVAのセクション終わり、発展セクションへ
12/7 Holmのルールを復習。忘れていた。途中、HADの変数指定順がいまいちだったことに気づく。（コード・属性・値）だと「分析」からt検定にかからず、（コード・値・属性）にしないといけな。trickyな設定な気がする。丸一日あったので、統計のセクションの構成を書き換え。t検定とANOVAを別手法風に立てることに。（※t検定はANOVAの一部ともみなせるが、ANOVAの出力だと２群でもF値しか出ず、√Fにしないとtにならないので、やはりt検定として扱ったほうがわかりやすいような気がしてきてその方向で大幅に修正。
12/8-9 統計のセクションが膨大にややこしくなってきたがようやく整理完了。
(1) 当初t検定には触れず上位互換のANOVAだけ示すつもり
(2) しかしANOVAの結果ではF値しか出ず、√Fにしないとt値が出ないので、t検定にやはり触れることに
(3) 平均値のセクションとしてt検定とANOVAを同じデータで２群比較・３群比較する方式で書く
(4) しかし、分析手法や結果の読み方が長すぎて章として収集がつかなくなる
(5) t検定を独立させ、分析実例も１つ追加。これで構成が整う
いちおう、３つの例題まで書き直し終了。発展セクションの書き直し中。明日には終わりそう。対応有にも言及する。
12/10 東京出張。往路新幹線で統計の章が完成。帰りで回帰分析に着手、データづくり、枠組み執筆あたりまで。
12/11 回帰分析終了。続けてクラスタ分析へ。
12/12 クラスタ分析まで終了。あと１つになってしまった。HADのクラスタ分析の変数分類が、2-2rでなく、ケース分類と同じユークリッド基準になっていることをいまさらながら発見。。。
12/13 対応分析に着手
12/14 100語分析することに。ついでに結果を比較できるよう、クラスタに戻ってそちらも100語に揃える。対応分析で処理中、途中でHADが「500カテゴリ以上はだめ」とか言ってきたが、いろいろやっているとできてしまう。あと、変数登録のときも、なぜか最後の１個まで一気に指定すると入らない。。。いろいろ挙動に謎が多い。いろいろやり直してなんとか書く。
12/15 留意点のセクションを仕上げる。固有値１以上と言われるが、カテゴリ数増えると下がるのは自明なので、あまり意味がないかも、的なことを書いておく。その後、前書きの残りを仕上げ、12章まで終わり。13を章にするかあとがきに代えるか、出版社の意見を聞くためここでいったん止めて送る。
12/30 まる２週間他の仕事をしていて、こちらに復帰。出版社からのフィードバックがないのが不安だが、一から見直すかな。
12/31 冒頭1章から読み直しと修正に入る。1章は出だしをもっと簡単にする方向で。学部生当たりの読者だとすると、いきなり第2言語習得とは、でなく、第1言語習得との違い、のような話があったほうがよいかなと。。。

●2024/11
11/1 修正に時間を取っていたが、新しい枠組みで3章までいちおう完成。次は共起語。現在89p。全体200ぐらいになるか？完成版の縦横フォーマットに組み替えると現在113pだった。図版が多いのをどうするか。。。
11/2 共起語の英語分析終了、日本語分析途中まで。
11/3 共起語の日本語分析終わる。面白くなさそうだったが書くとそれなりに面白い。続いて統計へ。
11/4 対数尤度比の計算実例を出そうとして、式がわからなくなり午前中いっぱい溶ける。最後、自分が昔作ったファイルを出してきてようやく納得がいった・・・とともに、昔自分が作ったcolstatファイルがもっと拡張できることを発見。後でやろう。いちおう共起語の章が終わり。次はプロット検索へ（一応書けているので修正メイン、次は速そうだが、分布度と位置の話をどのぐらい切り分けるか思案中）
11/6 プロット検索の書き直し終了。グラフと統計値の扱いを一体化。統計値の解説部分を整理して書き直し。すっきりした！（たぶん）
11/7 第2部の扉ページを執筆。単語頻度表セクション着手。冒頭で、出現形、集約形を2個並べて紹介する形式。
11/9 手法に入り、TagAntの紹介、spaCyでのレマ化操作まで終了。
11/10 英語完成、日本語完成。
11/11 発展研究に入る。整合上、クラスター章に戻り発展研究を書き換え。6章終わり。現在161ｐ。7.2の英語分析まで終わり。
11/12 日本語の分析の途中まで。表のデザインを変更、PMW数値追加、冒頭の計量概観のやりなおし、両方に出ているものをマーク。7.2に戻って修正。
11/13 修正版の英日分析が終了。項目は共通項を示し、非共通項で特徴を示す方針に切り替え。その後、統計値の解説に入るが、どうしてもAntconのエントロピーの計算実態がわからず、１０時間ぐらい論文探したりぐずぐず考えたりしていて、ようやく日付の変わる前に、数字が一致した！ユーリカ！このほかＴＴＲの説明を初出箇所（語彙頻度）に追加。
11/14 エントロピーの解説をさらに書き換え。TTRとエントロピーがなぜpframeにいるのかを自分なりに納得して説明に加える。
11/15 エントロピーの箇所がほぼ完成。先行研究にエントロピーを連続指標（predictablity low---> high）のようにとらえているものがあるけれど、情報量はinverted u 分布なので、こういうとらえ方は間違っているような気がする。この点は改めて要確認。
11/16 7章終わり。
11/17 第3部の扉だけ書いて進捗状況を出版社に送る（長いご無沙汰すみません。。。）
11/18 第8章（特徴語）に着手
11/19 第8章8.2まで終わり。edited essaysのデータの面白さがよく出た分析に。8.3に入る。現在183pほど。
11/20 第8章8.3（日本語）まで終わり。8.2ほどは面白くないがまあよいか。8.4の構成だけ作る。統計の説明は４章でかなり終わっているのでサクッと済ませたい。
11/21 8.4修正
11/22 8.4完成。あわせて効果量に関して1:10と10:100が変われば統計量は変わるという内容を追記。関連する4章の記述も修正。＜ここで２部が終わったので、いったん止めて別の仕事に行く＞

●2024/10
ずいぶん時間がたってしまいましたが、この間の整理と進捗の確認。
・原稿は170pほどで、内容はほぼ２月時点のまま。この間、本のベースとなるデータの大幅な拡充と加工に従事。
・I-JASのデータ（ダウンロード版）が非常に構造が複雑で一般的なコンコーダンサでの使用が難しく、このままでは本で紹介するのが難しい☛「I-JAS for CIA」を構築。2024年8月に国語研究ＷＳで発表、その後、開発者の許可が取れ、正式にDLが可能になる見通しに（これで、習熟度統制を行ったデータ比較の問題ができる素地が完成）
・ICNALEについては、Written Essays Plusで大幅に地域が拡大し、2024年8月に新データを使った論文を脱稿。国際比較、言語系統比較の話ができる素地が整った
・10/6 I-JAS WEP V0.3リリース
☛現時点の最新データで再度原稿の書き直しと拡充に着手。当面、12月に草稿の脱稿を目指す。
10/7 古いものを書き足すのでなく再度新しデータを使って一から書いてみることに。教科書をイメージして「全15講」的な構成で。まずはKWICについて英語のほうを書いてみた。
10/8 Pakistanの博論審査で進まず
10/9 英語の方を微修正。日本語について、まずはI-JASのマージデータを作成。その後、「よね」で一応書きあげるが気に入らず、没に。「でも」でやり直しの方向。
10/10 「でも」で書き直し、プロット検索に着手
10/11 日本語データのweb茶豆加工についてのセクションを書き始める
10/12 上記が完成。プロット検索の続きを再開
10/13 プロットの本体部が終了。Juilland's Dの解説とDTの解説を追加（これ、自分の本も含めてきちんと解説してあるのが少ないので分布度やりたい人には有用になるかも）
10/14 　ブロック数の増加の話を追加、冒頭でプロット検索に二種あることを追加
10/15 さわっているうちに、overlayも言及したくなる。また、書き換えているうちにちょっと迷走モードに。日本語の分析も入れたい。Juilland's Dの出力値がちょっと納得いかない数字が出る場合がある。
10/16-17 ちょっと迷走中。英語のほう、最初Soでやってあまり面白くなく、reallyで書き直したがまだ面白くない。ちょっとここは冷却期間を置いて、先に日本語のほうをやってみる。
10/18　reallyについては冒頭に説明を入れて何とか落ち着いた。日本語は、コソアを取り上げることに。一度分析まで出したが、アレの中に「そうであれば」が入ることに気づき、取り下げ。この・その・あの、など色々試した挙句、最終的に「これ／それ／あれ＋は」でやることにして何とか説明を書ききる。10/10～1週間迷走して何とかここまで来た。後は統計の解説を書き直せばこの沼を抜けられそう。★Juilland's Dは、最後に1回だけでている場合に指標値が極値の１になるなどときどき異常な振る舞いをする気がする。指標の問題？　Antconcの問題？
10/19 統計の箇所修正
10/20 n-gram系を書き始める
10/21 Antconcで曖昧な位置づけのp-frame（できるのに、認知されていない）を独立した分析に昇華させて解説することに
10/22 英語ではSDでの連語探し、日本語をclusterにする（n-gram/p-frameと、clusterは本来、性質がだいぶん違う。ほんとはclusterのopen slot検索というのもあってしかるべきのような気がする）
10/23 出張準備でお休み
10/24 再開。
10/24-27 出張期間にクラスター、エヌグラム完成、共起語着手。
10/28 帰国して読み直してみると、どうも説明の順番が気に入らなくなってきた。
（１）語句の研究：kwic、clusterほか
（２）テキスト研究：word, keyword, n-gram
（３）複数テキスト研究：WJWFTG
という新しい区分で構成をやりなおし、１章にこのことを説明するセクション追加、「部」を導入し１部の導入を執筆、cluster/n-gramの結合章を再度バラス作業中。ちょっとぐちゃぐちゃになってきた（が乗り越えるとすっきりするはず）
10/29 別用でかかれず
10/30 書き終えたはずのセクションの構成がどうにも気に入らなくなってきた。背景→研究準備→分析１→分析２となっていたのを、背景→分析準備→分析手法→結果の概観、に変更して、１章をやりなおし。途中、NSとJLEを紹介する順番を変えるなど混迷深まる。。。が、これを超えるとすっきりになるはず、と信じたい。
10/31　新構想に従ってKWICの章をやりなおし。日本語については当初逆接接続詞「でも」で書き上げていたが、インタビュー発話を抜いているので、「でも」が自発話への否定なのか、インタビュワー発話の否定なのかがデータだけでは確認しにくく、没に。例題を「ている」に差し替え。いちおうKWIC章はできあがる。この後、クラスター分析に行く。

●2024/2
2/5 科研シンポが終わってようやく再開。ただ科研シンポで個別データを見る重要性が改めて認識され、ここにきて、冒頭のマージセクションの妥当性に疑問が生じてきている。。。まとめて形態素解析やタグ付けにかけたほうが楽というのはbackstage storyであって、本来は個別に処理すべきだという意見には納得するが、群で見るというのも大事で、ちょっと迷い中。
2/7 文化庁申請の書類作りが終わり、授業も最終日。ようやく続けられる。異常に忙しく、1月に比べると執筆のスピードが落ちていた。上記で書いたマージの是非は悩み中。ぐちゃぐちゃになっていた共起語検索については、小見出しを新設し、何とか終了。続く語彙頻度検索は内容少ないのでサクサクと終了。あと１つでこのセクション終われそう。現在全体110p程度。
2/9 いちおう特徴語分析まで書き終えて準備の部が完成したが、以下が気になり始める。
(i) 共起語の統計量はLLRだけだが、特徴語はいろいろで、説明の順序と矛盾
(ii) そもそもKWIC→3種のMWU→単語→特徴語という順序はちょっとおかしい（視点が小→大になっていて、一般的なデータの観察の手順とあわない）
(iii) how toだけ書いたが、サンプルの中身に踏み込んだ解説がないと面白くない。。。
ということで、この部分の大改造に着手する羽目に
2/10 方針決定
(i')(ii') Word/Keyword　→ KWIC →　MWUの順に。統計の話はKeywordのところに先に固めてやってしまう（統計量と効果量など）
(iii') なるべく結果についてもちょっとだけ触れる
(iv) データ登録セクションを新設。セクションの階層を修正。各分析の階層を1個上げ。
授業終わったので執筆のスピードは上がっているし、続けて書いているので気が散らず、集中力が維持できている。さっさとこの箇所書き直して早く次の部に行きたい。
2/11 執筆が進む。特徴語のセクションを大幅に増補。私の理解もあやふやだったAntConc4の各種の統計値の説明をまとめて入れてしまうことに。
2/12 特徴語の説明をどんどん続ける。Anthonys先生ご自身による2012の詳しい統計ガイドを見つける。この資料は役立つ。
2/13 ダイス係数の式がしっくりこなかったのだが、公式の項目を全部ばらして、pptで概念図を書いていくことで、自分の理解もすっきりした。コーパス集合と当該語集合の重複部を見ているのだ、と理解すると後は話が早い。
2/13 AntConcの操作だけの章としていたが、各手法をそれぞれ独立の章として、そこにコンコーダンサの使い方と、ケーススタディを一緒に入れ込んでしまったほうがいいのでは、という気になる。その方向で、部の扉の修正。
2/15 新しい構想で構成を作りなおし、とりあえず語彙頻度分析の章がなんとなくできる。この感じでまずは各手法ごとに構成を修正していく予定。
2/16-19 修正の継続。特徴語が終わりKWICの途中。
2/23 修正を続け、細かい補充を随所でやりながら、いちおう第3部が半完成する。なお、当初、cluster/n-gram/collocateを1つにまとめる予定だったが、これは没にして、最初にcollocateを示し、その後にn/gram/clusterをまとめて扱うことに。各章のケーススタディはまだからっぽで、最終部もできていないが現状168pほど。圧縮しないといけないかもしれない。ちょっとほかの仕事が止まっているのでここで少し止めるかも。

●2024/1
1/1-2 英語のタグ付けセクションを新設。
1/6 基礎編がほぼ完成。編ごとに扉コラムを作る。実践編の冒頭として語彙分析をかきかけるが、その前に、AntConcの概要を示すセクションを追加
1/7-8 AntConcセクションの執筆を進める。
1/8 n-gramまで。TTとEntの復習ができてよかった（よくわかってなかった・・・）
1/9-13 ほかの仕事（LCSAW, WE5.2準備ほか）で執筆中断
1/14 執筆再開。AntConcの解説の章を1部に移動。2章のText Joinの解説に、並べ替えのステップを追加。3章タイトルの事前解析をアノテーションに変更。
1/15-18 ほかの雑用（パキスタンの博論審査、ジェンダー論文の提出など）処理を優先させた関係でこの間執筆が止まる
1/19 ようやく再開。1週間ほど止めると、もうどこを書いていたのかもはっきりせず、時間が無駄になる…AntConcの処理についてtoken definitionの解説を追加（Spacyでcan'tがca n tの3語になる謎現象の理由が書き出すことで自分でもようやく理解できた）
1/22 KWIC, cluster, n-gramまで同じ枠組での書き直しが終了。
1/23～文化庁申請、科研シンポ準備で時間がなく執筆止まる

●2023/12
12/13　別件の原稿がようやく完成し、遠ざかっていたこちらの執筆作業に切り替え。6月に書いていたころから半年たっているので、前に書いたものはいったん全部没にして、新たに演習タスク集のような形でまとめるのがよいのではないかと思い始め、その方向で新規に1セクションを書き始める（まだ自分の中でコンセプトがぶれている）
12/14 とりあえず１人の学習者のデータを使った日本語語彙表作成で書き出す。
12/15 一通り書き上げるが、マージデータのほうがおもしろいと思いなおす。ただマージするにはそのための手続きが膨大なので、マージの章を先に置くことにし、いちおうそこに着手。ついでに、結果を見て遊べるよう、習熟度別と、NS別比較ができるように。まだまだだが、とりあえずこちらの執筆にスイッチが入ったのはよかった。
12/17 一度スイッチが入ると後は快調に進んでいる。当初、CHNの個別学習者のデータで語彙表作成をやるというタスクの解説を書きかけていたが、分析に意味を持たせるために、(1)群データに切り替える、それに呼応して、(2)テキストマージと、(3)形態素解析を、それぞれ独立した章として前に置く、という方向で修正中。なお、執筆にあたり、（）や＜＞の一括削除について、当初powershellを試したがエンコードでこけるので、Excelのワイルドカードを使うことに。Wordはワイルドカードにチェックを入れるステップがあるのに、Excelはデフォルトでワイルドカード対応になっていること（仕様の不ぞろい？？）に改めて気づいた。35pほど書き終わった。
12/18 読み返して途中で、解説のデータを取り違えていることに気づき修正かける。あと、フィルタで学習者列を抽出した段階で置換していたのを、先に全体置換してからフィルタ書ける方針に変更（フィルタの状態で新しい列を作ると、フィルタがそこに反映されず、結果がずれる可能性があるため）。楽しくなってきた。。。40pぐらい。これなら300pぐらいはすぐだろう。
12/22 しばらく授業で離れていたがまた再開。ICNALE関連の記述を修正し、I-JASの概説に入る。この仕事、毎日ちょっとでも書かないとだめだな。1日飛ぶとテンションが落ちる。
12/23 I-JASの解説セクションを執筆
12/24 上記に合わせてICNALEの解説セクションを追加。ICNALEのマージのセクションを新設（途中）。わかりやすくておもしろいので、日韓の男女の発話量比較のような例題にする予定。
12/27 英語を書き上げて日本語の修正に入る。できるだけ対照的に書きたいので、前書いていたものは全部没で上書き。日本語は横断コーパスらしさを出すにはやはり複数母語にしたい。男女にしてみるべきかどうかは迷い中。英語は一瞬B1/B2の比較も入れようと思ったがそれは別に男女でなくてもいいので男女はB1/B2のみで。ちょっとぐちゃっとしてきた。整理しないと。
12/28 修論指導で時間がとれない
12/29 朝から英語と日本語セクションの整理・修正を行う。英語は男女比較、日本語はCLJの中級上級比較に決める（元に戻った？）。手順が見えやすくなるようサブセクションをつけて、日英での記述をそろえる。

●2023/9-2023/11の状況
異常に忙しく、ほとんど執筆が進まない。how toにするのかもう少しgeneralにするのか気持ちがぶれてなかなか方針が決まらない。

●2023/8の状況
8/1-20 国語研WS準備の関係でB-JASデータについて整理と概観を行う
8/29 学会で担当編集者と面会、9月末めどに中途のものを送る方向で

●2023/7の状況
7/1-5 ICNALEのデータ遺漏の対応に追われて執筆できず。明日から再開したい。

●2023/6の状況
6/14 SLAとL2の概念についての内容を書く
6/16 how toセクションを先行させるため、コンコーダンサの入手について書き始める
6/19 ICNALEとI-JASのデータ入手について解説を書き始める（通勤電車でしかゆっくり書く時間がとれない・・・）
6/20 一寸流れが悪いので、コンコーダンサのセクションに書いたオンラインvsスタンドアロンの話を上に持ってきて、国際コーパスのメリット、スタンドアロン研究のメリット、として、再構成する（流れはたぶんよくなったはず）
6/23 やはり執筆は大学に行く通勤電車内が進む。ICNALEのデータDLと、データ構成について解説。途中で、モジュール間のフォルダネームの不一致が気になってきた。この機会に揃えるか？　Data or text or transcriptsとか、plain text/ taggedとか。
6/26 RQが多数になりすぎたので、入門書としてちょっと不適。RQを1つか2つに絞って、例題1a、例題1b・・みたいにする方向に修正。英語語彙表作成は、頻度とレンジで。
6/27 語彙表に関して、表記形とレマの違いを示す表を追加。フォルダ名称変更の前提として、Ishikawa 2023の記述を再確認。幸い、言及なかった。変えるか。。。

＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝
現況のずれ
（EE）　EE_Unmerged_Unclassified
（SD） ICNALE SD 1.3 Classified
（SM） Unmerged
（WE） Unmerged
＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝
6/28-30 執筆を止めて、ICNALEのアップデート作業を行う。フォルダの統一、SDのファイルネームの統一、vertのtxt化など、懸案事項を一挙に処理し、HPの改訂まで行う。これでやっと執筆が再開できる。（この作業の過程でGRAのデータの遺漏が見つかり対策検討中）

神戸大学石川慎一郎研究室　活動報告

このブログを検索

2023/05/26

2023.5.26～新LCR本プロジェクト

このブログを検索

2023/05/26

2023.5.26～ 新LCR本プロジェクト

2023.5.26～新LCR本プロジェクト