Last Updated 2024/12/15
日本の読者に学習者コーパス研究(learner corpus research: LCR)の実践方法を紹介する新しい出版プロジェクトの進捗記録です。誤りを減らすために、また、万一誤りがあった場合は原因を探せるようにするため、執筆の進捗を記録に残します。
●開始までの経緯
2021/2月 企画書を提出
2021/2月 内諾あり、ただしシリーズとの不適合性の指摘あり
(この間、コロナで着手できず)
2021/12月 方向変更の可能性を打診
(この間、他の本の執筆作業を行っていたため引き続き着手できず)
2023/3月 関連するほか本の出版と再版改訂作業がすべて終了
2023/5/26 出版社に経緯を説明し、刊行可能性を改めて照会
2023/6/09 シリーズを変更したうえで、可能との返信確認
2023/6/12 新しい目次案を打診
2023/6/13 内諾あり、how to的内容も削らず、という方向を相互で確認
2023/6/14 執筆に着手
2024/2/28 およそ170pほど完了するが分析に使うコーパスデータそのものの課題に気づき悩む
<執筆を停止し、英語コーパスについてはL1種の拡大、日本語コーパスについてはデータの加工を行う>
2024/10/6 約7か月間で、ベースとなるコーパスデータのアップデートが完了し、執筆を再開。すでに書いたものをいったん全部没にして新データで書き直す。
2024/12/10 現在243p。13章構成の10章途中まで完成。
2024/12/15 現在285pほど。いちおう12章を仕上げ出版社に仮版として送付
●2024/12
12/2 先月11/22より10日ほど別作業(月末締めの論文の提出、校正、各種の審査などなど)をしていてようやくこちらに復帰。EJWFTGの紹介はいろいろ迷って第3部ではなく第2部の頻度検索の箇所に付け足すことにして執筆再開。6.4.3.4節完了。あわせて関連する記述も修正。第3部の9章はEJWFTGをやめて仮説検定のセクションとする予定。
12/3 統計をかきかけるがちょっとぐちゃぐちゃっぽい。
12/4 それぞれ例題を立てるという、これまでのセクションと同じ構成にすることでなんとか形がついた。カイ二乗のセクションまで一応完成。ANOVAも書きかける。
12/5 ANOVAを書き進めるが、分量が多く、バランスが崩れてきたので、章の冒頭の背景のところに新セクションをたててANOVAを説明する。現状217p。250には収めたい。
12/6 ANOVAのセクション終わり、発展セクションへ
12/7 Holmのルールを復習。忘れていた。途中、HADの変数指定順がいまいちだったことに気づく。(コード・属性・値)だと「分析」からt検定にかからず、(コード・値・属性)にしないといけな。trickyな設定な気がする。丸一日あったので、統計のセクションの構成を書き換え。t検定とANOVAを別手法風に立てることに。(※t検定はANOVAの一部ともみなせるが、ANOVAの出力だと2群でもF値しか出ず、√Fにしないとtにならないので、やはりt検定として扱ったほうがわかりやすいような気がしてきてその方向で大幅に修正。
12/8-9 統計のセクションが膨大にややこしくなってきたがようやく整理完了。
(1) 当初t検定には触れず上位互換のANOVAだけ示すつもり
(2) しかしANOVAの結果ではF値しか出ず、√Fにしないとt値が出ないので、t検定にやはり触れることに
(3) 平均値のセクションとしてt検定とANOVAを同じデータで2群比較・3群比較する方式で書く
(4) しかし、分析手法や結果の読み方が長すぎて章として収集がつかなくなる
(5) t検定を独立させ、分析実例も1つ追加。これで構成が整う
いちおう、3つの例題まで書き直し終了。発展セクションの書き直し中。明日には終わりそう。対応有にも言及する。
12/10 東京出張。往路新幹線で統計の章が完成。帰りで回帰分析に着手、データづくり、枠組み執筆あたりまで。
12/11 回帰分析終了。続けてクラスタ分析へ。
12/12 クラスタ分析まで終了。あと1つになってしまった。HADのクラスタ分析の変数分類が、2-2rでなく、ケース分類と同じユークリッド基準になっていることをいまさらながら発見。。。
12/13 対応分析に着手
12/14 100語分析することに。ついでに結果を比較できるよう、クラスタに戻ってそちらも100語に揃える。対応分析で処理中、途中でHADが「500カテゴリ以上はだめ」とか言ってきたが、いろいろやっているとできてしまう。あと、変数登録のときも、なぜか最後の1個まで一気に指定すると入らない。。。いろいろ挙動に謎が多い。いろいろやり直してなんとか書く。
12/15 留意点のセクションを仕上げる。固有値1以上と言われるが、カテゴリ数増えると下がるのは自明なので、あまり意味がないかも、的なことを書いておく。その後、前書きの残りを仕上げ、12章まで終わり。13を章にするかあとがきに代えるか、出版社の意見を聞くためここでいったん止めて送る。
●2024/11
11/1 修正に時間を取っていたが、新しい枠組みで3章までいちおう完成。次は共起語。現在89p。全体200ぐらいになるか?完成版の縦横フォーマットに組み替えると現在113pだった。図版が多いのをどうするか。。。
11/2 共起語の英語分析終了、日本語分析途中まで。
11/3 共起語の日本語分析終わる。面白くなさそうだったが書くとそれなりに面白い。続いて統計へ。
11/4 対数尤度比の計算実例を出そうとして、式がわからなくなり午前中いっぱい溶ける。最後、自分が昔作ったファイルを出してきてようやく納得がいった・・・とともに、昔自分が作ったcolstatファイルがもっと拡張できることを発見。後でやろう。いちおう共起語の章が終わり。次はプロット検索へ(一応書けているので修正メイン、次は速そうだが、分布度と位置の話をどのぐらい切り分けるか思案中)
11/6 プロット検索の書き直し終了。グラフと統計値の扱いを一体化。統計値の解説部分を整理して書き直し。すっきりした!(たぶん)
11/7 第2部の扉ページを執筆。単語頻度表セクション着手。冒頭で、出現形、集約形を2個並べて紹介する形式。
11/9 手法に入り、TagAntの紹介、spaCyでのレマ化操作まで終了。
11/10 英語完成、日本語完成。
11/11 発展研究に入る。整合上、クラスター章に戻り発展研究を書き換え。6章終わり。現在161p。7.2の英語分析まで終わり。
11/12 日本語の分析の途中まで。表のデザインを変更、PMW数値追加、冒頭の計量概観のやりなおし、両方に出ているものをマーク。7.2に戻って修正。
11/13 修正版の英日分析が終了。項目は共通項を示し、非共通項で特徴を示す方針に切り替え。その後、統計値の解説に入るが、どうしてもAntconのエントロピーの計算実態がわからず、10時間ぐらい論文探したりぐずぐず考えたりしていて、ようやく日付の変わる前に、数字が一致した!ユーリカ!このほかTTRの説明を初出箇所(語彙頻度)に追加。
11/14 エントロピーの解説をさらに書き換え。TTRとエントロピーがなぜpframeにいるのかを自分なりに納得して説明に加える。
11/15 エントロピーの箇所がほぼ完成。先行研究にエントロピーを連続指標(predictablity low---> high)のようにとらえているものがあるけれど、情報量はinverted u 分布なので、こういうとらえ方は間違っているような気がする。この点は改めて要確認。
11/16 7章終わり。
11/17 第3部の扉だけ書いて進捗状況を出版社に送る(長いご無沙汰すみません。。。)
11/18 第8章(特徴語)に着手
11/19 第8章8.2まで終わり。edited essaysのデータの面白さがよく出た分析に。8.3に入る。現在183pほど。
11/20 第8章8.3(日本語)まで終わり。8.2ほどは面白くないがまあよいか。8.4の構成だけ作る。統計の説明は4章でかなり終わっているのでサクッと済ませたい。
11/21 8.4修正
11/22 8.4完成。あわせて効果量に関して1:10と10:100が変われば統計量は変わるという内容を追記。関連する4章の記述も修正。<ここで2部が終わったので、いったん止めて別の仕事に行く>
●2024/10
ずいぶん時間がたってしまいましたが、この間の整理と進捗の確認。
・原稿は170pほどで、内容はほぼ2月時点のまま。この間、本のベースとなるデータの大幅な拡充と加工に従事。
・I-JASのデータ(ダウンロード版)が非常に構造が複雑で一般的なコンコーダンサでの使用が難しく、このままでは本で紹介するのが難しい☛「I-JAS for CIA」を構築。2024年8月に国語研究WSで発表、その後、開発者の許可が取れ、正式にDLが可能になる見通しに(これで、習熟度統制を行ったデータ比較の問題ができる素地が完成)
・ICNALEについては、Written Essays Plusで大幅に地域が拡大し、2024年8月に新データを使った論文を脱稿。国際比較、言語系統比較の話ができる素地が整った
・10/6 I-JAS WEP V0.3リリース
☛現時点の最新データで再度原稿の書き直しと拡充に着手。当面、12月に草稿の脱稿を目指す。
10/7 古いものを書き足すのでなく再度新しデータを使って一から書いてみることに。教科書をイメージして「全15講」的な構成で。まずはKWICについて英語のほうを書いてみた。
10/8 Pakistanの博論審査で進まず
10/9 英語の方を微修正。日本語について、まずはI-JASのマージデータを作成。その後、「よね」で一応書きあげるが気に入らず、没に。「でも」でやり直しの方向。
10/10 「でも」で書き直し、プロット検索に着手
10/11 日本語データのweb茶豆加工についてのセクションを書き始める
10/12 上記が完成。プロット検索の続きを再開
10/13 プロットの本体部が終了。Juilland's Dの解説とDTの解説を追加(これ、自分の本も含めてきちんと解説してあるのが少ないので分布度やりたい人には有用になるかも)
10/14 ブロック数の増加の話を追加、冒頭でプロット検索に二種あることを追加
10/15 さわっているうちに、overlayも言及したくなる。また、書き換えているうちにちょっと迷走モードに。日本語の分析も入れたい。Juilland's Dの出力値がちょっと納得いかない数字が出る場合がある。
10/16-17 ちょっと迷走中。英語のほう、最初Soでやってあまり面白くなく、reallyで書き直したがまだ面白くない。ちょっとここは冷却期間を置いて、先に日本語のほうをやってみる。
10/18 reallyについては冒頭に説明を入れて何とか落ち着いた。日本語は、コソアを取り上げることに。一度分析まで出したが、アレの中に「そうであれば」が入ることに気づき、取り下げ。この・その・あの、など色々試した挙句、最終的に「これ/それ/あれ+は」でやることにして何とか説明を書ききる。10/10~1週間迷走して何とかここまで来た。後は統計の解説を書き直せばこの沼を抜けられそう。★Juilland's Dは、最後に1回だけでている場合に指標値が極値の1になるなどときどき異常な振る舞いをする気がする。指標の問題? Antconcの問題?
10/19 統計の箇所修正
10/20 n-gram系を書き始める
10/21 Antconcで曖昧な位置づけのp-frame(できるのに、認知されていない)を独立した分析に昇華させて解説することに
10/22 英語ではSDでの連語探し、日本語をclusterにする(n-gram/p-frameと、clusterは本来、性質がだいぶん違う。ほんとはclusterのopen slot検索というのもあってしかるべきのような気がする)
10/23 出張準備でお休み
10/24 再開。
10/24-27 出張期間にクラスター、エヌグラム完成、共起語着手。
10/28 帰国して読み直してみると、どうも説明の順番が気に入らなくなってきた。
(1)語句の研究:kwic、clusterほか
(2)テキスト研究:word, keyword, n-gram
(3)複数テキスト研究:WJWFTG
という新しい区分で構成をやりなおし、1章にこのことを説明するセクション追加、「部」を導入し1部の導入を執筆、cluster/n-gramの結合章を再度バラス作業中。ちょっとぐちゃぐちゃになってきた(が乗り越えるとすっきりするはず)
10/29 別用でかかれず
10/30 書き終えたはずのセクションの構成がどうにも気に入らなくなってきた。背景→研究準備→分析1→分析2となっていたのを、背景→分析準備→分析手法→結果の概観、に変更して、1章をやりなおし。途中、NSとJLEを紹介する順番を変えるなど混迷深まる。。。が、これを超えるとすっきりになるはず、と信じたい。
10/31 新構想に従ってKWICの章をやりなおし。日本語については当初逆接接続詞「でも」で書き上げていたが、インタビュー発話を抜いているので、「でも」が自発話への否定なのか、インタビュワー発話の否定なのかがデータだけでは確認しにくく、没に。例題を「ている」に差し替え。いちおうKWIC章はできあがる。この後、クラスター分析に行く。
●2024/2
2/5 科研シンポが終わってようやく再開。ただ科研シンポで個別データを見る重要性が改めて認識され、ここにきて、冒頭のマージセクションの妥当性に疑問が生じてきている。。。まとめて形態素解析やタグ付けにかけたほうが楽というのはbackstage storyであって、本来は個別に処理すべきだという意見には納得するが、群で見るというのも大事で、ちょっと迷い中。
2/7 文化庁申請の書類作りが終わり、授業も最終日。ようやく続けられる。異常に忙しく、1月に比べると執筆のスピードが落ちていた。上記で書いたマージの是非は悩み中。ぐちゃぐちゃになっていた共起語検索については、小見出しを新設し、何とか終了。続く語彙頻度検索は内容少ないのでサクサクと終了。あと1つでこのセクション終われそう。現在全体110p程度。
2/9 いちおう特徴語分析まで書き終えて準備の部が完成したが、以下が気になり始める。
(i) 共起語の統計量はLLRだけだが、特徴語はいろいろで、説明の順序と矛盾
(ii) そもそもKWIC→3種のMWU→単語→特徴語という順序はちょっとおかしい(視点が小→大になっていて、一般的なデータの観察の手順とあわない)
(iii) how toだけ書いたが、サンプルの中身に踏み込んだ解説がないと面白くない。。。
ということで、この部分の大改造に着手する羽目に
2/10 方針決定
(i')(ii') Word/Keyword → KWIC → MWUの順に。統計の話はKeywordのところに先に固めてやってしまう(統計量と効果量など)
(iii') なるべく結果についてもちょっとだけ触れる
(iv) データ登録セクションを新設。セクションの階層を修正。各分析の階層を1個上げ。
授業終わったので執筆のスピードは上がっているし、続けて書いているので気が散らず、集中力が維持できている。 さっさとこの箇所書き直して早く次の部に行きたい。
2/11 執筆が進む。特徴語のセクションを大幅に増補。私の理解もあやふやだったAntConc4の各種の統計値の説明をまとめて入れてしまうことに。
2/12 特徴語の説明をどんどん続ける。Anthonys先生ご自身による2012の詳しい統計ガイドを見つける。この資料は役立つ。
2/13 ダイス係数の式がしっくりこなかったのだが、公式の項目を全部ばらして、pptで概念図を書いていくことで、自分の理解もすっきりした。コーパス集合と当該語集合の重複部を見ているのだ、と理解すると後は話が早い。
2/13 AntConcの操作だけの章としていたが、各手法をそれぞれ独立の章として、そこにコンコーダンサの使い方と、ケーススタディを一緒に入れ込んでしまったほうがいいのでは、という気になる。その方向で、部の扉の修正。
2/15 新しい構想で構成を作りなおし、とりあえず語彙頻度分析の章がなんとなくできる。この感じでまずは各手法ごとに構成を修正していく予定。
2/16-19 修正の継続。特徴語が終わりKWICの途中。
2/23 修正を続け、細かい補充を随所でやりながら、いちおう第3部が半完成する。なお、当初、cluster/n-gram/collocateを1つにまとめる予定だったが、これは没にして、最初にcollocateを示し、その後にn/gram/clusterをまとめて扱うことに。各章のケーススタディはまだからっぽで、最終部もできていないが現状168pほど。圧縮しないといけないかもしれない。ちょっとほかの仕事が止まっているのでここで少し止めるかも。
●2024/1
1/1-2 英語のタグ付けセクションを新設。
1/6 基礎編がほぼ完成。編ごとに扉コラムを作る。実践編の冒頭として語彙分析をかきかけるが、その前に、AntConcの概要を示すセクションを追加
1/7-8 AntConcセクションの執筆を進める。
1/8 n-gramまで。TTとEntの復習ができてよかった(よくわかってなかった・・・)
1/9-13 ほかの仕事(LCSAW, WE5.2準備ほか)で執筆中断
1/14 執筆再開。AntConcの解説の章を1部に移動。2章のText Joinの解説に、並べ替えのステップを追加。3章タイトルの事前解析をアノテーションに変更。
1/15-18 ほかの雑用(パキスタンの博論審査、ジェンダー論文の提出など)処理を優先させた関係でこの間執筆が止まる
1/19 ようやく再開。1週間ほど止めると、もうどこを書いていたのかもはっきりせず、時間が無駄になる…AntConcの処理についてtoken definitionの解説を追加(Spacyでcan'tがca n tの3語になる謎現象の理由が書き出すことで自分でもようやく理解できた)
1/22 KWIC, cluster, n-gramまで同じ枠組での書き直しが終了。
1/23~文化庁申請、科研シンポ準備で時間がなく執筆止まる
●2023/12
12/13 別件の原稿がようやく完成し、遠ざかっていたこちらの執筆作業に切り替え。6月に書いていたころから半年たっているので、前に書いたものはいったん全部没にして、新たに演習タスク集のような形でまとめるのがよいのではないかと思い始め、その方向で新規に1セクションを書き始める(まだ自分の中でコンセプトがぶれている)
12/14 とりあえず1人の学習者のデータを使った日本語語彙表作成で書き出す。
12/15 一通り書き上げるが、マージデータのほうがおもしろいと思いなおす。ただマージするにはそのための手続きが膨大なので、マージの章を先に置くことにし、いちおうそこに着手。ついでに、結果を見て遊べるよう、習熟度別と、NS別比較ができるように。まだまだだが、とりあえずこちらの執筆にスイッチが入ったのはよかった。
12/17 一度スイッチが入ると後は快調に進んでいる。当初、CHNの個別学習者のデータで語彙表作成をやるというタスクの解説を書きかけていたが、分析に意味を持たせるために、(1)群データに切り替える、それに呼応して、(2)テキストマージと、(3)形態素解析を、それぞれ独立した章として前に置く、という方向で修正中。なお、執筆にあたり、()や<>の一括削除について、当初powershellを試したがエンコードでこけるので、Excelのワイルドカードを使うことに。Wordはワイルドカードにチェックを入れるステップがあるのに、Excelはデフォルトでワイルドカード対応になっていること(仕様の不ぞろい??)に改めて気づいた。35pほど書き終わった。
12/18 読み返して途中で、解説のデータを取り違えていることに気づき修正かける。あと、フィルタで学習者列を抽出した段階で置換していたのを、先に全体置換してからフィルタ書ける方針に変更(フィルタの状態で新しい列を作ると、フィルタがそこに反映されず、結果がずれる可能性があるため)。楽しくなってきた。。。40pぐらい。これなら300pぐらいはすぐだろう。
12/22 しばらく授業で離れていたがまた再開。ICNALE関連の記述を修正し、I-JASの概説に入る。この仕事、毎日ちょっとでも書かないとだめだな。1日飛ぶとテンションが落ちる。
12/23 I-JASの解説セクションを執筆
12/24 上記に合わせてICNALEの解説セクションを追加。ICNALEのマージのセクションを新設(途中)。わかりやすくておもしろいので、日韓の男女の発話量比較のような例題にする予定。
12/27 英語を書き上げて日本語の修正に入る。できるだけ対照的に書きたいので、前書いていたものは全部没で上書き。日本語は横断コーパスらしさを出すにはやはり複数母語にしたい。男女にしてみるべきかどうかは迷い中。英語は一瞬B1/B2の比較も入れようと思ったがそれは別に男女でなくてもいいので男女はB1/B2のみで。ちょっとぐちゃっとしてきた。整理しないと。
12/28 修論指導で時間がとれない
12/29 朝から英語と日本語セクションの整理・修正を行う。英語は男女比較、日本語はCLJの中級上級比較に決める(元に戻った?)。手順が見えやすくなるようサブセクションをつけて、日英での記述をそろえる。
●2023/9-2023/11の状況
異常に忙しく、ほとんど執筆が進まない。how toにするのかもう少しgeneralにするのか気持ちがぶれてなかなか方針が決まらない。
●2023/8の状況
8/1-20 国語研WS準備の関係でB-JASデータについて整理と概観を行う
8/29 学会で担当編集者と面会、9月末めどに中途のものを送る方向で
●2023/7の状況
7/1-5 ICNALEのデータ遺漏の対応に追われて執筆できず。明日から再開したい。
●2023/6の状況
6/14 SLAとL2の概念についての内容を書く
6/16 how toセクションを先行させるため、コンコーダンサの入手について書き始める
6/19 ICNALEとI-JASのデータ入手について解説を書き始める(通勤電車でしかゆっくり書く時間がとれない・・・)
6/20 一寸流れが悪いので、コンコーダンサのセクションに書いたオンラインvsスタンドアロンの話を上に持ってきて、国際コーパスのメリット、スタンドアロン研究のメリット、として、再構成する(流れはたぶんよくなったはず)
6/23 やはり執筆は大学に行く通勤電車内が進む。ICNALEのデータDLと、データ構成について解説。途中で、モジュール間のフォルダネームの不一致が気になってきた。この機会に揃えるか? Data or text or transcriptsとか、plain text/ taggedとか。
6/26 RQが多数になりすぎたので、入門書としてちょっと不適。RQを1つか2つに絞って、例題1a、例題1b・・みたいにする方向に修正。英語語彙表作成は、頻度とレンジで。
6/27 語彙表に関して、表記形とレマの違いを示す表を追加。フォルダ名称変更の前提として、Ishikawa 2023の記述を再確認。幸い、言及なかった。変えるか。。。
=============================
現況のずれ
(EE) EE_Unmerged_Unclassified
(SD) ICNALE SD 1.3 Classified
(SM) Unmerged
(WE) Unmerged
=============================
6/28-30 執筆を止めて、ICNALEのアップデート作業を行う。フォルダの統一、SDのファイルネームの統一、vertのtxt化など、懸案事項を一挙に処理し、HPの改訂まで行う。これでやっと執筆が再開できる。(この作業の過程でGRAのデータの遺漏が見つかり対策検討中)