このブログを検索

2023/05/26

2023.5.26~ 新LCR本プロジェクト

Last Updated 2024/2/23

日本の読者に学習者コーパス研究(learner corpus research: LCR)の実践方法を紹介する新しい出版プロジェクトの進捗記録です。誤りを減らすために、また、万一誤りがあった場合は原因を探せるようにするため、執筆の進捗を記録に残します。

●開始までの経緯
2021/2月 企画書を提出
2021/2月 内諾あり、ただしシリーズとの不適合性の指摘あり
(この間、コロナで着手できず)
2021/12月 方向変更の可能性を打診
(この間、他の本の執筆作業を行っていたため引き続き着手できず)
2023/3月 関連するほか本の出版と再版改訂作業がすべて終了
2023/5/26 出版社に経緯を説明し、刊行可能性を改めて照会
2023/6/09 シリーズを変更したうえで、可能との返信確認
2023/6/12 新しい目次案を打診
2023/6/13 内諾あり、how to的内容も削らず、という方向を相互で確認
2023/6/14 執筆に着手

●2024/2
2/5 科研シンポが終わってようやく再開。ただ科研シンポで個別データを見る重要性が改めて認識され、ここにきて、冒頭のマージセクションの妥当性に疑問が生じてきている。。。まとめて形態素解析やタグ付けにかけたほうが楽というのはbackstage storyであって、本来は個別に処理すべきだという意見には納得するが、群で見るというのも大事で、ちょっと迷い中。
2/7 文化庁申請の書類作りが終わり、授業も最終日。ようやく続けられる。異常に忙しく、1月に比べると執筆のスピードが落ちていた。上記で書いたマージの是非は悩み中。ぐちゃぐちゃになっていた共起語検索については、小見出しを新設し、何とか終了。続く語彙頻度検索は内容少ないのでサクサクと終了。あと1つでこのセクション終われそう。現在全体110p程度。
2/9 いちおう特徴語分析まで書き終えて準備の部が完成したが、以下が気になり始める。
(i) 共起語の統計量はLLRだけだが、特徴語はいろいろで、説明の順序と矛盾
(ii) そもそもKWIC→3種のMWU→単語→特徴語という順序はちょっとおかしい(視点が小→大になっていて、一般的なデータの観察の手順とあわない)
(iii) how toだけ書いたが、サンプルの中身に踏み込んだ解説がないと面白くない。。。
ということで、この部分の大改造に着手する羽目に
2/10 方針決定
(i')(ii') Word/Keyword → KWIC → MWUの順に。統計の話はKeywordのところに先に固めてやってしまう(統計量と効果量など)
(iii') なるべく結果についてもちょっとだけ触れる
(iv) データ登録セクションを新設。セクションの階層を修正。各分析の階層を1個上げ。
授業終わったので執筆のスピードは上がっているし、続けて書いているので気が散らず、集中力が維持できている。 さっさとこの箇所書き直して早く次の部に行きたい。
2/11 執筆が進む。特徴語のセクションを大幅に増補。私の理解もあやふやだったAntConc4の各種の統計値の説明をまとめて入れてしまうことに。
2/12 特徴語の説明をどんどん続ける。Anthonys先生ご自身による2012の詳しい統計ガイドを見つける。この資料は役立つ。
2/13 ダイス係数の式がしっくりこなかったのだが、公式の項目を全部ばらして、pptで概念図を書いていくことで、自分の理解もすっきりした。コーパス集合と当該語集合の重複部を見ているのだ、と理解すると後は話が早い。
2/13 AntConcの操作だけの章としていたが、各手法をそれぞれ独立の章として、そこにコンコーダンサの使い方と、ケーススタディを一緒に入れ込んでしまったほうがいいのでは、という気になる。その方向で、部の扉の修正。
2/15 新しい構想で構成を作りなおし、とりあえず語彙頻度分析の章がなんとなくできる。この感じでまずは各手法ごとに構成を修正していく予定。
2/16-19 修正の継続。特徴語が終わりKWICの途中。
2/23 修正を続け、細かい補充を随所でやりながら、いちおう第3部が半完成する。なお、当初、cluster/n-gram/collocateを1つにまとめる予定だったが、これは没にして、最初にcollocateを示し、その後にn/gram/clusterをまとめて扱うことに。各章のケーススタディはまだからっぽで、最終部もできていないが現状168pほど。圧縮しないといけないかもしれない。ちょっとほかの仕事が止まっているのでここで少し止めるかも。


●2024/1
1/1-2 英語のタグ付けセクションを新設。
1/6 基礎編がほぼ完成。編ごとに扉コラムを作る。実践編の冒頭として語彙分析をかきかけるが、その前に、AntConcの概要を示すセクションを追加
1/7-8 AntConcセクションの執筆を進める。
1/8 n-gramまで。TTとEntの復習ができてよかった(よくわかってなかった・・・)
1/9-13 ほかの仕事(LCSAW, WE5.2準備ほか)で執筆中断
1/14 執筆再開。AntConcの解説の章を1部に移動。2章のText Joinの解説に、並べ替えのステップを追加。3章タイトルの事前解析をアノテーションに変更。
1/15-18 ほかの雑用(パキスタンの博論審査、ジェンダー論文の提出など)処理を優先させた関係でこの間執筆が止まる
1/19 ようやく再開。1週間ほど止めると、もうどこを書いていたのかもはっきりせず、時間が無駄になる…AntConcの処理についてtoken definitionの解説を追加(Spacyでcan'tがca n tの3語になる謎現象の理由が書き出すことで自分でもようやく理解できた)
1/22 KWIC, cluster, n-gramまで同じ枠組での書き直しが終了。
1/23~文化庁申請、科研シンポ準備で時間がなく執筆止まる

●2023/12
12/13 別件の原稿がようやく完成し、遠ざかっていたこちらの執筆作業に切り替え。6月に書いていたころから半年たっているので、前に書いたものはいったん全部没にして、新たに演習タスク集のような形でまとめるのがよいのではないかと思い始め、その方向で新規に1セクションを書き始める(まだ自分の中でコンセプトがぶれている)
12/14 とりあえず1人の学習者のデータを使った日本語語彙表作成で書き出す。
12/15 一通り書き上げるが、マージデータのほうがおもしろいと思いなおす。ただマージするにはそのための手続きが膨大なので、マージの章を先に置くことにし、いちおうそこに着手。ついでに、結果を見て遊べるよう、習熟度別と、NS別比較ができるように。まだまだだが、とりあえずこちらの執筆にスイッチが入ったのはよかった。
12/17 一度スイッチが入ると後は快調に進んでいる。当初、CHNの個別学習者のデータで語彙表作成をやるというタスクの解説を書きかけていたが、分析に意味を持たせるために、(1)群データに切り替える、それに呼応して、(2)テキストマージと、(3)形態素解析を、それぞれ独立した章として前に置く、という方向で修正中。なお、執筆にあたり、()や<>の一括削除について、当初powershellを試したがエンコードでこけるので、Excelのワイルドカードを使うことに。Wordはワイルドカードにチェックを入れるステップがあるのに、Excelはデフォルトでワイルドカード対応になっていること(仕様の不ぞろい??)に改めて気づいた。35pほど書き終わった。
12/18 読み返して途中で、解説のデータを取り違えていることに気づき修正かける。あと、フィルタで学習者列を抽出した段階で置換していたのを、先に全体置換してからフィルタ書ける方針に変更(フィルタの状態で新しい列を作ると、フィルタがそこに反映されず、結果がずれる可能性があるため)。楽しくなってきた。。。40pぐらい。これなら300pぐらいはすぐだろう。
12/22 しばらく授業で離れていたがまた再開。ICNALE関連の記述を修正し、I-JASの概説に入る。この仕事、毎日ちょっとでも書かないとだめだな。1日飛ぶとテンションが落ちる。
12/23 I-JASの解説セクションを執筆
12/24 上記に合わせてICNALEの解説セクションを追加。ICNALEのマージのセクションを新設(途中)。わかりやすくておもしろいので、日韓の男女の発話量比較のような例題にする予定。
12/27 英語を書き上げて日本語の修正に入る。できるだけ対照的に書きたいので、前書いていたものは全部没で上書き。日本語は横断コーパスらしさを出すにはやはり複数母語にしたい。男女にしてみるべきかどうかは迷い中。英語は一瞬B1/B2の比較も入れようと思ったがそれは別に男女でなくてもいいので男女はB1/B2のみで。ちょっとぐちゃっとしてきた。整理しないと。
12/28 修論指導で時間がとれない
12/29 朝から英語と日本語セクションの整理・修正を行う。英語は男女比較、日本語はCLJの中級上級比較に決める(元に戻った?)。手順が見えやすくなるようサブセクションをつけて、日英での記述をそろえる。

●2023/9-2023/11の状況
異常に忙しく、ほとんど執筆が進まない。how toにするのかもう少しgeneralにするのか気持ちがぶれてなかなか方針が決まらない。

●2023/8の状況
8/1-20 国語研WS準備の関係でB-JASデータについて整理と概観を行う
8/29 学会で担当編集者と面会、9月末めどに中途のものを送る方向で

●2023/7の状況
7/1-5 ICNALEのデータ遺漏の対応に追われて執筆できず。明日から再開したい。

●2023/6の状況
6/14 SLAとL2の概念についての内容を書く
6/16 how toセクションを先行させるため、コンコーダンサの入手について書き始める
6/19 ICNALEとI-JASのデータ入手について解説を書き始める(通勤電車でしかゆっくり書く時間がとれない・・・)
6/20 一寸流れが悪いので、コンコーダンサのセクションに書いたオンラインvsスタンドアロンの話を上に持ってきて、国際コーパスのメリット、スタンドアロン研究のメリット、として、再構成する(流れはたぶんよくなったはず) 
6/23 やはり執筆は大学に行く通勤電車内が進む。ICNALEのデータDLと、データ構成について解説。途中で、モジュール間のフォルダネームの不一致が気になってきた。この機会に揃えるか? Data or text or transcriptsとか、plain text/ taggedとか。
6/26 RQが多数になりすぎたので、入門書としてちょっと不適。RQを1つか2つに絞って、例題1a、例題1b・・みたいにする方向に修正。英語語彙表作成は、頻度とレンジで。
6/27 語彙表に関して、表記形とレマの違いを示す表を追加。フォルダ名称変更の前提として、Ishikawa 2023の記述を再確認。幸い、言及なかった。変えるか。。。

=============================
現況のずれ
(EE) EE_Unmerged_Unclassified
(SD)  ICNALE SD 1.3 Classified
(SM)  Unmerged
(WE)  Unmerged
=============================
6/28-30 執筆を止めて、ICNALEのアップデート作業を行う。フォルダの統一、SDのファイルネームの統一、vertのtxt化など、懸案事項を一挙に処理し、HPの改訂まで行う。これでやっと執筆が再開できる。(この作業の過程でGRAのデータの遺漏が見つかり対策検討中)