神戸大学石川慎一郎研究室　活動報告: 2023-2026 科研（基盤B：WE拡張）進捗報告

最終更新日　2026/6/25

2023～2025年度科研（基盤B）「ICNALE WE22構築」(23H00641) 進捗報告

◎このエントリの位置付け
本エントリは，報告書「科学研究における健全性の向上について」（日本学術会議，2015年3月6日）の(2)-1および(2)-5アで指摘されている「研究ノート」の電子版として位置付けています。その都度の準備の状況・実験の過程・問題点などを時系列的に記録し，誤記の修正などを除き，過去の内容は変更しないこととします。

◎事業目的（2024/4/1現在）
(1) ICNALE WEをアジア圏のデータ未収集国に広げ、アジアにおけるカバー率の上昇を目指す。
(2) 幅広いEFL/ESL圏学習者の作文を計量的に分析し、L1影響や地域影響の実相を科学的に解明する。
(3) あわせて日本人L2英語産出の多面的分析を可能にするため、L1/L2日本語にかかわる幅広いデータの収集と分析を行う。

◎事業経緯
旧科研（2020～2022年度、基盤B）の末期にミャンマーでのデータ収集ができる可能性が生じ、旧科研のサブプロジェクトBとしてミャンマーでのデータ収集事業を開始。しかし、政変による状況の不安定さのため、協力者が離脱し、2022年度中でのデータは白紙になる。事業は新科研に継続。

◎2023年度（1年目）の実績
過去の研究で十分なデータが取れていなかった9か国で新たに527件のデータを収集した。また、既存のICNALEデータのメンテナンスを実施した（WEのタグ付け修正、GRAのファイルアップデート）。あわせて、2024/2/3に国際シンポLCSAW6を開催した。

◎2024年度（2年目）の実績
1年間で約100人のデータが追加され、合計627人分のデータを収集・公開。

◎2025年度（3年目）の実績
1年間で約500人分のデータが追加され、合計1,140人分のデータを収集・公開。とくにベトナムについては、過去にない大規模データベースが完成。全体で900本を集めるとした事業当初の目標は達成されたが、さらなる地域カバレージの向上を目指し、1年間の事業延長を決定。

～～～～～～～～～～～～～～～～～～～～～～～～～～～～～～～～～

【収集の記録】

●2023年4月開始時点の目標
重点地域（100名）　Cambodia, India, Malaysia, Vietnam
その他10地域（50名）　Bangladesh, Bhutan, Brunei, East Timor, Laos, Maldives, Mongol, Myanmar, Nepal, Sri Lanka
※合計400+500=900

●2023年8月現在　 394人（BGD, IND, LAO, KHM, MMR, (MNG), MYS)
●2024年1月現在　527人（LCA、VNM）
●2024年10月現在 627人＋α（BRN、VNMを追加）　V0.3リリース
●2025年5月現在 757人（IND、VNMを追加）V0.3'リリース
●2025年6月現在　851人（NPLを追加）　V0.4リリース
●2025年7月現在　948人（VNMを追加）V0.5リリース
●2026年1月現在　1,140人（VNMを追加）V0.6リリース

●今後の計画（2026/1現在）
・研究計画の1年間延長（2027/3まで）

・モンゴルとスリランカ（ラオス）においてデータ収集の可否を調査する

～～～～～～～～～～～～～～～～～～～～～～～～～～～～～～～～～～

●2024年度データ収集計画と進捗
VNM Pham Quy (Ton Duc Thang U) 8/17: 50 completed
BRU Zayani Abidin (U Brunei Damssalaw)　Completed
_________________________________________
2025/1以降
VNM Hien, Hoang Thi Thu (Quy Nhom U) ☛2025/2に督促するが返事なし
IND Sirigirajo Meekakshi (IIT)　2025/2/4 ☛14/23採用

●2025年度データ収集計画と進捗
（終了）
VNM ：Loan Nhị Hà Ha (University of Economics - Ho Chi Minh City, PhD candidate) plans to collect 50　☛最終63
IND：K. Venu Madhavi (The English and Foreign Languages University, Hyderabad, India.)
Udaya Muthyala (The English and Foreign Languages University, Hyderabad, India)
Pusuluri Sreehari (The English and Foreign Languages University, Hyderabad, India)
Lalitha Bai (Vignan Jyothi Institute of Technology, Hyderabad, India) ☛ 最終64/125
NPL： Krishna collect 50　☛最終50/80
VNM Cao Hong (Vietnam Matima U) 97/121
VNM：Dinh Thi Mai Anh (Nottingham Trent University/Vinh University) plans to collect 50 [Dec 2025] ※６月コンタクトあり。７月コンタクトあり。10-12月収集☛最終222

～～～～～～～～～～～～～～～～～～～～～～～～～～～～～～～～～

【月次進捗】

【2026年6月】
6/25
・この機にICNALE以外のサイトについても認証を迂回させることとし、About/Queryボタンをつけた新ページを作成し、旧ページからautoredirectで飛ばす方向で修正

6/24
・研究室サーバーのOS（FreeBSD）のバージョンを13.x系に更新
・研究室の統合オンラインコーパス検索サイトのトップページが動いていないことを確認

6/20
分類語彙表対応付けプログラム開発

メモ

具体的なレコードの例を挙げます（「国語」という見出し語の場合）。

　030548,29140,A,体,活動,言語,言語,1.3101,03,01,01,国語,国語,こくご,ごくこ

＜03054＞8 　レコードＩＤ番号（半角数字６けた）　書籍版の併記は別レコード立項

　030548,29140,A,体,活動,言語,言語,1.3101,03,01,01,国語,国語,こくご,ごくこ

＜29140＞　見出し番号（半角数字５けた）書籍版見出し異同に基づく

　030548,29140,A,体,活動,言語,言語,1.3101,03,01,01,国語,国語,こくご,ごくこ

＜A＞　レコード種別（半角１けた）　A：単独レコード、B：追加レコードあり、1,2...：追加レコードの連番

　030548,29140,A,体,活動,言語,言語,1.3101,03,01,01,国語,国語,こくご,ごくこ

＜体＞　類（全角１文字）体：体の類、用：用の類、相：相の類（形容詞・形状詞）、他：その他の類

　030548,29140,A,体,活動,言語,言語,1.3101,03,01,01,国語,国語,こくご,ごくこ

＜活動＞　部門：類の下位分類（意味的な大きなまとまり）。関係・主体・活動・生産物・自然。

================================================================================　「体の類」　　　　　　　　　「用の類」　　　　　　　「相の類」

　 1.1 抽象的関係　　　　　　　 2.1 抽象的関係　　　　 3.1 抽象的関係

　 1.2 人間活動の主体

　 1.3 人間活動－精神および行為 2.3 精神および行為　　 3.3 精神および行為

　 1.4 生産物および用具

　 1.5 自然物および自然現象　　 2.5 自然現象　　　　　 3.5 自然現象

================================================================================

　030548,29140,A,体,活動,言語,言語,1.3101,03,01,01,国語,国語,こくご,ごくこ

＜言語＞　中項目（部門の下位分類）。総数95個だが，類をまとめると50種。

===============================================================================

1.10,事柄,405

1.11,類,993

1.12,存在,679

1.13,様相,1252

1.14,力,239

1.15,作用,3509

1.16,時間,2343

1.17,空間,1735

1.18,形,739

1.19,量,2552

1.20,人間,837

1.21,家族,619

1.22,仲間,254

1.23,人物,1828

1.24,成員,2077

1.25,公私,823

1.26,社会,1139

1.27,機関,697

1.30,心,6065

1.31,言語,4233

1.32,芸術,1096

1.33,生活,3392

1.34,行為,1289

1.35,交わり,1499

1.36,待遇,1651

1.37,経済,1897

1.38,事業,2037

1.40,物品,395

1.41,資材,934

1.42,衣料,1157

1.43,食料,1892

1.44,住居,1172

1.45,道具,2109

1.46,機械,1125

1.47,土地利用,599

1.50,自然,928

1.51,物質,1788

1.52,天地,1037

1.53,生物,164

1.54,植物,1272

1.55,動物,1220

1.56,身体,1439

1.57,生命,1347

2.10,真偽,24

2.11,類,308

2.12,存在,849

2.13,様相,345

2.14,力,28

2.15,作用,5302

2.16,時間,252

2.17,空間,75

2.19,量,72

2.30,心,3837

2.31,言語,1507

2.32,芸術,168

2.33,生活,2033

2.34,行為,452

2.35,交わり,1196

2.36,待遇,1374

2.37,経済,974

2.38,事業,1284

2.50,自然,297

2.51,物質,373

2.52,天地,11

2.56,身体,25

2.57,生命,819

3.10,真偽,177

3.11,類,248

3.12,存在,139

3.13,様相,898

3.14,力,94

3.15,作用,475

3.16,時間,692

3.17,空間,38

3.18,形,122

3.19,量,1072

3.30,心,1869

3.31,言語,237

3.33,生活,421

3.34,行為,817

3.35,交わり,64

3.36,待遇,225

3.37,経済,152

3.50,自然,716

3.51,物質,140

3.52,天地,35

3.53,生物,13

3.56,身体,89

3.57,生命,146

4.11,接続,204

4.30,感動,139

4.31,判断,216

4.32,呼び掛け,124

4.33,挨拶,153

4.50,動物の鳴き声,34

================================================================

　030548,29140,A,体,活動,言語,言語,1.3101,03,01,01,国語,国語,こくご,ごくこ

＜言語＞分類項目：分類番号に対して与えられた項目名。全895種（KOUMOKU1.TXT）

　030548,29140,A,体,活動,言語,言語,1.3101,03,01,01,国語,国語,こくご,ごくこ

＜1.3101＞　分類番号

　030548,29140,A,体,活動,言語,言語,1.3101,03,01,01,国語,国語,こくご,ごくこ

＜03＞　段落（分類項目内の意味上の語集団）の通し番号。

　030548,29140,A,体,活動,言語,言語,1.3101,03,01,01,国語,国語,こくご,ごくこ

＜01＞　小段落番号（段落内の意味上の語集団）の通し番号。

　030548,29140,A,体,活動,言語,言語,1.3101,03,01,01,国語,国語,こくご,ごくこ

＜01＞小段落内での見出し出現順番

　030548,29140,A,体,活動,言語,言語,1.3101,03,01,01,国語,国語,こくご,ごくこ

＜国語＞見出し（「－」は接辞あるいは造語成分であることを示す。前接要素は「…」）

2025年度
【2026年3月】
・3/4 データ修正を反映したV0.7を公開。infosheetと同時に改定。
・3/4 AsiaTEFL用の論文の準備を開始。

【2026年2月】
・2/23 ベトナムの新規データのVSTの修正（16人のレベルを修正必要）

【2026年1月】
・1/13 こちらから返信（spell checker使用の確認）
・1/13 Fifth batchが到着
・1/13 整理作業開始
・1/18 整理作業終了。結果の通知。会計に連絡。
・1/19 データクリーニング
＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿
��　---> 「’」
cafX ---> cafe
â€™s --->’s
â€Ś ---> ...
â€™ --> 「 ‘[sp]」
Â --->[sp]
cafĂŠ
â€™t

最終チェック
�　11_S, 12__P, 12_S
â　　122_S, 132_P, 139_P, 139_S, 151_P, 151_S, 153_P, 154_S
Ă　178_S
Š　なし
second-hand ---> secondhand
_________________________________________________________

・1/20 Survey Sheet更新。website更新。V0.6を公開。
・1/21会計処理

【12月】
・Springer論集への投稿論文の修正

【11月】
・11/26 　ベトナムよりFourth batch
・11/27 今後の予定について照会、spell checkerについて質問

【10月】
・ネパール学会発表準備。
・WEPのマージファイルにファイル名不正の者が混じっていたことに気づき修正対応
・あわせてUTF-8になっていることについても再度チェック
・Springer用の原稿（SMベース）を提出
・ベトナムからExcelの分量チェッカーの不備の指摘、修正。
・10/13 First Batchが到着
・10/16 Second Batchが到着
・10/27 3rd Batach

【8-9月】
・ベトナムより新規データ収集にかかる調整
・初級データを集めてもらうよう指示
・9/30 ベトナムデータ収集開始（ラボが使えないので紙で）

【7月】
7/1 VNM追加データの検証
7/2 VNM Cao Hong氏のデータの検証結果の告知、支払い準備
7/4 出金処理
7/6 データ整形・チェック、V0.4リリース、EJTKANの発表申し込み
7/10 言語資源WS採択
7/14 EJTKAN修正版が届く（開発版v0.2）

7/17 会計処理手続きの開始、学習者コーパス研究会の発表の概要送付
7/19 EJTKAN論文執筆開始。LLRの正負が混ざっていることに気づき修正のリクエスト。
7/29 ベトナムからデータ収集の照会。

【6月】
6/8 Nepal データのチェック
6/9 Nepalデータの最終受付、チェック追加
6/10 公開用データ整理、participant survey sheetを本体に結合
6/11 WEPの関係者リストの整理、公開準備、公開完了。ウェブサイトの微修正。ベトナムに督促→反応あり。
6/26 EJTKANのネーミングを決定、国語研WSに申し込み、サイト修正依頼を発送

【5月】
・5/8 特徴語自動抽出システムの出力サンプルを受け取り
・5/11 ネパールから65人分
・5/24 特徴語システムのフィードバックを返送
・Raysonの出力に２つを加えてもらえるよう依頼。LLRはランカスターとPaul Raysonの値があわない。。。

・5/28 JASELEの予稿集原稿に最新のデータを入れるべく、WEPデータの整理開始、システム開発からのフィードバック、WEのKORのduplicationの連絡あり、ネパールに督促・返事あり、データ整理継続中。
・5/28 システム開発、検算ファイルが届く。
・5/29 往復東京出張中の新幹線の全時間を投入して、インドデータをエクセルから切り出し。作文テキストもないので一から作業に。５時間と少しでおよそ終わる。
・5/30 　ベトナムデータの属性データの取り出し。マージファイル作成。PTJ/SMKのスワップチェック。
・5/31　上記修了。ほぼ出せるところまできたが、まだネパールの最終データが届かずどうしようかと悩む。このままV0.4で出すか、待つか。

【4月】
・4/22 インドデータとベトナムデータのveririficationが終わりベトナムは会計処理へ
・4/21　インドより二次データ納品
・4/18 新検索システム開発について要望を伝達（LLRとeffect sizeの計算式の確定）
・4/14 ベトナムデータ納品
・4/13 インドよりデータ納品（１次）
・4/11 新検索システム開発について先方より返信あり
・4/21 インドより１次の追加
・4/22 インドにチェック結果を返信、ベトナムの送金手続き指示
・4/23 インドより2次
・4/25インドより1次の差し替え
・4/29 インド追加データのverification。インドの最終数確定支払い指示。
・4/30 インドの追加データを含めて最終verification。数を確定して再度支払い指示へ。

2024年度
【3月】
・3/10 ベトナムの教員と新規データ収集にかかるミーティング

【2月】
・ThaiTESOL参加者へのリクルーティングでベトナム・ネパール・インドの協力者が決まり、2/4に、順次、zoomで説明会を実施。
・2/4 本年度計画のVNMとINDの協力者に進捗照会。
・2/4 3件のzoomミーティングを実施
・2/5 IND Meekakshiよりデータ（23）を受け取り

【1月】
・Thai TESOLでWEP研究を発表。会場で協力者をリクルーティング。
・JASWRIC論文、LEARNジャーナル論文が正式に公開。

【11-12月】
・WEPデータで論文執筆、LEARNジャーナルに投稿→修正採択。

【10月】
・Agdeppa氏納品データ（4～9月を整理）、データを増やしてV0.3として公開（※V0.2としては公開されていなかったので、新規にV0.3として公開。ファイル名をWE2→WEPに）
・上記に伴う会計処理
・上記に伴うＨＰメンテナンス

【9月】
論文執筆・投稿
・小中高大生の作文に見る動詞使用パタンの変化――JASWRICの「鍵」作文の分析―― （27p）☛改稿・受理
・ICNALE WEPlus V0.2の加工
・Reconsideration of L1 Effects on Asian Learners’ L2 English Writing: A Study Based on the ICNALE　☛新規投稿（V0.2に基づく）

【8月】
新年度～8/16までに脱稿（投稿、投稿待ち、改稿中）した論文のメモ
・中間言語対照分析（CIA）のためのI-JASダウンロードデータの加工―I-JAS for CIAの整備―（23p）　☛言語資源WS
・English/Japanese Word Frequency Table Generator（EJWFTG）を用いた日本語統合語彙頻度表の作成と活用（10p）☛計量国語学
・日本語学術論文の即時オープンアクセス実現に向けて（26p）☛国語研論集
・小中高大生の作文に見る動詞使用パタンの変化――JASWRICの「鍵」作文の分析―― （27p）☛改稿中
8/17 VNM Quy氏より2nd batch 28本が到着。同日内容チェック、事務に支払い手続きを依頼。
8/25 全国英語教育学会（JASELE）でICNALE WE22の内容について報告。
8/27 Quy氏よりSDのビデオのデータ不備２点の指摘を受け、元データにアクセスし、音声ファイルを復元し、アップロード。ICNALEサイトに修正告知を出す。こうした意見を付けてくれる人がいるおかげでデータのミスが直っていく。感謝。

【7月】
7/9 VNM Quyチームより1st batch 22本が到着。

【6月】
6/1 北京とのシンポについて広報業務がいちおうかたがつく。
6/2 国語研用の論文修正を進める。対応分析は上位40語だったが、それだとクラスターと同じだと思いなおし、100語でやり直す。情報量が倍増していい感じになった。また、元の版にあったL2との比較はトピック統制がなされていないこともありカット。
6/9 締め切り１日前になんとか提出。
6/12 計量国語の依頼原稿に着手。

【5月】
5/1 仮にWE2と命名（※本体のWEに組み込まない）
・データの整形、rename作業
・フォルダごとにデータを作成
・10件以上のデータについてのみマージファイルを作成
・POSタグ付け（Sketch Engineだと20個送っても１つにまとまってしまうので、今回はTagAnt使用）
5/2 サイトアップデート、ダウンロード対応、プルダウンにWE2を追加。
・初年度で500名、1000件のデータがリリースできた（参加者総数が5000人を突破）

v0.1の概要：6か国500人、1000本

・イントロページで未修整だったWE v2.6、GRAv2.1情報を更新
・ICNALE Onlineの解説ページも未修正だったので年度末修正を更新
5/3 新規協力候補者探し、9人に参加意向伺いメールを発送
5/5 新規データを用い、JASELE用のアブストを作成し送信。SMKの場合、旧英領インド3か国のクラスタリングが確認されたのは面白い。
5/7 ベトナムの候補者とzoom面談。Excel版テンプレとweb formリンクを送付。
5/9 ブルネイの候補者と面談。テンプレを使って説明。
5/11 ベトナム二人目と面談。同上。三人目からコンタクト。JASELEの予稿集作成のため、Niniソフトでデータ処理。またENSを落としていたので混ぜて分析。分析してみると意外にもL1大事とわかる。日本語は別建てなので、日本にいるとL1無関係でしょうという気になるが、実はそうではなかった様子。
5/13 すでに書き終えていたJASWRIC論文（※依頼原稿だったのに掲載予定誌がなくなった）を国語研用に修正して提出することに。
5/14 ベトナム3人目の面談終了。面談方式は非常に有効だった。
5/16 ブルネイより受託，certificate発行
5/17 インドより返信。面談調整。
5/19 インド面談終了。さてどうなるか。
5/20- 国語研用にJASWRICの論文の修正を開始
5/24 keyにするか、key+picnicにするか、L2と同じpicnicにするか二転三転。結局keyにしてかつ新データでやりなおすことに。。。
5/25 ICNALE SDのビデオにアクセスできないというメールが2通目。ともかく直接インビを送ることで解決。あわせて手元にデータがないのは怖いので、一晩かけて、20個ずつ、MS driveからデータを落とす
5/26 前日に引き続き作業。425ＤＬ完了。それらをGoogle Driveにあげる（こちらのほうが早い）。さらにSDカードにもバックアップを取っておく
5/27 インドより受託。良かった！
5/30 科研日本語シンポの後援申請
5/31 科研の日本語シンポの案内発送、

【4月】
4/1 新年度事業開始
4/3 新年度交付申請書の作成
4/19　新年度交付申請、支払い請求が学振で受理
4/19 過年度の収集実績の確認、本ブログのデータの整理
4/23 カナダの仲介者に新年度のデータ収集依頼
___________________
Brunei 50 （新?）
...................................
India 15 （85に追加）
Laos 15 （35に追加）
Myanmar 18 （132に追加）
____________________
4/29 初年度収集データの整理作業開始
・台帳整理（stage 2をstage 1台帳に統合）　※仮コードのMMR/MYMのブレを修正
・コードをacceptデータのみで新しく振り直し
・VSTのスコア計算、動機付け指標など計算、公開準備用属性ファイル準備完了
4/30 事務に2024年度のデータ収集について仕様書のチェックを依頼
（参考：単価見積の記録として）

2023年5月時点（135円）に比べ、4/28時点（160円）18.5％の下落、
4/29の為替介入後（推定、156円））で見ても15.5%の下落

2023年度
【3月】
3/30 AsiaTEFL用論文査読対応、再提出

【2月】
2/5 謝金の着金完了

【1月】
1/8 Stage2データ提出サイトをクローズ。検証準備。
1/9 エクセルからテキストファイルを作成・命名。検証作業開始。
1/10 Stage2の検証終了。結果を仲介者に通知、会計に支払い依頼。延長申請の文章を下書き、事務に添削を依頼。仲介者に協力者別の採択数を通知。
1/12 事務より作業者に謝金支払い準備の連絡。
1/13 上記の会計システム登録を完了。

【12月】
12/5 事務より仲介者に契約書サイン依頼
12/11　修正して再送
12/18 督促
12/20 上記対応あり

【11月】
11/1 会計より契約仕様書作成依頼
11/6 頻度データ処理システムの見積もり依頼
11/7 同上詳細情報を送信
11/8 仕様書のアップデートを行い事務に提出。現状を確認（インド77、ベトナム６，スリランカ４）。仲介者に状況シェア。
11/15 オンラインシステムへのアクセスにかかる照会あり、下限照会あり
11/21 下限について指示あり
11/23 仲介者よりインドデータのチェック依頼
11/24 対面で意見調整（部局決裁可能な範囲まで下限を下げて仕様出すことに）。現時点で集まっているデータの整理、テキスト化まで終了。
11/26 チェック終了、仲介者にフィードバック
現状確認
★インド　23＋56=79 （＋21目標）
★スリランカ3, ベトナム6は今年度の追加は困難
★Stage2はじまりのブルネイとネパールはまだ未収集。ミャンマーは＋11目標だが、こちらも未収集か？
★Stage 2は現状88本受領。年末までに100いくか？
11/29 新仕様書チェック済

【10月】
10/2 送金完了
10/6 投稿用論文の修正作業を再開（※5月に書いていたもの）
10/9 第2期依頼についてSecond priority諸国でのリクルーティングが難しいとの連絡あり。リクルーティング終了後再度相談することに。
10/11 投稿用論文を英文プルーフに出す
10/17　戻り原稿のチェックを開始
10/20 作業者と現状確認およびStage 2計画の詳細を確認
10/24 原稿のチェックを再開。3.1.3（地域比較）の内容がしょぼかったのでこの個所全面的に改訂。
10/28 後半いろいろ触って、投稿完了。

【9月】
9/13 第1期の送金作業

【8月】
8/4 KHM、BGDより追加データ送付あり
8/8 KHM、BGDの追加データのテキスト切り出し、重複チェックを開始するが、これまでの総体における重複見直しがありうるのでまとめて再チェックにかける
8/10-11 再チェックが終了。残ったデータを悉皆で語数計算。基準以下のものを棄却。最終的に408人を採用、362人を棄却。基本方針＜2～3語レベルではなく10～15語スパン（KWICの一方のコンテキスト＞で完全一致または酷似が認められたものを棄却。似た内容、表現があるが英語の単語選択などが一致していないものは、外部資料参考の可能性があっても自分なりの書き換えがなされていると判断して採用。コピーの時に入り込んだ「"」を一括で削除、「'」を上書きで置換。
8/12-15 Survey dataのチェック。個票から張り付けるのだが予想以上に面倒で時間がかかる。作業過程で高校生データ混入と、L1中国語学生？データの混入を確認。仲介者に確認依頼。
8/16 Vocテストスコアと、学習経歴アンケートの自動計算。
8/19 カナダでとったインド人追加データ到着。
8/19 Stage 2 計画の相談
8/22 インド追加到着
8/25 マレーシア追加到着
8/27-28 追加分含めての再検証。rejectが発生。
8/29 最終版として394、事務に報告、検収依頼。
8/29 Stage 2のためにGoogle Formを作成。剽窃しないよう重ねての忠告を行う。仲介者にGoogle Formを伝達。IND129→BDG165の修正対応。

従来のエクセルを置き換えたオンラインデータ収集フォーム

【7月】
7/5 マレーシアから先行取得データが届く。１週間程度で検証の予定。作業手順の確認。
テキストファイル化→語数チェック→トピック間違い確認
7/6 バングラから先行取得データが届く。バングラは既存のコーパス研究ではほとんどカバーされておらず価値あるデータ。
7/9 別件の講演準備が終わりデータ処理に着手。まずエクセルのファイルタイプを連番変換。バングラ94件の作業を開始。
7/10　バングラ分、テキスト化→属性情報の集約化まで終わる。
PTJ 25144語 SMK 24414語
DupFileEliminatorを導入。バイナリレベルでテキストの重複を確認
検証：PTJ smoking, always, think, firstly, really, tuition, working
検証：SMK sometimes/usually/often/think/all/around/breathe/clean/air
検証：survey/VST（合計とSDで重複を検出）
=======================
エッセイ重複疑　21/30/42/62/79
アンケート重複疑
44/75, 21/42/62/79, 20/48, 36/54/88, 32/61, 71/91
　→学生にやり直しを指示
=========================
リエゾンにフィードバック結果を送信。
7/11　リエゾンより最新状況の報告。調整案を提案。マレーシアのテキスト化。
7/12　丸１日かけて、インドのテキスト化と属性データの台帳転記終了。time-consuming。。。後はマレーシアの属性転記だが、明日終わるか。。。
7/13 Malayの転記終了。段々慣れてきた！　ちょっとほかの仕事をやる。
7/14 ばらばら検証をやりかけていたが、再度一から見直したくなり、BGG/IND/MYSの全ファイルを一括フォルダに集約し、1)DupFile Eliminatorと、MATの全標識数値の統合値の2観点で重複を機械的に抽出。エッセイの完全重複の認められたインドの42名/121名、タスク未了のマレーシアの2名/113名をreject決定。リエゾンにフィードバック
==========================
1) X Malaysia
Aim: 70 Collected: 70 Accpted:68 Rejected:2 (Half done)
2) Y Malaysia
Aim: 30 Collected: 43 Accepted: 43
3) Z India
Aim: 90 Collected: 121 Accepted: 79 Rejected: 42 (Essay duplications)
===========================
7/15 カンボジア、ミャンマー、ラオスのデータが到着。
7/16 カンボジアとミャンマーのテキスト化が終了。
7/17 インドの２つ目のデータは重複が多く受領できないと判断
7/18 検証済みのものも含めて再度KWICで重複の検査。予想以上に類似が多く、フィードバックをリエゾンに出す。この作業は教師の心をむしばむ。学生の不正行為？を探すのは心が折れる。しかし、テストでもないのに、なぜ自分の力でできる範囲で書かないのだろうか？？仲介者にFeedbackを送信
7/19 仲介者より自分でも検証をしたいという要望→手順を説明してむつかしいことを伝達
7/19 不採択にしたインド教員よりクレームあり、仲介者が対応
7/19 長さ、剽窃なし、について再度仲介者に説明
7/20 事務より回答（現在契約中で、数が不足したらについてはこの段階では回答できない）
7/20 事務より受け取り拒否できないという回答、同日、石川より事情説明（提出→検証→最終受理）、これには返事なし
7/25 日本語版にはなかった（もともとはあった）報酬規程が英語版で加わっていることについて照会（この過程で金額が変更されていることがわかり、石川より事務に確認を依頼）
7/26 回答：金額は（石川の承認なしに）交渉で変更、データ数は条件を満たしていなければ契約を下回ることはありうる→石川返信、なぜ金額変更？もともと日本語になった金額が消えているのはなぜ？（再度翻訳する必要はなかった）、条件に満たないものは受け取れない、という理解であっているか？
7/26 Clear 50の意味の問い合わせ、reject氏名の要望
7/27 仲介者に返信、ミャンマー、カンボジアデータ受領
7/28 コードの割り振り表を送付、あわせて期限延長について再度英語で事務と仲介者に同時メール発出・・・この数週間、かなりストレスフルな仕事の環境になっている。私、仲介者、実際の教員、学生、大学の担当部署、大学のその上の上部部署の間で、ぐるぐる話がまわって段々相互誤解が生まれる。なんとかならんかなあ。
7/29 新規データのテキストファイル化。
7/30 データの重複と剽窃をチェック。仲介者にフィードバック。採択率は約５０％。

【6月】
6/8 修正版仕様書を提出。その後、データ収集に関する会計処理で事務との見解の相違が発生。直接面会して対応を協議。
6/20 仕様書の英語版を要請され作成して送付。
6/30 ICNALEベースシステムのアップデートが完了。フォルダ構成やファイルネームなどモジュール間で不統一であった個所が改善された（はず）。GRAはデータ待ちだがそれ以外は202306バージョンとして更新完了。

【5月】
5/8 Poland論文について、Dimension scoreを表でなくグラフで表示する方向に転換、dimensionごとのloadの強いfeatureの情報を記載
5/8 データ収集用にGoogle Formで語数設定をかける技術を習得
5/9 Poland論文のデータの不整合が気になり始め、タイのB2を入れて分析をやり直しすることに。ESLを抜く、EFLは全部入れる、keywordはLLではなく%で抽出する方針に転換
5/9 データ収集の可能性を含めて、講演を依頼してきたマレーシアの大学教員に連絡
5/10 講演日程確定
5/14 ぎりぎりになったが、SSLLT (Kalisz)用の分析が完了（論文）、パワポも一応完成。
5/15-17 SSLLT2023で研究発表
5/22 海外協力者に参画意向を打診、返信あり。エクセルのデータ収集フォームを微修正。学年などは入力ではなく選択方式に。テストには満点表示。語数の自動計算も追加。

データ収集フォームの修正

エッセイを張り付けるセルの自動語数表示。

5/23 GRAを含めた検索系の改修・新設について業者に見積もり依頼を行う。あわせてGRAに基づくベンチマーク自動抽出システムの概要を考案し、資料にまとめる

各種条件からの該当ファイルの自動サンプリングと、検索系への送り出し

5/25 システム業者から返信。見積もりに時間必要とのこと。
5/26 海外提携者からとりまとめ。希望人数目安を書き込んで返送。※シミュレーション：Max 950psn (3.3M/3.2M）
5/27 GloCALLのアブスト審査結果が届く。結果を詳しく、ということだったので、データにコーディングをして分析を実施。はっきりとpositiveな結果が得られてよかった。
5/28 修正版のアブストを送信。
5/29 Kalisz論文を再開、Intro部分を書き始める。最新のIJLCRなどから関連論文を入手し、要約作業を始める。
5/31 会計より仕様書提出の要請があり対応。提携者に人数確認。

【4月】
4/1 新年度スタート
4/3 AsiaTEFL2023より採択通知、年会費支払い
4/5 科研システムより受領申請手続き、仕様書を作成、事務に確認依頼【事業開始前の動き】
4/6 事務と相談し、積算根拠を確認
4/24 Poland学会用のエッセイ分析開始
4/27 インドネシアの共同研究者に参画の可能性を打診（→可能性うすそう）

～～～～～～～～～～～～～～～～～～～～～～

2023年度特別事業1（LCSAW関連　※旧科研）
(2024年2月）
2/2　事前打ち合わせ
2/3 シンポ実施
2/17 websiteを更新（記録写真のアップ）

(2024年1月）
1/5 一般公募の締め切り（予想外に集まってよかった）
1/5 招待発表者への口座登録依頼
1/6　会場本予約、採択通知の発出
1/8 プログラムv1の作成、チェック依頼
1/8 ウェブサイトの更新（LCSAW5の情報追加）
1/9 プログラム最終版の作成、MLでの告知、ウェブサイトの修正
1/10 ウェブサイトからのProceedingsリンクの修正、海外招待発表者への招聘状送付、Promisへの後援依頼、情報センターにビジターLANアカウント発給依頼、参加申し込みサイトに「対面のみ」である注記を追加
1/13 発表者で申し込みのない人に督促（1/12期限だったもの）

(2023年12月)
12/20 やるかどうか迷っていたが、思い立って発表募集告知を発出（here）
12/20 招待発表者への意向伺い
12/29 招待発表者の追加

（2023年11月）
11/6 会場だけ仮予約

2023年度特別事業2（ICNALE既存モジュールメンテナンス）

(2024年2月)
2/14 オンラインシステムの整備状況を照会→月末まで予定

(2024年1月)
1/2 SEより返信
My senior colleagues insisted that they were not 100% sure, but very probably this option (selection of different part-of-speech tagsets for user English corpora) was not publicly available in the interface. If so, we cannot provide this tagset for tagging due to licensing.（古い社員に聞いてもはっきりしないが、たぶん、タグの選択システムは一般には公開していなかったはず）でも使ったのに。。。。
1/4　アイライトに連絡。新タグで統一の方向を連絡。
1/5 アイライト返信あり。FTPアカウント情報が必要、新タグでは3列全てのデータが必要とのこと。同日FTPアカウントデータを提供。
1/11 1/12 匿名化漏れのチェック、大学名の残存を数点確認→対応。
1/13 Antconcに全体ファイルを読み込む際に２つでエンコードエラーを検出→修正。前回のマージ作業では、並べ替えが効いておらず、その後に匿名化による内容変更が起こったため、再度マージ作業を一からやりなおし。Text Join作業で、すべてにおいてソートのプロセスを組み込み。Sketch Engineで全体を新タグでタグ付け（Tree Tagger v3.3）。あわせてアイライト向けに作業の詳細解説ビデオを作成、業者に送付。

(2023年12月)
12/22 業者（アイライト）にOnlineのシステム落ちへの対応を依頼。あわせて、JFICの作業開始を指示。あわせてWEについてはコードの違いを示し、タグ付け後のvertの3列データのどの部分を使っているのか照会。
12/22 利用者からの意見にもとづき、WE2.5のタグセットのチェック開始
=====================
CHN A2 PTJ
ENS XX2 PTJ+SMK
ENS XX3 PTJ
======================
AntconcでI-dをキーとして全vertデータを検証。上記4種のvert dataのみ、タグセットが他と異なっていることを確認。
　他全部：I-p, really-r
　4セット：I-d, really-a
Sketch Engine（expiresしていたので再入会）でデフォルトのtree tagger3（ceecusptjでも同じになる）で処理したところ、以下を確認。

◎旧タグ（CHN_B1 PTJ)
I PP I-p 代名詞はp
think VVP think-v
a DT a-x 冠詞はx
part NN part-n
time NN time-n
job NN job-n
is VBZ be-v
one CD one-m
of IN of-i 前置詞はi
the DT the-x
most RBS most-r 副詞はr
important JJ important-j 形容詞はj
things NNS thing-n
in IN in-i
college NN college-n
life NN life-n
<g/>

◎配布版の4ファイルのタグ

I PP I-d 代名詞がpでなくd
agree VVP agree-v
that IN/that that-i 前置詞と同等扱い
it PP it-d　ここは変更なし
is VBZ be-v　ここは変更なし
important JJ important-j　ここは変更なし
・・・
Thus RB thus-a　副詞はa

◎本日時点のtt3でのタグ付け結果

I PP I-d

agree VVP agree-v

that IN/that that-i

it PP it-d

is VBZ be-v

important JJ important-j

※配布版と同等であることを確認

Sketch Engineに古いタグセットで作業できるか確認メールを発送
あわせて、検証用ファイルを作成し、業者に対応依頼

同じ語に、旧セットと新セットでどういうタグが付いているかの比較表を作成

12/23 Sketch Engineより返信あり。In this tagset, the pronouns are tagged with a tag starting "P", and thus the lempos suffix is "-p" instead of "-d". This part-of-speech tagset is available only for corpora annotated outside of Sketch Engine.Tree Taggerのタグとしては変わっておらず、もしpがつくならCLAWSでは？とのこと。CLAWSが使えるのはWmatrixで、たしかにそれも昔使っていた記憶もあるので、作業したのはWmatrixだったのだろうか・・？　しかし、Sketch Engine側にCEECUSなど、10年前に自分が処理したコーパスの名称が残っているので、やはりSketch Engineで付けたのではないかと思われる。記憶があいまい。。。ともあれ、ダメな場合は、lempo（レマ＋POS)だけ手作業で代えるか。。。
12/23 Wmatrixのアカウントが発給されたが明らかにデータの形式が違った。やはりSEだったと確認。

WmatrixのPOSタグ付け

12/23 SEに対して外部ではなくSEでそうしたタグができたことを主張するが話が通じない（新しく入ったスタッフ？）。Wmatrixを使った可能性もあるかとこちらで考え直す。Wmatrixのアカウント取得して実験するが同じようにはならない。やはりSEだろう。
12/24 業者から返信あり。サーバーダウンは解消したとのこと。Braveではシールド外さないとうまくいかないみたい。（前はいけたのに）
12/24 アイライトより返信。画面ブランク問題については、http"s"がつくと落ちる、ことを確認。石川サーバにアクセス不可とのこと。

（2023年10月）
10/28 ユーザーより連絡。マージファイルの中国A2のタグが他とずれているとの指摘。次期版で修正するよう回答。

----------------------------------

【本科研正式スタート前の動き】

---2023---
1/11 ミャンマー担当教員が事情で収集困難になったとの通知（※本年度の収集は断念）2/28 新科研の採択が内示

---2022---
9/28 次期科研としてICNALE-WE22プランを策定して申請
10/16 インドネシア協力者よりミャンマーでのデータ収集予定について問い合わせ
10/17 新プロジェクトへの招聘
10/20 参加教員の承認11/3 協力者より紹介メール、参加教員の連絡先確定（Nan Ingyin Phyu）
11/6 こちらから着信確認
11/14 プロトコルブック修正、エクセル再修正、先方連絡、謝金修正（円安反映による20％増額）、今の状況下で200人は厳しいので100人目標でという返信（了承）→収集開始。

神戸大学石川慎一郎研究室　活動報告

このブログを検索

2022/10/16

2023-2026 科研（基盤B：WE拡張）進捗報告