最終更新日 2025/4/29
2023~2025年度 科研(基盤B)「ICNALE WE22構築」(23H00641) 進捗報告
◎このエントリの位置付け
本エントリは,報告書「科学研究における健全性の向上について」(日本学術会議,2015年3月6日)の(2)-1および(2)-5アで指摘されている「研究ノート」の電子版として位置付けています。その都度の準備の状況・実験の過程・問題点などを時系列的に記録し,誤記の修正などを除き,過去の内容は変更しないこととします。
◎事業目的(2024/4/1現在)
(1) ICNALE WEをアジア圏のデータ未収集国に広げ、アジアにおけるカバー率の上昇を目指す。
(2) 幅広いEFL/ESL圏学習者の作文を計量的に分析し、L1影響や地域影響の実相を科学的に解明する。
(3) あわせて日本人L2英語産出の多面的分析を可能にするため、L1/L2日本語にかかわる幅広いデータの収集と分析を行う。
◎事業経緯
旧科研(2020~2022年度、基盤B)の末期にミャンマーでのデータ収集ができる可能性が生じ、旧科研のサブプロジェクトBとしてミャンマーでのデータ収集事業を開始。しかし、政変による状況の不安定さのため、協力者が離脱し、2022年度中でのデータは白紙になる。事業は新科研に継続。
◎2023年度(1年目)の実績
過去の研究で十分なデータが取れていなかった9か国で新たに527件のデータを収集した。また、既存のICNALEデータのメンテナンスを実施した(WEのタグ付け修正、GRAのファイルアップデート)。あわせて、2024/2/3に国際シンポLCSAW6を開催した。
◎2024年度(2年目)の目標
アジア圏国際英語学習者コーパスICNALEは世界で広く活用されているが、カバーされている国は10か国・地域にとどまる。本研究課題は新たに10か国以上で作文収集を行い、データのカバレージの向上を目指す。あわせて、研究の中心対象となる日本人英語学習者のL2産出の特性を多元的に解明するため、比較用のL1日本語データおよびL2日本語学習者データの収集と分析を実施する。
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
【収集の記録】
●2023年4月開始時点(目標)
重点地域(100名) Cambodia, India, Malaysia, Vietnam
その他10地域(50名) Bangladesh, Bhutan, Brunei, East Timor, Laos, Maldives, Mongol, Myanmar, Nepal, Sri Lanka
※合計400+500=900
●2023年8月現在 394人(BGD, IND, LAO, KHM, MMR, (MNG), MYS)
●2024年1月現在 528人(LCA、VNM)
●2024年10月現在 630人+α(BRN、VNMを追加)
●2025年4月現在 757人(IND、VNMを追加)
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
●2024年度データ収集計画と進捗
VNM Pham Quy (Ton Duc Thang U) 8/17: 50 completed
BRU Zayani Abidin (U Brunei Damssalaw) Completed
VNM Cao Hong (Vietnam Matima U) In progress
_________________________________________
VNM Hien, Hoang Thi Thu (Quy Nhom U)
IND Sirigirajo Meekakshi (IIT) 10は取れた(7月時点)
●2025年度データ収集計画と進捗
(終了)
VNM :Loan Nhị Hà Ha (University of Economics - Ho Chi Minh City, PhD candidate) plans to collect 50 ☛最終63
IND:K. Venu Madhavi (The English and Foreign Languages University, Hyderabad, India.)
Udaya Muthyala (The English and Foreign Languages University, Hyderabad, India)
Pusuluri Sreehari (The English and Foreign Languages University, Hyderabad, India)
Lalitha Bai (Vignan Jyothi Institute of Technology, Hyderabad, India) ☛ 最終64/125
(予定)
VNM:Dinh Thi Mai Anh (Nottingham Trent University/Vinh University) plans to collect 50 [Dec 2025]
NPL: Krishna collect 50
【月次進捗】
2025年度
【4月】
・4/22 インドデータとベトナムデータのveririficationが終わりベトナムは会計処理へ
・4/21 インドより二次データ納品
・4/18 新検索システム開発について要望を伝達(LLRとeffect sizeの計算式の確定)
・4/14 ベトナムデータ納品
・4/13 インドよりデータ納品(1次)
・4/11 新検索システム開発について先方より返信あり
・4/21 インドより1次の追加
・4/22 インドにチェック結果を返信、ベトナムの送金手続き指示
・4/23 インドより2次
・4/25インドより1次の差し替え
・4/29 インド追加データのverification。インドの最終数確定支払い指示。
・4/30 インドの追加データを含めて最終verification。数を確定して再度支払い指示へ。
2024年度
【3月】
・3/10 ベトナムの教員と新規データ収集にかかるミーティング
【2月】
・ThaiTESOL参加者へのリクルーティングでベトナム・ネパール・インドの協力者が決まり、2/4に、順次、zoomで説明会を実施。
・2/4 本年度計画のVNMとINDの協力者に進捗照会。
・2/4 3件のzoomミーティングを実施
・2/5 IND Meekakshiよりデータ(23)を受け取り
【1月】
・Thai TESOLでWEP研究を発表。会場で協力者をリクルーティング。
・JASWRIC論文、LEARNジャーナル論文が正式に公開。
【11-12月】
・WEPデータで論文執筆、LEARNジャーナルに投稿→修正採択。
【10月】
・Agdeppa氏納品データ(4~9月を整理)、データを増やしてV0.3として公開(※V0.2としては公開されていなかったので、新規にV0.3として公開。ファイル名をWE2→WEPに)
・上記に伴う会計処理
・上記に伴うHPメンテナンス
【9月】
論文執筆・投稿
・小中高大生の作文に見る動詞使用パタンの変化――JASWRICの「鍵」作文の分析―― (27p)☛改稿・受理
・ICNALE WEPlus V0.2の加工
・Reconsideration of L1 Effects on Asian Learners’ L2 English Writing: A Study Based on the ICNALE ☛新規投稿(V0.2に基づく)
【8月】
新年度~8/16までに脱稿(投稿、投稿待ち、改稿中)した論文のメモ
・中間言語対照分析(CIA)のためのI-JASダウンロードデータの加工―I-JAS for CIAの整備―(23p) ☛言語資源WS
・English/Japanese Word Frequency Table Generator(EJWFTG)を用いた日本語統合語彙頻度表の作成と活用(10p)☛計量国語学
・日本語学術論文の即時オープンアクセス実現に向けて(26p)☛国語研論集
・小中高大生の作文に見る動詞使用パタンの変化――JASWRICの「鍵」作文の分析―― (27p)☛改稿中
8/17 VNM Quy氏より2nd batch 28本が到着。同日内容チェック、事務に支払い手続きを依頼。
8/25 全国英語教育学会(JASELE)でICNALE WE22の内容について報告。
8/27 Quy氏よりSDのビデオのデータ不備2点の指摘を受け、元データにアクセスし、音声ファイルを復元し、アップロード。ICNALEサイトに修正告知を出す。こうした意見を付けてくれる人がいるおかげでデータのミスが直っていく。感謝。
【7月】
7/9 VNM Quyチームより1st batch 22本が到着。
【6月】
6/1 北京とのシンポについて広報業務がいちおうかたがつく。
6/2 国語研用の論文修正を進める。対応分析は上位40語だったが、それだとクラスターと同じだと思いなおし、100語でやり直す。情報量が倍増していい感じになった。また、元の版にあったL2との比較はトピック統制がなされていないこともありカット。
6/9 締め切り1日前になんとか提出。
6/12 計量国語の依頼原稿に着手。
【5月】
5/1 仮にWE2と命名(※本体のWEに組み込まない)
・データの整形、rename作業
・フォルダごとにデータを作成
・10件以上のデータについてのみマージファイルを作成
・POSタグ付け(Sketch Engineだと20個送っても1つにまとまってしまうので、今回はTagAnt使用)
5/2 サイトアップデート、ダウンロード対応、プルダウンにWE2を追加。
・初年度で500名、1000件のデータがリリースできた(参加者総数が5000人を突破)
・ICNALE Onlineの解説ページも未修正だったので年度末修正を更新
5/3 新規協力候補者探し、9人に参加意向伺いメールを発送
5/5 新規データを用い、JASELE用のアブストを作成し送信。SMKの場合、旧英領インド3か国のクラスタリングが確認されたのは面白い。
5/7 ベトナムの候補者とzoom面談。Excel版テンプレとweb formリンクを送付。
5/9 ブルネイの候補者と面談。テンプレを使って説明。
5/11 ベトナム二人目と面談。同上。三人目からコンタクト。JASELEの予稿集作成のため、Niniソフトでデータ処理。またENSを落としていたので混ぜて分析。分析してみると意外にもL1大事とわかる。日本語は別建てなので、日本にいるとL1無関係でしょうという気になるが、実はそうではなかった様子。
5/13 すでに書き終えていたJASWRIC論文(※依頼原稿だったのに掲載予定誌がなくなった)を国語研用に修正して提出することに。
5/14 ベトナム3人目の面談終了。面談方式は非常に有効だった。
5/16 ブルネイより受託,certificate発行
5/17 インドより返信。面談調整。
5/19 インド面談終了。さてどうなるか。
5/20- 国語研用にJASWRICの論文の修正を開始
5/24 keyにするか、key+picnicにするか、L2と同じpicnicにするか二転三転。結局keyにしてかつ新データでやりなおすことに。。。
5/25 ICNALE SDのビデオにアクセスできないというメールが2通目。ともかく直接インビを送ることで解決。あわせて手元にデータがないのは怖いので、一晩かけて、20個ずつ、MS driveからデータを落とす
5/26 前日に引き続き作業。425DL完了。それらをGoogle Driveにあげる(こちらのほうが早い)。さらにSDカードにもバックアップを取っておく
5/27 インドより受託。良かった!
5/30 科研日本語シンポの後援申請
5/31 科研の日本語シンポの案内発送、
【4月】
4/1 新年度事業開始
4/3 新年度交付申請書の作成
4/19 新年度交付申請、支払い請求が学振で受理
4/19 過年度の収集実績の確認、本ブログのデータの整理
4/23 カナダの仲介者に新年度のデータ収集依頼
___________________
Brunei 50 (新?)
...................................
India 15 (85に追加)
Laos 15 (35に追加)
Myanmar 18 (132に追加)
____________________
4/29 初年度収集データの整理作業開始
・台帳整理(stage 2をstage 1台帳に統合) ※仮コードのMMR/MYMのブレを修正
・コードをacceptデータのみで新しく振り直し
・VSTのスコア計算、動機付け指標など計算、公開準備用属性ファイル準備完了
4/30 事務に2024年度のデータ収集について仕様書のチェックを依頼
(参考:単価見積の記録として)
4/29の為替介入後(推定、156円))で見ても15.5%の下落
2023年度
【3月】
3/30 AsiaTEFL用論文査読対応、再提出
【2月】
2/5 謝金の着金完了
【1月】
1/8 Stage2データ提出サイトをクローズ。検証準備。
1/9 エクセルからテキストファイルを作成・命名。検証作業開始。
1/10 Stage2の検証終了。結果を仲介者に通知、会計に支払い依頼。延長申請の文章を下書き、事務に添削を依頼。仲介者に協力者別の採択数を通知。
1/12 事務より作業者に謝金支払い準備の連絡。
1/13 上記の会計システム登録を完了。
【12月】
12/5 事務より仲介者に契約書サイン依頼
12/11 修正して再送
12/18 督促
12/20 上記対応あり
【11月】
11/1 会計より契約仕様書作成依頼
11/6 頻度データ処理システムの見積もり依頼
11/7 同上詳細情報を送信
11/8 仕様書のアップデートを行い事務に提出。現状を確認(インド77、ベトナム6,スリランカ4)。仲介者に状況シェア。
11/15 オンラインシステムへのアクセスにかかる照会あり、下限照会あり
11/21 下限について指示あり
11/23 仲介者よりインドデータのチェック依頼
11/24 対面で意見調整(部局決裁可能な範囲まで下限を下げて仕様出すことに)。現時点で集まっているデータの整理、テキスト化まで終了。
11/26 チェック終了、仲介者にフィードバック
現状確認
★インド 23+56=79 (+21目標)
★スリランカ3, ベトナム6は今年度の追加は困難
★Stage2はじまりのブルネイとネパールはまだ未収集。ミャンマーは+11目標だが、こちらも未収集か?
★Stage 2は現状88本受領。年末までに100いくか?
11/29 新仕様書チェック済
【10月】
10/2 送金完了
10/6 投稿用論文の修正作業を再開(※5月に書いていたもの)
10/9 第2期依頼についてSecond priority諸国でのリクルーティングが難しいとの連絡あり。リクルーティング終了後再度相談することに。
10/11 投稿用論文を英文プルーフに出す
10/17 戻り原稿のチェックを開始
10/20 作業者と現状確認およびStage 2計画の詳細を確認
10/24 原稿のチェックを再開。3.1.3(地域比較)の内容がしょぼかったのでこの個所全面的に改訂。
10/28 後半いろいろ触って、投稿完了。
【9月】
9/13 第1期の送金作業
【8月】
8/4 KHM、BGDより追加データ送付あり
8/8 KHM、BGDの追加データのテキスト切り出し、重複チェックを開始するが、これまでの総体における重複見直しがありうるのでまとめて再チェックにかける
8/10-11 再チェックが終了。残ったデータを悉皆で語数計算。基準以下のものを棄却。最終的に408人を採用、362人を棄却。基本方針<2~3語レベルではなく10~15語スパン(KWICの一方のコンテキスト>で完全一致または酷似が認められたものを棄却。似た内容、表現があるが英語の単語選択などが一致していないものは、外部資料参考の可能性があっても自分なりの書き換えがなされていると判断して採用。コピーの時に入り込んだ「"」を一括で削除、「'」を上書きで置換。
8/12-15 Survey dataのチェック。個票から張り付けるのだが予想以上に面倒で時間がかかる。作業過程で高校生データ混入と、L1中国語学生?データの混入を確認。仲介者に確認依頼。
8/16 Vocテストスコアと、学習経歴アンケートの自動計算。
8/19 カナダでとったインド人追加データ到着。
8/19 Stage 2 計画の相談
8/22 インド追加到着
8/25 マレーシア追加到着
8/27-28 追加分含めての再検証。rejectが発生。
8/29 最終版として394、事務に報告、検収依頼。
8/29 Stage 2のためにGoogle Formを作成。剽窃しないよう重ねての忠告を行う。仲介者にGoogle Formを伝達。IND129→BDG165の修正対応。
【7月】
7/5 マレーシアから先行取得データが届く。1週間程度で検証の予定。作業手順の確認。
テキストファイル化→語数チェック→トピック間違い確認
7/6 バングラから先行取得データが届く。バングラは既存のコーパス研究ではほとんどカバーされておらず価値あるデータ。
7/9 別件の講演準備が終わりデータ処理に着手。まずエクセルのファイルタイプを連番変換。バングラ94件の作業を開始。
7/10 バングラ分、テキスト化→属性情報の集約化まで終わる。
PTJ 25144語 SMK 24414語
DupFileEliminatorを導入。バイナリレベルでテキストの重複を確認
検証:PTJ smoking, always, think, firstly, really, tuition, working
検証:SMK sometimes/usually/often/think/all/around/breathe/clean/air
検証:survey/VST(合計とSDで重複を検出)
=======================
エッセイ重複疑 21/30/42/62/79
アンケート重複疑
44/75, 21/42/62/79, 20/48, 36/54/88, 32/61, 71/91
→学生にやり直しを指示
=========================
リエゾンにフィードバック結果を送信。
7/11 リエゾンより最新状況の報告。調整案を提案。マレーシアのテキスト化。
7/12 丸1日かけて、インドのテキスト化と属性データの台帳転記終了。time-consuming。。。 後はマレーシアの属性転記だが、明日終わるか。。。
7/13 Malayの転記終了。段々慣れてきた! ちょっとほかの仕事をやる。
7/14 ばらばら検証をやりかけていたが、再度一から見直したくなり、BGG/IND/MYSの全ファイルを一括フォルダに集約し、1)DupFile Eliminatorと、MATの全標識数値の統合値の2観点で重複を機械的に抽出。エッセイの完全重複の認められたインドの42名/121名、タスク未了のマレーシアの2名/113名をreject決定。リエゾンにフィードバック
==========================
1) X Malaysia
Aim: 70 Collected: 70 Accpted:68 Rejected:2 (Half done)
2) Y Malaysia
Aim: 30 Collected: 43 Accepted: 43
3) Z India
Aim: 90 Collected: 121 Accepted: 79 Rejected: 42 (Essay duplications)
===========================
7/15 カンボジア、ミャンマー、ラオスのデータが到着。
7/16 カンボジアとミャンマーのテキスト化が終了。
7/17 インドの2つ目のデータは重複が多く受領できないと判断
7/18 検証済みのものも含めて再度KWICで重複の検査。予想以上に類似が多く、フィードバックをリエゾンに出す。この作業は教師の心をむしばむ。学生の不正行為?を探すのは心が折れる。しかし、テストでもないのに、なぜ自分の力でできる範囲で書かないのだろうか?? 仲介者にFeedbackを送信
7/19 仲介者より自分でも検証をしたいという要望→手順を説明してむつかしいことを伝達
7/19 不採択にしたインド教員よりクレームあり、仲介者が対応
7/19 長さ、剽窃なし、について再度仲介者に説明
7/20 事務より回答(現在契約中で、数が不足したらについてはこの段階では回答できない)
7/20 事務より受け取り拒否できないという回答、同日、石川より事情説明(提出→検証→最終受理)、これには返事なし
7/25 日本語版にはなかった(もともとはあった)報酬規程が英語版で加わっていることについて照会(この過程で金額が変更されていることがわかり、石川より事務に確認を依頼)
7/26 回答:金額は(石川の承認なしに)交渉で変更、データ数は条件を満たしていなければ契約を下回ることはありうる→石川返信、なぜ金額変更?もともと日本語になった金額が消えているのはなぜ?(再度翻訳する必要はなかった)、条件に満たないものは受け取れない、という理解であっているか?
7/26 Clear 50の意味の問い合わせ、reject氏名の要望
7/27 仲介者に返信、ミャンマー、カンボジアデータ受領
7/28 コードの割り振り表を送付、あわせて期限延長について 再度英語で事務と仲介者に同時メール発出・・・この数週間、かなりストレスフルな仕事の環境になっている。私、仲介者、実際の教員、学生、大学の担当部署、大学のその上の上部部署の間で、ぐるぐる話がまわって段々相互誤解が生まれる。なんとかならんかなあ。
7/29 新規データのテキストファイル化。
7/30 データの重複と剽窃をチェック。仲介者にフィードバック。採択率は約50%。
【6月】
6/8 修正版仕様書を提出。その後、データ収集に関する会計処理で事務との見解の相違が発生。直接面会して対応を協議。
6/20 仕様書の英語版を要請され作成して送付。
6/30 ICNALEベースシステムのアップデートが完了。フォルダ構成やファイルネームなどモジュール間で不統一であった個所が改善された(はず)。GRAはデータ待ちだがそれ以外は202306バージョンとして更新完了。
【5月】
5/8 Poland論文について、Dimension scoreを表でなくグラフで表示する方向に転換、dimensionごとのloadの強いfeatureの情報を記載
5/8 データ収集用にGoogle Formで語数設定をかける技術を習得
5/9 Poland論文のデータの不整合が気になり始め、タイのB2を入れて分析をやり直しすることに。ESLを抜く、EFLは全部入れる、keywordはLLではなく%で抽出する方針に転換
5/9 データ収集の可能性を含めて、講演を依頼してきたマレーシアの大学教員に連絡
5/10 講演日程確定
5/14 ぎりぎりになったが、SSLLT (Kalisz)用の分析が完了(論文)、パワポも一応完成。
5/15-17 SSLLT2023で研究発表
5/22 海外協力者に参画意向を打診、返信あり。エクセルのデータ収集フォームを微修正。学年などは入力ではなく選択方式に。テストには満点表示。語数の自動計算も追加。
5/23 GRAを含めた検索系の改修・新設について業者に見積もり依頼を行う。あわせてGRAに基づくベンチマーク自動抽出システムの概要を考案し、資料にまとめる
5/26 海外提携者からとりまとめ。希望人数目安を書き込んで返送。※シミュレーション:Max 950psn (3.3M/3.2M)
5/27 GloCALLのアブスト審査結果が届く。結果を詳しく、ということだったので、データにコーディングをして分析を実施。はっきりとpositiveな結果が得られてよかった。
5/28 修正版のアブストを送信。
5/29 Kalisz論文を再開、Intro部分を書き始める。最新のIJLCRなどから関連論文を入手し、要約作業を始める。
5/31 会計より仕様書提出の要請があり対応。提携者に人数確認。
【4月】
4/1 新年度スタート
4/3 AsiaTEFL2023より採択通知、年会費支払い
4/5 科研システムより受領申請手続き、仕様書を作成、事務に確認依頼【事業開始前の動き】
4/6 事務と相談し、積算根拠を確認
4/24 Poland学会用のエッセイ分析開始
4/27 インドネシアの共同研究者に参画の可能性を打診(→可能性うすそう)
~~~~~~~~~~~~~~~~~~~~~~
2023年度特別事業1(LCSAW関連 ※旧科研)
(2024年2月)
2/2 事前打ち合わせ
2/3 シンポ実施
2/17 websiteを更新(記録写真のアップ)
(2024年1月)
1/5 一般公募の締め切り(予想外に集まってよかった)
1/5 招待発表者への口座登録依頼
1/6 会場本予約、採択通知の発出
1/8 プログラムv1の作成、チェック依頼
1/8 ウェブサイトの更新(LCSAW5の情報追加)
1/9 プログラム最終版の作成、MLでの告知、ウェブサイトの修正
1/10 ウェブサイトからのProceedingsリンクの修正、海外招待発表者への招聘状送付、Promisへの後援依頼、情報センターにビジターLANアカウント発給依頼、参加申し込みサイトに「対面のみ」である注記を追加
1/13 発表者で申し込みのない人に督促(1/12期限だったもの)
(2023年12月)
12/20 やるかどうか迷っていたが、思い立って発表募集告知を発出(here)
12/20 招待発表者への意向伺い
12/29 招待発表者の追加
(2023年11月)
11/6 会場だけ仮予約
(2024年2月)
2/14 オンラインシステムの整備状況を照会→月末まで予定
(2024年1月)
1/2 SEより返信
My senior colleagues insisted that they were not 100% sure, but very probably this option (selection of different part-of-speech tagsets for user English corpora) was not publicly available in the interface. If so, we cannot provide this tagset for tagging due to licensing.(古い社員に聞いてもはっきりしないが、たぶん、タグの選択システムは一般には公開していなかったはず)でも使ったのに。。。。
1/4 アイライトに連絡。新タグで統一の方向を連絡。
1/5 アイライト返信あり。FTPアカウント情報が必要、新タグでは3列全てのデータが必要とのこと。同日FTPアカウントデータを提供。
1/11 1/12 匿名化漏れのチェック、大学名の残存を数点確認→対応。
1/13 Antconcに全体ファイルを読み込む際に2つでエンコードエラーを検出→修正。前回のマージ作業では、並べ替えが効いておらず、その後に匿名化による内容変更が起こったため、再度マージ作業を一からやりなおし。Text Join作業で、すべてにおいてソートのプロセスを組み込み。Sketch Engineで全体を新タグでタグ付け(Tree Tagger v3.3)。あわせてアイライト向けに作業の詳細解説ビデオを作成、業者に送付。
(2023年12月)
12/22 業者(アイライト)にOnlineのシステム落ちへの対応を依頼。あわせて、JFICの作業開始を指示。あわせてWEについてはコードの違いを示し、タグ付け後のvertの3列データのどの部分を使っているのか照会。
12/22 利用者からの意見にもとづき、WE2.5のタグセットのチェック開始
=====================
CHN A2 PTJ
ENS XX2 PTJ+SMK
ENS XX3 PTJ
======================
AntconcでI-dをキーとして全vertデータを検証。上記4種のvert dataのみ、タグセットが他と異なっていることを確認。
他全部:I-p, really-r
4セット:I-d, really-a
Sketch Engine(expiresしていたので再入会)でデフォルトのtree tagger3(ceecusptjでも同じになる)で処理したところ、以下を確認。
◎旧タグ(CHN_B1 PTJ)
I PP I-p 代名詞はp
think VVP think-v
a DT a-x 冠詞はx
part NN part-n
time NN time-n
job NN job-n
is VBZ be-v
one CD one-m
of IN of-i 前置詞はi
the DT the-x
most RBS most-r 副詞はr
important JJ important-j 形容詞はj
things NNS thing-n
in IN in-i
college NN college-n
life NN life-n
<g/>
◎配布版の4ファイルのタグ
I PP I-d 代名詞がpでなくd
agree VVP agree-v
that IN/that that-i 前置詞と同等扱い
it PP it-d ここは変更なし
is VBZ be-v ここは変更なし
important JJ important-j ここは変更なし
・・・
Thus RB thus-a 副詞はa
Sketch Engineに古いタグセットで作業できるか確認メールを発送
あわせて、検証用ファイルを作成し、業者に対応依頼
12/23 Sketch Engineより返信あり。In this tagset, the pronouns are tagged with a tag starting "P", and thus the lempos suffix is "-p" instead of "-d". This part-of-speech tagset is available only for corpora annotated outside of Sketch Engine.Tree Taggerのタグとしては変わっておらず、もしpがつくならCLAWSでは?とのこと。CLAWSが使えるのはWmatrixで、たしかにそれも昔使っていた記憶もあるので、作業したのはWmatrixだったのだろうか・・? しかし、Sketch Engine側にCEECUSなど、10年前に自分が処理したコーパスの名称が残っているので、やはりSketch Engineで付けたのではないかと思われる。記憶があいまい。。。ともあれ、ダメな場合は、lempo(レマ+POS)だけ手作業で代えるか。。。
12/23 Wmatrixのアカウントが発給されたが明らかにデータの形式が違った。やはりSEだったと確認。
12/23 SEに対して外部ではなくSEでそうしたタグができたことを主張するが話が通じない(新しく入ったスタッフ?)。Wmatrixを使った可能性もあるかとこちらで考え直す。Wmatrixのアカウント取得して実験するが同じようにはならない。やはりSEだろう。
12/24 業者から返信あり。サーバーダウンは解消したとのこと。Braveではシールド外さないとうまくいかないみたい。(前はいけたのに)
12/24 アイライトより返信。画面ブランク問題については、http"s"がつくと落ちる、ことを確認。石川サーバにアクセス不可とのこと。
(2023年10月)
10/28 ユーザーより連絡。マージファイルの中国A2のタグが他とずれているとの指摘。次期版で修正するよう回答。
----------------------------------
---2023---
1/11 ミャンマー担当教員が事情で収集困難になったとの通知(※本年度の収集は断念)2/28 新科研の採択が内示
---2022---
9/28 次期科研としてICNALE-WE22プランを策定して申請
10/16 インドネシア協力者よりミャンマーでのデータ収集予定について問い合わせ
10/17 新プロジェクトへの招聘
10/20 参加教員の承認11/3 協力者より紹介メール、参加教員の連絡先確定(Nan Ingyin Phyu)
11/6 こちらから着信確認
11/14 プロトコルブック修正、エクセル再修正、先方連絡、謝金修正(円安反映による20%増額)、今の状況下で200人は厳しいので100人目標でという返信(了承)→収集開始。