このブログを検索

2022/08/01

2020-2023 科研(基盤B:JASWRICサブプロジェクト)進捗報告

最終更新日 2023/6/5

2020~2022年度 科研(基盤B)「アジア圏英語学習者の作文・発話に対する世界最大級公開型評価データセット開発と分析」(20H01282 )サブプロジェクトA(JASWRIC構築)進捗報告

◎このエントリの位置付け
本エントリは,報告書「科学研究における健全性の向上について」(日本学術会議,2015年3月6日)の(2)-1および(2)-5アで指摘されている「研究ノート」の電子版として位置付けています。その都度の準備の状況・実験の過程・問題点などを時系列的に記録し,誤記の修正などを除き,過去の内容は変更しないこととします。

◎事業目的
メインプロジェクト(GRA構築)】
 将来の自動採点・自動評価の基礎資料となるよう,ICNALEプロジェクトで収集済みのアジア圏学習者のL2作文・発話データを用いて,国際評価パネルによる評価データを体系的に収集・公開する。あわせて評価データを用いた「良い作文」「良い発話」の計量モデル化に取り組む。

★【サブロジェクトA(JASWRIC構築)】(2022年1月~)
メインプロジェクトの目的に沿い、日本人の英語産出を評価する際の基礎資料として、日本人の日本語産出資料を収集する→JASWRICの構築

サブプロジェクトB(WE拡張)】(2022年10月~)
メインプロジェクト終了後の今後のICNALEの東南アジア拡張を見据え、データ未収集国でエッセイデータの収集を行う→ICNALE Written Essays Mynammar Moduleの設計とデータ収集


◎進捗詳細


2023年6月
作業者より、全体形態素台帳のデータ重複の報告。対応。
2001 SN-6 →1991のSN-6のデータが誤って入っていた
2001 SN-7 →1991のSN-7のデータが誤って入っていた
※公開用のプレーンのtextファイルは正しく、形態素台帳作成時のミスと判断。

2023年4月
4/1 「ひまわり」用のパッケージデータを同梱、readmeの修正(バージョンは変更せず)

2023年3月
3/1 国語研シンポ発表準備
3/2 国語研シンポビデオ前撮り終了。新しい形態素ファイルで「色」によるフィルタリングを行い、v1.1での修正行数を計算(約7600行)。新しいデータをサーバーにアップロード、ウェブサイトの更新。


2023年2月
2/1-3 修正継続
2/6 業者にデータを再送付
2/8 mock up。補助記号での検索で語が出て来る問題をレポート。












2/8 上記修正完了通知。そのほかの挙動を品詞検索で調べているうちに、名詞の一部があやまって接尾辞になっている例を発見。当然犬は・・・その瞬間犬は・・・その途端犬は・・・全部中で・・・ のような場合に後部が接尾辞に誤解析されていることをつきとめ、書き出す。あわせて行番号ずれも1か所発見。元データの82926行近傍。930を削除、929を926'にしてソートを合わせる。






2/9 早朝、業者に送信、あわせて今後の修正手順も照会。しかし完全な修正は本当に困難。その後業者よりデータ再送依頼があり対応。あわせて当方でのFTP修正方法についても問い合わせを出しておく。
2/13 そのほかの修正もしているので、ということで再提出を依頼される
2/16 当方の元版に文境界ラベルの欠損を追加し送信
2/16 受理。明日めどに本番環境反映予定。
2/20 反映完了
2/21 納品作業
2/28 国語研シンポの発表準備


2023年1月
1/18 品詞タグ検証作業が終了。
1/24 検索システム開発業者にデータの引き渡し
1/26 提出したデータの不備ありとの返信
1/30 データチェック、語彙素の欠損行などあり、修正しつつ新作業マニュアルを作成し、作業者に連絡
1/31 打ち合わせの結果JASWRICの訂正はこちらでやることに。。。
1/31 まる2日作業やって行ずれに気づき、全部おじゃんになる。燃え尽きる。

2022年12月
12/2 中間作業報告。順調に進捗。1月中旬に終了見込みとのこと
12/10 インタフェース改修検討

2022年11月

11/21 事務より時給単価の算定について再度の照会→反応済→税理士に確認
11/18 事務より時給単価についての根拠書類提出依頼→対応済
11/17 仕様書を作成して事務に提出
11/16 作業者紹介があり見積作成のためのトライアル作業を依頼。1000行/Hで総額見積李実施。事務に経緯を報告。年度内にはJASWRICはできるがJFICは難しそうな状況。
11/14 国語研究所にタグ付け修正作業者の紹介依頼
11/11 神戸大・湖北大合同ゼミでJASWRIC紹介発表

2022年10月
10/25 国語研究所小磯プロジェクト研究会で日本人の動詞獲得について発表
10/8 学習者コーパス研究会でJASWRICの紹介講演

2022年9月
9/27 国語研WSプロシー修訂版提出

2022年8月
8/31 国語研言語資源ワークショップで発表(コーパスリリース)

8/29  ウェブサイト更新

8/3 業者に追加の指示だし
======================
特徴語検索の画面で、トピック指定欄や、語彙単位の指定欄が消えていることに気づきました。これについては、ICNALEの場合と同様、指定できるようにしておいてくださいませ。======================
国語研論文修正の継続

8/2 国語研論文に、JASWRIC Onlineの解説を加える
業者に追加の修正指示だし
=======================
(1) 日本語化に伴う修正
・語彙リスト検索条件設定画面
Lemmatization → 語の単位
Wordform → 書字形(表層形)
Lemma/ Morphem → 語彙素
・頻度グラフ検索条件設定画面
Data → 学年
枠内にある赤字の [学年]: → トル
・特徴語検索条件設定画面
Data →データ
Target →調査群(target)
Reference→参照群(reference)
・特徴語結果表示画面
Overuse →過剰使用
Underuse→過小使用
Statistics→統計量
(2)リンク関係
・トップ画面、左端のJASWRICのaboutのとびさき修正
・ICNALEのaboutのとびさき修正
(3) ICANLEのトップ画面(添付)の修正
Spoken Dialogueのポップアップ内容
Released in 2020 425 subjects 4,250 samples Approx. 1,600,000 tokens
==========================

8/1 こちらの作業に復帰。



2022年7月
7/27 業者より作業進捗着信。検索画面のv1が出る。

検索系v1(7/27時点)

★追加指示だし。
================================================
1・Reading(読書志向) や Writing(作文志向)の列に、本来であれば、1〜5 が指定されている想定ですが、 「N/A」 や「?」といった値が含まれておりました・・・
★検索系では、この2つの属性による絞り込み検索機能は不要です。

2・添付のエクセルにまとめたファイルについては、存在が無いようでした。画像データ無しの作文も存在する。ということでデータがなければ、リンクなし。・・・
★G10については、Keyの91~215が欠損となっていますが、もともとG10は90人しかいないので最大値は90です。この原因を探ったところ、当方で作成したTaggedのファイルにおいて、コード連番の張りつけのミスがあったようです。また、(これははっきり申しておらずすみませんでした)G13(大学1年生)は全員電子入力したので、全員、手書きスキャン画像はなしです。
★また、添付の2つの画像にあるように、ICNALEだとKWICの結果画面からビデオリンクボタンがあったのですが、今回はどこから画像に飛べるようになっていましたでしょうか? (見落としかもしれません。その節はあいすみません)

3・各機能の検索項目について、仮仮として、以下にて反映を行なっております。・・・
★以下のように修正をお願いします。
0)今回は日本語のみのデータなので検索系もなるべく日本語で、と考えています。
1)タブですが、左から順に、KWIC、共起語、語彙リスト、頻度グラフ、特徴語 でお願いします
2)1行目と2行目を入れ替え(つまり、1行目が検索語、2行目が学年になる)
3)学年については、〇小学校 〇中学校 〇高校 〇大学 としていただき、小学校を選ぶと下に1年、2年・・・6年、中学と高校を選ぶと1年・・・3年、大学を選ぶと1年が出る形式でお願いします(※英語のICNALEで国を選ぶと、A2、B1、B2などのレベルが出てきたのと同じ挙動で。なお、大学については1年しかいないので、〇大学を選ぶとポップアップの〇1年が自動で選ばれているようにしてくださいませ)
4)Wordsは検索語、と日本語にします
5)Topicはトピック、KeyとPicは、鍵 と ピクニック でお願いします
6)Reading/WritingとCaseの行はカット(case=大文字・小文字は今回関係ないですので)
7)Numbersは表示行数 としてください
8)Back/goなどのロゴは英語のままで結構でございます

4・上記の検索画面より、・・・

5・本スレッドにて頂いていた、各静的な説明画面へのリンクの設置については・・
★承知しました。
=======================================
追加連絡
★G10のKeyの88番のデータ(218行)ですが、本来は218行すべてにG10_088というコードをつけるべきところ、G10_88、G10_89、G10_90....~G10_215のように、1行ごとに発話者コードの数字が大きくなっていることがエラーの原因でした。本件、修正いたしましたので再送します。

7/19 朝、HP作成完了。申請サイト作成完了。ウェブサイト業者に連絡。性別は小中高大全部カットすることに。論文にもその旨反映。国語研、採択通知。夕刻、HP修正。関係者にプレリリース告知。<ここでこの仕事はいったん終える>
7/18 コーディング終了(約1300枚、疲れた)、国語研論文に、用例追加。夜HP作成開始。
7/17 小6を経て中学生のイラストコーディング開始、草稿を共著者に回送(7/22まで意見求める)
7/16 イラストコーディング作業の開始、小1^小6の途中まで。
7/15 国語研論文に関して過去のコーパス調査
7/14 計量国語の発表申し込み、国語研論文継続、ほぼ形はできる
7/13 国語研用の論文執筆開始
7/12 ここまでの記録を整理してこのエントリを作成
7/12 午前、被験者コードを付与する作業が完了。小3-6のアンケートデータの転記。JASWRIC1.0としてまとめ、システム業者に送付。業者とスケジュール確認。
7/11 full editにしてかつedit記録を保存する方針に変更。作業やり直し。web茶まめで作業するがコードの数が合わない。修正作業。夜、被験者コードの付与。半分終了。
7/10 小1-4だけedit。あとはそのまま方針。
7/8 データ整理開始、まず、被験者情報の整理を行う
7/7 国語研に申し込み完了
7/6 大学生謝金事務完了
7/6 国語研WS発表に向けて論文の共著者への勧誘(附属教員宛て)、迫田・丸山先生にアブストの確認依頼

2022年6月
6/30 下記納品
6/29 小1-2 データ書き越し発注
6/29下記の受け取り
6/27~ 大学生への謝金支払い
6/21 小学校の1-2年データ収集完了。
6/16 中高追加(中1・3)の書きおこし納品
6/16 大学生提出期限
6/15 中高追加分書きおこし発注
6/6-8 大学クラスで参加者募集
6/1 追加データ受領

2022年5月
5/27 下記承認
5/24 附属小追加データ収集の研究内容審査申請
5/23 中高データの納品
5/18 中等に中1・中3の追加データ収集を依頼
5/15 中高データの書きおこし発注
5/14 中高データ受領

2022年4月
4/4 生徒人数分の印刷を行い、学内便で発送
4/1 附属中等教科会議で協力確認返信
3/23 附属中等教員に協力伺い

2022年1~3月
3/4 小学生データ書きおこし納品
2/27 小3-6データを書きおこし発注
1/26 迫田先生にプロンプトの使用許諾以来→受理
1/26 丸山先生に、松隈氏のアイデアを発展させたコーパスづくりについて事前報告
1/26 審査承認通知(題目:日本人児童による絵描写作文課題コーパスの構築と同コーパスに基づく日本人児童の状況把握能力および語彙使用能力の発達過程の計量的モデル化)
1/13 附属学校部に倫理審査依頼
1/13 附属小教員に研究協力の意向を伺い

2022年12月
12/26 迫田先生の学習者コーパス研究会で、松隈氏(専修大)の研究発表を聞き、日本人から絵描写作文を集めるというアイデアに触れる

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~