このブログを検索

2020/06/20

2020-2023 科研(基盤B:ICNALE GRA構築)進捗報告

最終更新日 2024/3/20

2020~2022年度【※2023年度まで延長継続】 科研(基盤B)「アジア圏英語学習者の作文・発話に対する世界最大級公開型評価データセット開発と分析」(20H01282 )メインプロジェクト(GRA構築)進捗報告

◎このエントリの位置付け
本エントリは,報告書「科学研究における健全性の向上について」(日本学術会議,2015年3月6日)の(2)-1および(2)-5アで指摘されている「研究ノート」の電子版として位置付けています。その都度の準備の状況・実験の過程・問題点などを時系列的に記録し,誤記の修正などを除き,過去の内容は変更しないこととします。

◎事業目的
メインプロジェクト
 将来の自動採点・自動評価の基礎資料となるよう,ICNALEプロジェクトで収集済みのアジア圏学習者のL2作文・発話データを用いて,国際評価パネルによる評価データを体系的に収集・公開する。あわせて評価データを用いた「良い作文」「良い発話」の計量モデル化に取り組む。

拡張プロジェクトA】(2022年1月~)
メインプロジェクトの目的に沿い、日本人の英語産出を評価する際の基礎資料として、日本人の日本語産出資料を収集する→JASWRICの構築

拡張プロジェクトB】(2022年10月~)
メインプロジェクト終了後の今後のICNALEの東南アジア拡張を見据え、データ未収集国でエッセイデータの収集を行う→ICNALE Written Essays Mynammar Moduleの設計とデータ収集。※年度内の収集は不可に。新科研(2023年度~)に引き継ぎ。

◎月度別進捗(メインプロジェクト)
2020年4月 着手前準備(国内業者からの評価データ収集可能性調査)
2020年5月 着手前準備(関連書籍・論文の校正作業)
2020年6月 対象サンプルの決定,音声データ切り分け,各社に見積依頼
2020年7月 Rating Guide,Rating Sheet等の策定,1次発注。納品1件。
2020年8月 LCSAW用論文執筆,LCSAW5実施
2020年9月 大学院生評価データ1期の収集完了
2020年10月 業者データの回収・研究書のproposal作成・ASEANデータ収集調整
2020年11月 ASEANデータ収集の整理
2020年12月 投稿論文着手
2021年1月 論文投稿・データ整理
2021年2月 科研会計整理
2021年3月 SDデータの検証と修正(SD 1.1の修正リリース) 
・・・・・・・・・・・・・・・・・・・・・・・・
2021年4月 論文執筆
2021年5月 内外作業委嘱・発注(院生,アジア大学,Crowd Works)
2021年6月 データ収集・整理
2021年7月 データ収集の拡充
2021年8月 40名×2=80名分のデータをV0.1として公開
2021年9月 韓国データ受領,仲介業者とキャンセル業務にかかる返金交渉。
2021年10月 ICNALE Bookの執筆を本格的に開始。
2021年11月 V1.3公開(エラー修正版), ASEAN2次募集発注開始
2021年12月 ASEAN2次収集のベースデータ回収完了。
2022年1月 ASEAN2次データを正式に受領。60*2=120名データでICNALE Bookの分析をやり直し。
2022年2-3月 ICNALE Bookの関連章の執筆
・・・・・・・・・・・・・・・・・・・・・・・・
2022年4-9月 ICNALE Book執筆継続
2022年9月   ICNALE Book入稿
2022年10月 ICNALE Book編集プロセス開始
2022年11月 状況の整理と3年目収集計画立案・開始、謝金めぐる会計との折衝
2022年12月 追加データの調整
2023年1月 追加データの受領、論文投稿
2023年2-3月 論文修正、出版、科研延長申請処理
・・・・・・・・・・・・・・・・・・・・・・・・
【延長年度】
2023年4-11月 AsiaTEFLほか海外学会での発表準備、発表
2023年12月 AsiaTEFL論文投稿
2024年1月 シンポ企画、準備
2024年2月 シンポLCSAW6実施、GRA v2.1のための修正作業
2024年3月 v2.1リリース(3/1)、GRA Proceedings刊行(3/20)、AsiaTEFL論文の校閲再提出


◎メインプロジェクト進捗報告
2023年11月
11/8 内外のMLにリリースを広報。




2023年10月
10/12-16 公開作業開始。rater の職業・所属の再調査、職業コードの割り振りのやり直し、評価者80人の平均評点計算、benchmarkの再選定。
10/15 GRAの紹介研究をタイの学会にproposalとして提出
10/17 ウェブサイトの修正。GRA2.0情報追加、ファイルネーム策定基準の修正、データダウンロードのリンクエラー修正(※リンクアドレスにURLを含めるとファイルでなく、ページと認識され、左クリックで落とせなくなる、問題を特定)。V2.0としてデータ公開(万一のミスの場合の差し替え含め、オフィシャルな公開日は10/20に設定)


GRAプロジェクトはここで一応の完了。当初、3年予定だったが1年延長し、3年と7か月で最終データのリリースにこぎつけ。

アフターメンテナンス
10/20 利用者からの意見があり、GRAのパスワード漏れを修正
10/22 同じく利用者からの意見に基づき、スピーチの書き起こしがSDに含まれている旨注記を追加。(バージョンは変更せず)

2023年9月
9/17 データ整理。不足分のratingを収集
9/20 データ整理が完了

2023年8月
8/2 仲介者より3人のやり直しデータが届く。
8/6 追加の1人のやり直しが届く。
8/17 データ整理、問題6人中5人の受け取りを確認。1名について照会出す。
8/24 差し替え分到着


2023年7月
7/1 仲介者のほうでreliable dataを特定(★問題は10人中7人、うち1人は病気で対応不可、ゆえに問題6人)。問題ある評価者にはredoを指示。こちらからはエッセイを優先すること、8月末の新期限を提示。80×2は無理かもしれないが、75×2はほぼいけそう。しかし最終のベンチマークサンプルの決定は9月にずれこみそう。6月にけりを付けたかったのだが。。。

2023年6月
6/15 データ納品
6/18 検品、基準違反があったので先方に通告
6/20 支払い手続きを先行で開始
6/27 修正の進捗確認メールを出す
6/28 入手、転記作業に入る
6/29 整合性チェック(データを間違えて同じものを台帳に張っている?個所があった)
6/30 チェックを進めていくと、こちらの手違いではなく、複数名の評価者が不適切な評価を行っている可能性が判明。ショックで落ち込んで立ち直れない。全データを再チェックし、問題評価者を特定、データ収集の責任者にリストを送付。人数がたとえ減っても、信頼できないデータは公開版から除去する。こういうプロジェクトでは集めた人数とか本数を競いたくなるが、信頼できないものを公開するのは研究者として末代までの恥。疑わしきは抜く。後で心が揺らがないようにここに記録として書き留める。


2023年5月
5/9 見積もり到着、会計に連絡・発注許可、発注、GRAサイトのリンクを業者と共有
5/22 事業者より条件の再確認あり、回答済。
5/30 事前テストに4名合格。


2023年4月
4/2 新規収集評価データの台帳転記(公開準備)
4/20 B社にネイティブ講師による採点の見積もり依頼を送信(5件→160になる)
4/20 今月の頭にやった新しい台帳ファイルが欠損(Google Driveの自動同期で消失?)。仕方ないので作業をやりなおす
4/21 これまでは新規に追加されたものを足しこんできたが、過去の検証が行いにくい状況になっていたため、どうせなら、個別のレーターから送られたエクセルをすべて整理し(匿名か、連番付与)、より完全なデータセットになるよう作業を開始(するが、予想外に面倒くさい)
途中経過 こういう形で個別のレーティングを1ファイルで連番管理に
4/23 作業終了、検証待ちに。
4/27 返信あり。条件など送付。
4/28 ベースデータとの検証(speech)&ベースデータの個人名抹消作業終了、問題なし。ファイル番号の「_」の前のスペース混入が確認されたため、一括で除去。essayの検証も終了。業者から受託の返信あり(詳細条件説明)。


2023年3月
3/6 論文edit戻り
3/8 edit原稿の修正を反映、revision reportを書き直して、夜に提出(※このまま問題なければ7月までに刊行とのこと)
3/12 GRAの対象作文の校閲について指示文を作成、見積もり依頼
3/13 発注(3.22あがり予定)

2023年2月
2/12 タイ論文採択通知、意見あり、3/12までに修正を
2/14 科研延長について物言いあり。修正案を再送信
2/21 論文修正作業の開始
2/25 修正完了、英文編集だし


2023年1月
1/18 タイ論文のinitial review結果が到着
1/23 最終データが到着。
1/24 データ検証、突合せ、テスト受験確認、会計処理。
最終データ量: S 65+13=78  W 62+15=77 →155人データ
新規追加データの母語背景
=============================================
Bangla 1, English 2, French and English 1, German 2, Hindi 2, Indonesian 5, Lao 7, Malay 3, Sinhala/ Sri lankan 2, Spanish 1, Urdu/ Arabic 1, Yoruba/ Nigerian 1
=============================================
1/25 Thai論文修正版を送信
1/25 音沙汰のないAsiaTEFLプロシーの件でAsiaTEFL本部に照会を出す
1/26 会長よりインドネシアの代表アドレスを教えてもらい、照会を出す
1/26 インドネシア会長より返信あり。ISSNプロシーとindexedプロシーで取り違えがあったという説明→indexedプロシーへの投稿であることを説明。
1/27 本来は8/8に来ていたはずのacceptance letterが送られてくる。新しい原稿の提出先と費用の支払い方法を質問
1/30 返事がないので再質問→回答あり、同日中に支払い完了
1/31 支払証明と原稿をアップロード(これでうまくいくといいけれど)



2022年12月
12/8 予定経費を再度計算
Sp (65+12) 教員9、ビジネス1、院生2
Wr (62+15) 教員11、ビジネス3、院生1
計                教員20、ビジネス4、院生3
12/1 ビジネス関係者の参加希望者が見つかるが保留扱いを依頼
12/23 Thai学会での発表を基にした論文を執筆開始
12/29 一名差し替えの申し出があり了承。
12/31 Thai論文投稿

2022年11月
11/29 差し替え承認、raterファイルへのアクセスをシェア
11/26 先方よりリスト報告督促。対応。
11/23 差し替え追加、GRA_1.0(120名分)を正式にアップ、テストのパス者リストを石川より送付
11/19 一名差し替え
11/18 事務にミャンマープロジェクトの仕様書を提出、タイ論文執筆開始
11/17 カナダの作業リスト(S11、W14)完成、事務に謝金増額の説明書を提出。USDではなくカナダドルを根拠とする書類を別途作成。
11/16 ドロップアウトを見越して+1を確保することを確認
11/15 カナダの協力者の今回の肩書について相談(ICNALE coordinator)。
11/14 ミャンマープロジェクトのガイドラインを作成、先方に連絡
11/14 タイ学会に参加レジスト(online参加で)
11/14 カナダの協力者に協力意向の問い合わせ、前向きの返事あり詳細連絡

=======================================
◎現状収集人数 S65 W 62
◎現状L1(人数ベース)
フィリピン17、中国10、日本12、ラオス8、タイ6、英語6、インドネシア・韓国・ウルドゥ3、アラビア・モン・コンカニ・マレー・ベトナム・ウイグル各1
◎新規追加案   S10  W13 =23ユニット (75/75=150)
◎見積
2021 教授6、ビジネス4、院生2.5
2022 教授7.2 ビジネス4.8 院生3(20%増) →最大166 (7.2*23)
◎謝金調整根拠資料
Googleの為替変換ページより(11/14閲覧)
昨年11/12 118円
本年10/14   149円(26%円安)
本年11/14    139円(18%円安)
=========================================

11/11 ベトナム学会 アブスト送付(norm変更の影響調査)

2022年10月
10/31 タイ学会にアブスト送付(rater背景影響)

2022年9月
9/20 ICNALE Bookの入稿

2022年8月
8/5 Asia TEFL口頭発表

2022年7月
7/12 下記審査待ち状態が継続(結局、反応がない??)

2022年6月
6/21 論文のデータを修正、事務局に連絡して訂正版を送付
6/20 Asia TEFL 論文送付(ENS産出の評点、学習者国別評点、ENS学生、ENSの成人、Aレベルを基準とした場合のA2作文のover/underuse上位10語のみ概観)

2022年5月
5/30 Asia TEFL払い込み

2022年4月
4/12 校閲反映作業と連動して、ICNALE EEをV3.0にアップデート(少人数のB2データを補充)、ウェブサイト更新

2022年3月
3/8 Asia TEFL申し込み
3/10 校閲だし(2分割)
3/20 校閲戻り

2022年2月
2/11 先方への着金確認
2/22  当該データ分析を含むICNALE Bookの草稿をproofに提出

2022年1月
1/19 検証済みのASEAN教員ビジネスマン評価データを正式に受領
1/20 支払い手続きを開始

2021年12月
12/16 評価データが海外協力者の下に集まる。協力者によるデータ検証を開始。

2021年11月
11/2 PSU論文最終採択通知
11/6 ICNALE Bookの章執筆のため,データを整理。S_48の重複を削除。現在S51+W49=100。台湾教員に進捗確認のメールを提出。返信あり,11/22までとのこと。
11/7 カナダの共同研究者に新規のデータ収集依頼(2月末まで)。大学教員12名,ビジネス5名,合計17名,34評価データ分。
11/8 カナダの共同研究者より仮のrater listを受領。大学で会計システム入力,仕様書(日本語・英語)作成。
11/15 PSU Journalの最終修正を返送
11/16 ICNALE SD V1.3公開(エラー修正)
11/19 raterの一部差し換え
11/29 raterの一部差し換え

2021年10月
10/1-31 ICNALE Book執筆に従事(GRA関係の章の執筆を含む)

2021年9月
9/3  韓国よりデータ1件が到着。会計処理へ。現在S50, W47=97
9/11 韓国よりデータ1件が到着。会計処理へ。現在S51, W48=99 
9/17  韓国よりデータ1件が到着。会計処理へ。現在S52, W49=101(100突破)
9/17 上記3本データの台帳への反映。
9/28 Crowd Worksのキャンセル案件の未返金について大学から照会。
9/29 Crowd Works社に連絡。システム内返金にとどまっていたことがわかり払い出し処理。


2021年8月
8/1 台湾データ受け取り,コメントの空欄9か所を指摘,修正依頼。同日,修正完了。会計処理終了。
8/2 台湾ratingを受理,パキスタンratingについてフィードバック返却。
8/2 最近の回収データをまとめて台帳転記。その際,属人コードのミスを発見(同じ人がS/W両方を行った場合,S/W各々の評価者コードに加え,属人通し番号コードを振る)→台帳があれば属人コードは不要なので削除。現在,46+43=89
8/3 第1次公開用40+40データを作成。SRater_36/37のスコア位置ずれを検出。修正。コメント欠損にN/A記号挿入。
8/4 パキスタンより修正版届く。台帳転記,会計処理済。公開データに学習者属性データを組み込むかどうか検討中。 
8/4 ICNALE GRA V0.1(280*40=11,200 rating samples)ファイル作成・公開。ICNALEウェブサイトにGRAの記述を新規に追加。

公開データの表紙

公開された1万件超の評価データ

ICNALE公式サイトにも情報が掲載される

8/5 韓国から前半Wが1本納品。内容確認OK。
8/5 作成した40名評価データから統計情報の取り出し。

(作業記録:学生サンプルごとに40件の評価データが縦に1万件以上並ぶデータから,サンプルごとに平均と標準偏差を取得する。※Excelのconcatenate関数では失敗)

●サンプルごとの始点(1, 41, 81...)と終点(40, 80, 120...)にあたる
2つの数字データを入力,コピーで11,120行まで伸ばす
●1行目にのみ,'=average( または '=stdev((※冒頭に「'」必要)を入力
●G(データ列名),「:G」などの文字を入力

●自動コピーで数字以外の文字部分を全行にコピー

●全体をWordに転写

●一斉置換でタブを消す(セル間の情報がつながる)

●できあがった部分をコピーしてエクセルに貼り戻す

8/6 週末のJASELE用の分析の最終確認。パワポ作成。発表ビデオ前撮り。ビデオはめずらしく10回もとりなおす羽目になったが,その間にいろいろ気づきがあり,それはそれで有益だった(と思いたい)。
JASELE発表ビデオより(発表は8/8)

8/8 JASELEで表記の発表を実施。主な質問。
  (1) Sophisticationの具体的基準は?  (2) 評価者分析に使えるのでは?
8/10 データ収集を継続中のため,公開データのアクセスパスワードを個別照会方式に変更(※この間の登録はなかったことを確認)
8/11 発想メモ:self learning system(2つの作文を出してどちらがいいか選ばせる。正解データはGRAのスコア。あるいは観点別スコアで比較。140サンプルを2つで出すと70セットできる。1回10セットで1学修パック。3パックの教師用トレーニングプログラムを作れないか?)
8/12 通勤の電車で,R本の原稿執筆を再開(学期末で2週間ほど止まっていた)
8/19 スペインの出版の原稿(ICNALE SDのジェスチャー分析)を修正。議論をシンプルにするため,総合スコアであるZスコアを削除。また,相関解釈を再修正。業者に校閲だし。(8.27あがり)。※提出前に,写真キャプションのpicture"S"を足すこと。こまごました仕事が多く,R本がなかなか進まない。
8/22 8月納品データを台帳に転記・整理。
8/29 スペイン用原稿の校閲あがり。
8/30 スペイン用原稿の最終修正・提出。

2021年7月
7/1 中国大学教育データと国内高校教員データを台帳に繰り込み(トータル80)
7/2 クラウドワークスの解約申請が1週間たって自動承認
7/5 大学院生に督促,R社の採択が決定
7/10 大学院生(アラブ)納品,台湾大学教員(W)納品,先月の高校教員のSデータと含めて台帳転記完了(トータル83)
7/12 R社と契約
7/13 パキスタン1名受領。
7/17 未送付の8名にreminderを提出。パキスタン1名データを台帳転記。84。
7/19 パキスタン2名仮受領
7/20 パキスタンデータを検証。規定違反があったのでそれぞれ修正を指示(コメントは10語以上,overallは100点満点で特定の数値で)。
7/25 台湾からWデータ受領。
7/29 パキスタンから1名S+Wデータ受領。→会計に回す
7/30 New TrendsよりICNALE SDジェスチャー論文の採択通知。スペインのTirant Lo Blanch社より出版。


2021年6月
6/1 Asia TEFL submission。現在までの収録データを整理。現時点でS=36名,W=33名。合計69名。目標100というのを100+100=200とすべきか,50+50=100とすべきか? 台湾より1名受託増加。
6/2 CWの3人目納品。支払処理へ。本日現在,納品済みでS 37+W 34=71。依頼ベースでS 53+ W 51= 104。
6/9 CWの4人目に督促通知(6/11まで)
6/10 高校教員1名が完了。事務手続きに回す。JASELEの予稿集を投稿。
6/11 中国大学教員1名が完了。納品済みでトータル75。
6/12 R社に企画の状況確認の督促
6/14 高校教員および中国大学教員にかかる会計入力完了。
6/15 CWの遅延者に再度督促を行う。調整の結果6/22に締め切りをリスケジューリング。
6/19 インドネシアより納品あり。同日会計処理済。トータル77。
6/22 上記の口座登録を事務に確認。
6/24 高校教員よりsp評価データ到着。トータル78。
6/24 クラウドワークスの遅延者に契約解除処理(1週間後に発効)
6/24 R社に再度督促,前向きの返事が来る
6/26 R社用にテンプレートを作成し執筆の準備に入る


2021年5月
5/1 ICNALEウェブサイトのコーパスのモジュール情報を更新(SDのversion更新対応)参加者4,645人,収集サンプル15,530件,総語数3,550,000語(5/1現在,WS論文の数字と整合を取る)
5/3 学習者コーパスWS用論文を仮脱稿
5/3 PSU論文の修正作業を開始
5/3 コンタクトのあった大学院生に条件・手順を送付。JobHubでの発注ができなくなったため,新規にCrowd Works登録。会計に条件詳細を確認依頼。高校教員2名に作業協力の照会。
5/4 高校教員2名よりSW評価作業の受託(62+4=66/100)。評価者登録サイトを微修正(10問テストの後にチェックの確認を取る項目を追加)。
5/5 R社の外部評価者コメント到着。
5/6 学習者コーパスWS原稿を再修正して提出。
5/6 謝金の2021基準について根拠資料を作成。事務方承認。
5/6 PSU論文修正が一通り終了。
5/6 ハローワークに事業者登録(仮)
5/7 Crowdworksに求人公開。
5/7-11 約10名から連絡があり,サンプル送付→5名と契約。
5/10 PSU論文英語校閲発注
5/14 上記戻り
5/14 ハローワーク事業者登録の解除(※委託作業は対応不可のため)
5/14 JASELE発表申込(GRAの紹介発表)
5/20 3rd Conference of New Trends in Foreign Language Teaching(スペイン,グラナダ大,オンライン)で研究発表
5/20 ICNALE SDの協力者10名にGRAプロへの勧誘発送(月末締め)
5/20-21 協力者2名より参加表明
5/22 PSU revision submitted
5/23 Asia TEFL Submission
5/24 CW一人目納品
5/28 CW二人目納品,院生納品
5/29 韓国日本語教育学会論文の投稿


2021年4月
4/1 会計手続き
4/1 New Trendsの論文執筆継続(コーディング)
4/13 NT論文の投稿
4/16 PSU論文のrevision指示受け取り
4/23 学習者コーパスWS用論文の準備開始
4/23 2021年度のデータ収集の会計処理について事務に相談
4/24 韓国日語教育学会国際大会で発表(オンライン)
4/28 R社からproposalへの返信(2月送信のもの)
4/29 R社へのproposalの修正と再発送
4/30 国内のレーター候補者に勧誘を発送
4/30 Brno Linguistics Conferenceにアブストを応募


2021年3月
3/1 New Trends用の論文執筆を開始
3/3 ASEAN支払い(2次)完了
3/6 IJCLT投稿論文が公刊
3/16 SDのCHN協力者(1-25)の属性タグのズレを発見→修正してWebsiteを更新
3/19 60本のコーディングが終了
3/19 KOR_016の習熟度コード修正,ICNALE websiteの更新(※ICNALE SD 1.1をリリース)


2021年2月
2/5 学習者コーパス研究本の企画書送付(R社)
2/6 New Trendsの発表採択
2/16 ASEAN支払い(1次)完了
2/16 「ベーシックコーパス言語学」の改訂作業。ICNALE関係の記述を全面的に更新。GRAの記述を追加。

2021年1月
1/2 投稿用論文の新分析が終了
1/7 ASEANプロジェクトの経費関係の問い合わせ→事務に対応依頼
1/11 投稿完了
1/12 ASEANの教員・ビジネス関係者データが到着
1/14 上記の検証(16名)→欠損が見つかったため照会を行う
1/15 欠損を確認
1/19 大学院生データが到着
1/22-23 収集データの整理。台帳の管理。S/W両方担当しているraterに各コードを新規に割り振り,raterのL1,国籍などの表記を統一
1/23 2020年度収集分の一覧が完成

全体で評価者62名(延べ)×140サンプル=8,680の評価データが収集された。
プロジェクトとして評価者100名を目標(下限)としていたので,コロナ禍の中でも,初年度で6割以上の収集ができたことで目標達成の見通しがついた。
評価者の母語は10種,国籍は13種,職種は5種にまたがり,「多様な背景を持つ評価者による評価を集める」という目標についても一定の成果があった。
1/29 New Trends In Foreign Language Teachingへの発表申し込み


2020年12月
12/4 LCSAW論文集の査読結果返送
12/14 会計関係の事務処理
ASEAN専門家評価データ収集プロジェクト2020年度分(172万)経費出所内訳
   基盤B残(1,041,031)
     研究科(466,000)
   センター(212,969)
12/23 投稿用論文の修正作業に着手(データの取り直し+執筆)


2020年11月
11/1 ICNALE論文の修正作業開始
11/3 ASEANチームへ進捗確認
11/4 ASEANチームの詳細データ入手。1名のステイタス変更,作業開始指示。
11/5 予算残金シミュレーション
執行予定:1720,000(カテゴリ1~3)+200,000(カテゴリ4)=192万
執行予算:研究科(466,000)+センター(276,071)+基盤B残( 1,041,031)= 
      1,783,102 
11/6 候補者の変更(タイ教員に振替)
11/6 先方と支払い計画調整
 (A)教員・ビジネスパーソン評価者データ収集:先方収集期限 2021/1 ➡ 支払 2021/3(172万)
 (B)大学院生評価者データ収集:先方収集期限 2021/2 ➡ 支払 2021/4 (20万)
11/10 執行について事務と調整(※Aは本年度,Bは次年度予算対応)
11/22 ASEAN評価者の評点についてメールで調整


2020年10月
10/1 Book Proposalの作成を開始
10/4 職業人の評価データ(ラスト分)が納品
10/5 上記納品物の会計処理実施
10/5 予算執行の確認 115/260(残145⇒海外募集+院生追加募集)
10/8 A社より評価データが届くが,平均点・SD基準,観点のばらつきが不足しているため再修正を指示
10/11 Proposalの送付
10/12 A社修正データが到着
10/13 修正データの納品手続き開始(業者登録依頼)
10/13 B社について中間進捗のまとめ。10人発注でテスト完了が7名。仮納品が1名だがSD基準に抵触があるため業者に告知。
10/14 A社支払い手続き開始。Book Proposalの改訂依頼があり,改訂作業着手。18→11章構成に変更して再送。
10/14 国内分,ほぼめどがついたのでASEAN データ収集の依頼を開始
10/17 LCSAW発表者への投稿期限延長通知(~11/15まで)
10/18 ASEANで40名の評価者を確保
10/19 ASEANプロジェクトの経費を積算(科研では不足なので学内研究費使用を検討)
10/20 ASEANプロジェクトメンバーへの説明資料のアップデート,事務への申請,エージェントとの調整
10/21 事務部の指示を受け,ASEAN評価者謝金の積算根拠説明書を修正。
10/21 サウジ学会用にICNALE SDの分析
10/23 サウジ発表ビデオの前撮り
10/27 ASEANデータの会計処理について会計と折衝(一括送金に)
10/28 LCSAW用論文のチェック作業開始
10/28 これまでの納品物を単一ファイルにまとめる
S:8本(専門家2,院生5,ビジネス1)+W:4本(専門家2,ビジネス2)


2020年9月
9/21 
・大学院生データ4/5が揃う(期限は9/25)
・督促メールを発出
・大学院の後期講義用資料づくりの一環としてICNALE GRAの因子分析を実施。1名分データの試行では,10観点は2因子に分解される。アタマ系因子(論理性・洗練性等),ココロ系因子(意欲・対人関与性)。
9/24
・同じく後期授業資料の一環で,上記のデータに対応分析を実施。観点はうまく分かれるが,習熟度をA2に限った場合,国籍(L1)の影響は限定的か?
・1人分の採点データ自体が統計の素材となるが,これを何十人分かまとめたときにどういう統計のかけ方にするか検討が必要。
9/25
・大学院生データ5/5がそろう
・2名が基準を逸脱していたので修正を依頼
※今回のプロジェクトでは全体評価点,観点別評価点について,平均と標準偏差で基準値を設けている。こうした採点業務は珍しく,このことの影響も後で検証対象となりうる。
9/30
・Job Hub分の納品が届くが基準逸脱があるので修正を依頼


2020年8月
8/8 
・LCSAW参加者へのURL通知,論文執筆継続
・発注データ数の確認(S10, W10=20)
 A社 Sp2名
 K社 Wr2名
 B社 Sp5名+Wr5名
 J社  Sp1名(K)+Wr3名(N, K, W)
 院生 Sp2+名(予定)
8/9
・JH社の作業者プロフィール情報を取得
8/10
・院生募集を実施(第1次5名)→1名確保
・LCSAW論文草稿を脱稿(受領済みデータ解析を加える)
・LCSAW発表プレゼンの作成
8/11
・LCSAW発表プレゼンの録画完了(アップロード済)
8/12
・留学生の募集対象を増やす(メール連絡)
8/14
・留学生の追加申し込み受理。大学事務に雇用関係の手続きを照会。
8/18
・留学生の事務手続きの回答あり。8/24までに手続きするよう指示。作業は9/21まで。
・発注データ数の確認(S13, W10=23)
 A社 Sp2名 K社 Wr2名 B社 Sp5名+Wr5名 J社  Sp1名(K)+Wr3名(N, K, W)
 院生 Sp5名(予定)
・事前テスト完了数をふまえ,各社に督促と確認通知(spのURL変更通知含)を発出
(A社 1/2,K社 1/2,B社 3/10,JH社 3/3 以上合計 8/17)
8/20
・留学生への謝金の払い方について事務と折衝
8/21
・LCSAW2020 開催(参加:午前の部80名,午後の部80名,延べ160名)
・JH社の2本目が納品・支払い
・留学生への謝金支払い方法について事務と合意
8/24
・院生(5名)の事前テスト受験締め切り(全員終了)
8/25
・院生宛て,作業開始の指示出し



2020年7月
7/2 韓国のKATE学会に参加。発話評価に関して,Basco(2020)のルーブリックを確認。
タスクがきちんとできたか(また相手としっかり関与できたか)【2倍ポイント】,流暢でかつ適切であったか,言語や発音は問題なかったか,相手の聞き取り理解に問題がなかったか。の4観点。
★task completionとengagementとは確かに一体だが,混ぜるほうがいいか?
★やりとりにおいて相手の聴解を含めるのは良いアイデア(ただし,無言反応などの場合に,相手の言うことがわからなかったのか,わかっているが発話につまっているかの判定は難しい)
★流暢性と適切性を混ぜるのも妥当だが,相手が辟易するほど一方的に流暢に話すという場合はどうするか?
7/3
・C社に手配できる評価者の最大人数,スペックについて確認照会を依頼。
・A~C社向けの仕様書を作成。大学の事務に確認を依頼。あわせてプロジェクト全体で評価者を下記のように整理。
(A)評価専門家(内外英語試験で公式採点官として作文/発話の評価経験のある者)
(B)英語母語話者英語教師(経験者)
(C)非母語話者英語教師(経験者)
(D)非母語話者ビジネスパーソン(経験者)【英語で10年以上の勤務歴】
(E)非母語話者大学院生・大学生【英語上級者。研究に英語を日常的に使用している者】
・高校教員の方に「退職者の会」の存在の有無を聞くが,存在せず,とのこと
・大学の同窓会に評価業務協力者募集の告知を出せるか紹介(教育・文)
・外部の求人サイトに告知を掲載→同日中にエントリあり
・大学院生の協力は得られず
7/4
・KATEで関連研究発表を聴講
・Munro & Derwing (1995), Winters & O'Brien (2013)
・発話理解はintelligibility(どのぐらい字面上の理解(decoding)ができるか?),comprehensibility(どのぐらい内容が理解できるか?),accentedness(標準アクセントからどの程度逸脱しているか?)
・3観点の中でaccentednessは聞き手の処理時間に影響が最も少ない
・Kung & Wang (2019) Exploring EFL learners’ accent preferences for effective ELF communication (RELC Journal)による中国の学習者33名調査
・76%がNS発音で話したい(NS発音以外はnormal /standardに外れる)
・12/33人が教材影響を報告(VOA/BBCを標準と考える)
・教師の英語発音も影響が大きい
・教師の発音は二重の影響:教師がNS-like→学習者もNSをモデルに/教師のなまりがひどい→学習者はやはりNSを良いと思う
7/5
・ルーブリックづくりを開始
7/6
・ルーブリックをRater's Guideとして大幅に拡充(ほぼ完成)
・オンラインでRater's Registrationサイトを作成(個人情報登録→小テスト方式)
・求人サイトより3人目のエントリーあり。
7/7
・大学に求人サイトでの会計処理について確認依頼メール(支払いOK)
・関連論文チェック
Zoltán Lukácsi (2020.5.7) "Developing a level-specific checklist for assessing EFL writing"
・作文の人手採点は適切性・関係性(relevance)・信頼性の点で批判 (Hamp-Lyons, 1990; McNamara, 1996; Weigle, 2002)
・ Euroexam International:B2作文用の評価スケールを使っても,個々の作文のレベル差を十分に反映できないことが判明。
・B2を対象に,特定習熟度レベル向けチェックリストの開発
・4人の評価者(教師),タスク資料,評価スケール,報告されたスコア,2017年5月試験の作文
・混合調査法(統計,項目分析+回想法(stimulated recall),シンクアラウンド,半構造化インタビュー
・通常の評価スケールよりも,開発したチェックリストのほうが,透明性が高く,分散が大きく,一貫した受験者評価ができた
7/8
・Rating Guide完成
・Rating Sheet完成
・SD/ Averageの基準値を決定(統計数理研究所ISMと相談)
・参考:平成31年センター試験本試験の場合,100点あたりのSDは14.7(倫理)~24.4(物理)。英語は21.8。→15~25あたりが目安になる。
・仕様書を完成
・3社に仕様書を送付。再見積もり依頼。
・Job Hの3名に仕様書を送付。受注意思の再確認を依頼。2名に依頼,エクスロー。
(ISMに紹介していただいた論文)
Kuan‐Yu Jin, Wen‐Chung Wang (2018) "A New Facets Model for Rater's Centrality/Extremity Response Style" Journal of Educational Measurement, 55(4), 543-563.
・学生エッセイ評価には,Rasch facets model (多相ラッシュモデル?)が適用可
・評価者が厳しめか甘めかという厳格性(severity)しか考慮できない
・実際には,評価者ごとに,中央付近の点をつける傾向(中央性:centrality)や極端に高い/低い評価をつける傾向(極端性:extremity)もある
・評価者の厳格性(rater severity)と,得点偏り性(centrality/extremity)を同時に評価する必要がある
・Rasch facets modelをベースに,個々の評価者ごとに,項目閾値に一定のウェイトをパラメタとしてかける新モデル開発(パラメタはフリーウェアのJAGSで推定)
・新しいモデルで2種のシミュレーション実施
・1)パラメタ修復の評価(??),パラメタ推定において得点偏り性の影響を無視するとどうなるか?
・2)中央性と粗点SDの関係に,厳格性がどう影響するか?
7/9
・3社のうち,受託再見積もり提出のあった2社に発注指示。
・科研DBを使い,発話・作文評価をやっている研究者をリストアップ
7/10
・LCSAW5の原案作成,講師候補者に連絡。
・大学宛て,3社との連絡調整を依頼。
7/13
・講師4名より受託あり(※明日締め切り)
・JobHの4人目の提案について資格を確認後仕様書を送付(返事待ち)
・上記,返事があったので採択しエクスロー
7/14
・講師候補者全員から受託の返信あり。
7/15
・LCSAW5のプログラムを作成し,講師に送信
・講師への謝金支払いについて事務に依頼
・3社目の業者評価について発注を事務に依頼
7/20
・大学事務に留学生院生の雇用について相談
・LCSAW向けの論文執筆を開始
・発注業者に作業開始を再度督促(※100万未満のため大学契約でなく教員発注で可)
7/21
・大学院生雇用について事務と調整がつく(謝金の金額)
・LCSAWの公募発表(7/20期限)を選考して4本を選び,採択通知
7/22
・LCSAWプログラムを完成。関連MLで告知(※同日中にほぼ定員埋まる)
・LCSAW招待講師宛てに謝金事務書類,論文テンプレートを送信
・「言語と統計」の聴講申し込みをLCSAWと同時に関連MLで告知
・関係出版社(ひつじ,くろしお,研究社,大修館)に情報を送る
7/24
・招待講師の謝金書類受領
・rating受注者よりNo. 70発話の再生不良報告(→対応の上新URL発行)
7/28
・招待講師の謝金書類提出
・会計中間締め(4-7月:予定分含む)
========================
(委託)
英語論文校正 40590
韓国学会参加費 3361
評価データ(専門家分:3業者小計)899800
評価データ(ビジネス分:3件小計)210000 ★未入力
(物品類)
研究書 3520+257
英文データベース 4180
PDF加工ソフト 7580
スキャナ  49333
(謝金)
講師経費小計 178192 ★未入力
(以上小計) 1396813
(残金) 1203187
※今後の主な出金予定:評価データ(院生分)
========================
7/29 
・ビジネス評価者K氏より評価データ納品,検品
7/30
・K氏データを納品処理,支払処理


2020年6月
※4-5月は遠隔授業対応のため,科研の実質的な作業は6月より開始。
6/1 評価データ収集対象範囲の検討
(1期プロジェクト計画)
・1テーマ(たとえばpart-time job)に絞る
・原則として一律N=5/ levelとする。比較用にENSも5本ずつ追加
・170(作文)+160(独話)+140(対話)=470
・170でそろえると,170(作文)+170(独話)+170(対話)=510本
・1人あたり15本(作文5本,独話5本,対話5本)を見ると必要数は34人?
・分担評価がよいか1人で全部がよいか?
6/2 検討継続
<修訂データ収集をどうするか?>
・別途,修訂データもとるか?(エラー情報の記録として)※作文以外に実施する場合コスト約340万。本体事業との並行実施は無理。日本ではなくインドなどの会社を探すか?
<共通評価サンプルを作るか?>
・評価用のキャリブレーションデータを追加したほうがよいか?(全評価者が同じサンプルを評価。評価者間のブレを量化し,後で調整する際に使用する)
・キャリブレーションを加えた場合,1人あたり18本(作文6本,独話6本,対話6本)になり,集中力の低下が予想される
<評価者をトレーニングするか?>
・評価者登録+キャリブレーション→チェック→本評価という2段階方式にするか?
・キャリブレーションの際に,フィードバックを出すシステムにするかしないか?
・フィードバックシステムのイメージ
データ提示→評価記入→フィードバック(あなたは厳しすぎます・甘すぎます・ちょうどよい評価者です)※これを作文,独話,対話について行うと,キャリブレーションのデータを取りながら同時にある種の研修にならないか?
・ただ,こちらの考える基準に寄せないほうが価値あるデータがとれるか?
<誰を評価者とするか?>
・海外評価者は教員がよいか?
・あるいはELFでの若者交流をイメージするなら,評価者も各国大学生(ELF圏/ESL圏)とするのはどうか?「世界の大学生が聞いて聞きやすい・わかりやすい」という意味での評価。
・ネイティブ話者評価,企業人評価,教員評価は日本国内で別途取るとして,海外評価は学生から取るのも面白いデータになるのではないか?
・学生が15本見る場合,いい加減に評価していないことをどう担保するか?キーワードを書かせる?good points/ bad points書かせる? 授業内実施なら可能だが・・・?
・参加者要件 B1以上として教員保障を取る?あるいは取らずに自己申告方式にする?あるいは過去のICNALE同様語彙テスト(ないしは簡易のオンラインの読解・聴解テスト)による推定を組み込む?
・この場合,作文はともかく,音声と画像はyoutubeなどにあげておいたほうがよいだろう(海外ネット環境対応)
・ただ,学生の評価に妥当性がどの程度あるか?(善し悪しが分かるか?)
《関連プロジェクト調査》
ルーバンカトリック大「クラウドソーシング型の学習者作文評価データの収集プロジェクト」 http://clap.uclouvain.be/app/#/
引用:you will be presented with pairs of learner texts and prompted to choose the more advanced learner production. A minimum of 15 comparisons per person would be greatly appreciated, and of course the more the better.(作文が15組表示,どっちがいいかクリックで選択)
評価者への事前調査項目
・最終学位
・自分の英語力(A1~C2までの自己診断:説明文読んで四択)
B2の場合: I can write clear, detailed text on a wide range of subjects related to my interests. I can write an essay or report, passing on information or giving reasons in support of or against a particular point of view. I can write letters highlighting the personal significance of events and experiences.
・受けた試験
・そのスコア(TOEICの場合,4技能別に聞く。忘れたの回答もあり)
・言語試験評価者経験,英語クラス指導経験,コンテンツのクラスの指導経験の有無
・学習者作文評価についての研修経験の有無(教員養成の一部としてなど)
・上記の研修のタイプ
・承諾(voluntary, データはダウンロードしないなど)
Magali Paquot, Alexander König, Rachel Rubin, & Nathan Vandeweerd (2020) A community-based solution for large-scale proficiency rating: The Crowdsourcing Language Assessment Project (CLAP)
・学習者作文の評価データは不足(大学のレベル,学習期間などで間接推定)
・L2ノルウェー語を集めたASKコーパス(ベルゲン大学構築)は評価データを体系的に収集した初の事例。訓練を受けた5人の評価者によるCEFRレベル判定
・しかしこうした評価データ収集はコストが多い→クラウドソーシング型のデータ収集提案
・adaptive comparative judgement(対比評価法)
・基本理念: people are able to compare two performances more easily and reliably than to assign a score to an individual performance (Lesterhuis et al., 2017). 個々の作文に点数をつけるよりも2つを評価するほうが容易で信頼できる
・観点別ではなく総合的評価 holistic evaluation
6/2 ひきつづき検討中
<サンプル数>
(A) 各レベルN=5を基準としてモジュールごとにN=175とする(※国単位では不統一)
(B) 各レベルN=1~5として1国あたりN=15,モジュールごとにN=155とする
(C) 各レベルN=1~4として1国あたりN=10,モジュールごとにN=105とする


<評価観点をどうするか>
参考:CEFRの最新版の文言を取得。
Written Overall(一部)
B2 Can write clear, detailed texts on a variety of subjects related to his/her field of interest, synthesising and evaluating information and arguments from a number of sources. クリアで詳細。話題いろいろ。複数ソース。情報の統合や評価。
B1 Can write straightforward connected texts on a range of familiar subjects within his/her field of interest, by linking a series of shorter discrete elements into a linear sequence.身近な内容。直接的。線形的な議論展開。
A2 Can write a series of simple phrases and sentences linked with simple connectors like ‘and,’ ‘but’ and ‘because’.単純文構造。and/but/because接続。
Spoken Overall
B2 Can give clear, systematically developed descriptions and presentations, with appropriate highlighting of significant points, and relevant supporting detail. Can give clear, detailed descriptions and presentations on a wide range of subjects related to his/her field of interest, expanding and supporting ideas with subsidiary points and relevant examples.体系的に発展した内容。重要箇所とその根拠の違いを目立たせる。クリアで詳細。話題いろいろ。細部や事例で主張を補強。
B1 Can reasonably fluently sustain a straightforward description of one of a variety of subjects within his/her field of interest, presenting it as a linear sequence of points.ある程度の流暢性。直接的。話題は1つだけ。
A2 Can give a simple description or presentation of people, living or working conditions, daily routines. likes/dislikes etc. as a short series of simple phrases and sentences linked into a list.単純。身近な内容。単純な句・文の羅列。
→一般評価者の場合,たとえばこれらから,ドロップダウンで1つ選ぶのはほぼ無理だろう!
<評価データの集め方>
モックの評価データ送信フォームを作成して検討
・Google Formの場合,音声・ビデオ(上記はダミー)とのリンクは取りやすい。作文は画像で表示した場合。※中国以外はこれで使える
・同様のサービスにフォームメーラーなど。
6/4 検討継続
《対象サンプル》
・既存のデータの利用状況を見ていると,EFL圏学習者の分析データとして使用されている(ESL圏学習者のデータはあまり使用されていない)
・フォーカスをあてるEFL圏を1か国20本とし,A2,B11,B12,B2レベルについて5:5:5:5=20本を基準とする(元データに不足ある場合は隣接レベルから補綴)
・ESL圏およびENSは本モジュールにおいてはEFL学習者の対照用のサンプルと位置付ける
・これによりESL圏についてはB2+レベルのみとする
・ESL圏各国およびENSはそれぞれ4本とする
・20本×EFL6か国+4本×ESL4か国+4本×ENS=140本とする
・初年度はPTJトピックのみとする
・A(作文140本),B(独話140本),C(対話140本)のそれぞれについて,1人が140本を通して評価することとする
・計量評価+コメントとし,20分×140本=2800分≒50時間を作業目安とする。
・0604時点の確定サンプル計画



・上記に基づき,今回評価に使用するサンプルを具体的に決定(IELTSなどの外部試験受験者を優先)
6/6 作業継続
・上記のサンプリング基準で具体的なサンプルを選定
・Written EssaysのIDNに習熟度ラベルずれがあったので修正
・Spoken DialogueのCHNの大半が院生データであったため学部生データに置き換え
・EssayとMonologueの実物データを抽出
・Dialogueのデータ抽出の予備作業としてオンラインのアーカイブより総体ファイルを再取得
6/7 作業
・MicrosoftのドライブからSDデータをデスクトップに再取得
・Google Driveにスペアを保存
・必要データのみを別ファイルに移動
・Audacityを使って,PTJのロールプレイ部分開始時点を探し,90秒とって再保存
・CHN20本のうちの10本分が終了
6/8 作業
・ロールプレイ90秒サンプルの作成(継続)
・10分前後の場所の空白部(被験者準備時間)を探し,発話開始点まで削除。その後,1'30前後をマークしてそれより後を削除。「書き出し」で新しいmp3を作る。
・音量レベルが低いものは,エフェクト→loudness normalization→perceived loudnessで,LUFS(Loudness Units Full Scale)を-23にして調整(※米国テレビ放送基準値は-24,欧州基準は-23)。
・全体が低すぎて調整がきかない場合は,RMS(Root Mean Square)で-30dbで全体をかさ上げしてから処理。
・韓国のインタビュワーは先導発話が多いため,冒頭のインタビュワーによる発話部の後(=被験者発話開始時点)から90秒カウントとする

normalization処理前

normalization処理(-23LUFS)後

・CHN残り10本,JPN20本,IDN20本,ENS/MYS/PHL/PAK16本,KOR20本,合計86本が終了
・残りはTHA/TWN各20本,合計40本。
関連論文購読(本日公開)
ALMITRA MEDINA  GILDA SOCARRÁS  SRIDHAR KRISHNAMURTI(2020/6/7)
L2 Spanish Listening Comprehension: The Role of Speech Rate, Utterance Length, and L2 Oral Proficiency, MLJ
・英語をL1とするL2スペイン語学習者31名
・学習者のL2(口頭)習熟度と,聴解するスペイン語例文の話速(normal vs. fast)および文長(short vs. long)によって,例文の理解度が変わるか?
・4種の話速のスペイン語例文各8文(合計32文)を聞く
・聴解度の確認のため,スペイン語例文を聞いた後,L1で説明する
・習熟度と文長は聴解度に直接的に影響
・話速×習熟度,文長×習熟度の交互作用も有意
・高習熟度群は文長が長くなっても理解度下がらず
・低習熟度群は話速が遅くなっても理解度上がらず
◎本研究へのヒント:話速,文長と質的評価の関係性の検討はおもしろいかも
6/9 作業継続
・対話のTHA/TWNの切り出し終了
・同じ国の学習者が続くなど,前後のファイルによる評価への影響を軽減するため,140本のファイルに対して,1-140の乱数を発生させ,乱数をテキストとして貼り付け後(その都度変化するため),その値の昇順で全体をソートし,新たな連番を付与する

randbetween関数で乱数を発生し,国籍・レベルを無作為に連番化する

・上記を踏まえ,新しいコードでrename
・「スーパーメディア変換」でmp3をmp4に変換(画像はなし)
・Youtubeにアップロード(アップロード上限?に抵触したため約90本をアップ)


・Spoken Monologueについても同様の作業準備を行ったが,事前にピッチ変換を行っているため,評価データとしては音質が低く,対応を検討
・Written Essays+ Spoken Dialogue(persuasion role-play冒頭90秒)だけにするか,Spoken Monologueについては元データに戻って取り直すか,あるいは,Spoken Dialogueの中で,絵描写部分をmonologueデータとして新規に取るか?
・ただdialogueのデータがある中でmonologueのデータを加える必然性は低く,Essays+Spoken Dialogueに絞って評価にかけるほうが合理的か?(要検討)
6/10
・昨日アップロードできなかったファイルを朝からあげようとしたが,一夜明けても不可。調べると,スパム判定されているようで,24時間(本日の夜まで)はどうしてもあげられないようである。
・Written Essaysのrandamizeとリネーム終了

元のファイル名を指定された連番に順次手作業で変換

・夜,Spoken Dialogueの残りのアップロード(約50本)終了
・字幕がついていることを確認(評価に有用)※男女の声は分割されずにベタ表示

・アルク,評価研究所,教育評価研究所,教育測定研究所他に評価作業の委託の可否を問い合わせ
6/11
・一社断り。一社には背景説明を実施。
6/17
・A社とZoomで打ち合わせ
6/18
・A社より見積取得
・B社とZoomで打ち合わせ
6/19
・C社に見積依頼
【関連論文のまとめ】
Marjolein van Os  Nivja H. de Jong  Hans Rutger Bosker (2020) "Fluency in Dialogue: Turn‐Taking Behavior Shapes Perceived Fluency in Native and Nonnative Speech"  https://doi.org/10.1111/lang.12416
・流暢性は重要だが,言語習熟度を研究する場合,流暢性を「やりとり手段」として分析することは少ない。
・本研究は,ターンテーキングを「流暢性」という構成概念の一部とみなす
・ターンテーキングの行い方が,母語話者・非母語話者発話において,「聞き手から見た流暢性」にどう影響するか?
・音声加工したスピーチを聞かせて実験
・NS発話の場合,too eager回答(質問を途中で遮って素早く答える)も,too reluctant回答(質問ターン終了後かなりたってから答える)も聞き手からは「非流暢」と感じる
・NNS発話の場合,too reluctant発話のみが「非流暢」と感じられる
・発話特質も流暢性の一部
<NNS発話の流暢性>
・Cucchiarini, Strik, and Boves (2002)
流暢性には,UF: utterance fluency (objective acoustic measurements)とPF: perceived fluency (subjective ratings by listeners) の区別あり。研修を受けた評価者が,L2オランダ語話者の朗読(read speech)と自発発話を評価。PF評価データとUF指標を比較。朗読では,ポーズ(数と位置)・話速(秒あたり音素数)の両方がPFに影響したが,自発発話ではポーズのみ。
★石:自然に話している場合,語数・話速よりもポーズが少ないほうが流暢に聞こえる。
・Rossiter (2009)
A(母語話者,訓練あり),B(母語話者,訓練なし),C(高習熟度の非母語話者)が評価。いずれの評価値も,ポーズ(unfilled空白/ non-lexical非言語),言い直し(selef repetition),話速(秒あたり音節)に関係していた。
★石:ポーズ,言い直し,スピードが聞き手を問わず重要。非母語話者でも聞いているポイントは一緒。
・Bosker, Pinget, Quené, Sanders, and De Jong (2013)
ポーズ・話速・修復(シラブル平均長,無音ポーズ数,有音ポーズ数,無音ポーズ平均長,反復数,言い直し数。ポーズを抜いた発話実時間に基づく秒あたりで調整)。無音ポーズの数と長さ,および,シラブル長が,NNS発話のPFを最もよく説明。断絶が少なく(breakdown fluency)たくさん話す(speed fluency)ほうが,言い間違い(修復)が少ないことより重要。NNSの流暢性は,ポーズの少なさと話速の速さだとする他の研究(Chambers, 1997; Lennon, 1990; Segalowitz, 2010)結果を確認。
<NS発話の流暢性>
NSは流暢であることが前提視されるが,個体差もある。NSの流暢性研究は少なく,NNSと比較したものが少しある(Götz, 2013のレビュー)
・Bosker, Quené, Sanders, and De Jong (2014)
ドイツ語のL1/L2話者の発話評価について,2種の加工音声(ポーズ増やす/話速度あげる)を使い,NS/NNS発話とも同じところを評価しているのか調査。NS/NNSとも,無音ポーズの数を増やしたり長さを伸ばすと評価値は低下。また,NS発話をNNSの話速まで落とすと評価値低下,逆にNNS発話をNS話速にあげると評価値上昇。両者増減の比重は同じ。無音ポーズと,(遅めの)話速は,NS/NNSの流暢性の印象値でほぼ同じインパクト。つまりUFとPFの関係はNS/NNSとも同じ。
・Kahng (2014, 2018)
加工音声実験で,NS/NNS発話問わず,無音ポーズについては,なし>節間>節内,で評価値ダウン。話速・ポーズ・言いよどみは,NS/NNS発話に同じように影響。
<対話の流暢性>
・ McCarthy (2010)
fluency also involves the ability to create flow and smoothness across turn‐boundaries and can be seen as an interactive phenomenon in discourse (p. 1) 発話順序(ターン)の切り替えにおいて,スムーズな流れを生み出す能力も流暢性の一部。(とくにターンの開始部・終止部で)複数話者がポーズをはさまず共同で滑らかなやりとりを成立させようとすることを「confluence(共同流暢性)」と命名。
・Peltonen (2017)
「dialogue fluency(対話内流暢性)」は,ポーズターンの数と長さ,相手の言ったことのオウム返し,共同での文完成(collaborative completions)で決まる。McCarthyよりも客観的指標。
・Sato (2014)
ペアでの意思決定タスクを行うNNSを観察し,PFとしての「interactional fluency(やりとり流暢性)」を研究。「interactional competence(やりとり能力)」 (Galaczi & Taylor, 2018; Young, 2011)に由来する概念。流暢な話者は,自然な相槌(back-channeling)とターンテイキングができるが,非流暢話者はターンが取れない。採点基準表も提案。
・ペア対話の評価のむつかしさ(本論文筆者の解説)
(1)「やりとり能力」には,ターン取る(taking turns), 話の維持(keeping the floor),参加意欲示して会話に関与などが含まれるが,そうした「やりとり流暢性」は評価者用ガイドで質的に定義されるだけ。客観的な研究が困難。
(2)共同で会話が整理するのに個々人に同評点を割り振るか?
(3)Satoの採点表は日本人大学生以外で有効性確認されていない (途中まで)
6/20 論文メモ続き
・Riggenbach (1991)
英語学習者6人(評価者に非流暢と判断された3人+流暢と判断された3人)のデータを使い,躊躇(有音・無音ポーズ),修復(言い直し),話速,やりとり(相槌,質問,ターン切り替えタイプ【オーバーラップ,ギャップ】)を調査。話速が低く無音ポーズが多いと評価値が下がる傾向。
・Galaczi (2014)
学習者の対話を会話分析(conversation analysis)の主要で処理。ターンテイキングに注目。上級話者は,「confluence(共同流暢性」を作るのがうまい。初級話者はターン切り替え時にポーズが長いが,上級話者だと切り替えが早い。NS的な,無断絶無重複型切り替え(a no‐gap–no‐overlap manne)。
・Michel, Kuiken, & Vedder, 2007ほか
モノローグよりもダイアローグのほうが流暢性アップ。
著者解説:TOEFLはモノローグ,Cambridgeは学習者ペアの対話(ターンも評価項目)。IELTSは試験官と学習者(ターンは評価項目でない。CEFRはターンを談話能力の一部に。CEFRはまた,話者の話し出し(take the floor)と会話の開始と維持(initiate/maintain)を重視。
<対話の維持>
・無断絶無重複型切り替え(a no‐gap–no‐overlap manner)に違反すると問題。gapが長すぎると,理解しにくく(Beňuš, Gravano, & Hirschberg, 2011),発話内容が計画できず (Bull & Aylett, 1998), 答えが長くなったり (Torreira, Bögels, & Levinson, 2015),そもそも答えが得られないことも (Stivers et al., 2009)。
・gapが長いと,他者に従ったり同意したりすることを拒んでいると思われ,非参加的(less affiliative)で距離がある(more distancing)印象を与える
・ターン交代で相手を遮って重複をすると,主張が強く(assertive),支配的(dominant)で,非協力的で,非社交的で,無礼で,相手を尊敬しないとみなされ,好感度が下がる
石川コメント
・たとえば,説得型では,overlapが必要なこともありうる
・ターンの量化は丁々発止のやり取り場面でないと難しい(1人のターンが長いため)
・学習者&試験官デザインではpauseが長くなると試験官が介入するので判断困難
・音声加工実験は面白いし,今回のプロジェクトのサブスタディとしてもできそう
6/17
・A社とZoomで打ち合わせ
・評価統一トレーニングが不要であることを確認
・6/25に見積もり受領
6/18
・B社とZoomで打ち合わせ
・OPI的な評価ではないことを確認
・同日,見積もり受領
6/22
・C社とZoomで打ち合わせ
・納期,人数について確認
6/23
・C社の依頼により,評価シートのサンプルを作成・送付
6/24
・C社より見積が到着
6/30
・見積もりの検討
・C社に見積条件でのアサイン可能人数の照会を行う
6/30
・評価項目の初期調査
CEFR Revised Versionより(出典こちら
p.31 コミュニケーション的言語活動の分類
言語使用の機能タイプ分類
 受信(reception)
 産出(production)
 やりとり(interaction)
 媒介(mediation):言葉を使って思想を練り上げる(develop an ideal through what is called 'languaging') 前版にあった「意味の共同構築」と「個人と社会の相関」を発展。CLIL的な共同学修など。
言語使用の目的タイプ分類
 創造的・対人的(creative/ interpersonal) 例:会話する
 目的遂行的(transactional)例:情報をやりとりする
 評価的・目標解決的(evaluative/ problem-solving)例:議論する
言語使用の方略タイプ分類(p.33)
 計画(planning)
 実行(execution)
 評価と修復(evaluation & repair)
"a move away from the matrix of four skills and three elements (grammatical structure, vocabulary, phonology / graphology) may promote communicative criteria for quality of performance" (p.32)
(伝統的な)4技能+3要素(文法,語彙,音声/書記法)の枠組みから離れることで,言語パフォーマンスの質に関するよりコミュニカティブな基準が作れる
Overall Spoken Production (p. 69)
 C2 Can produce clear, smoothly flowing well-structured speech with an effective logical structure which helps the recipient to notice and remember significant points. 明瞭・流暢・構成・効果的な論理構造・聞き手が重要点を認識して記憶しやすい
 C1 Can give clear, detailed descriptions and presentations on complex subjects, integrating sub themes, developing particular points and rounding off with an appropriate conclusion. 明瞭・詳細な描写と情報提示。複雑な主題。下位テーマの統合。特定の論点を掘り下げ。適切な結論に仕上げる(round off)。
 B2+ Can give clear, systematically developed descriptions and presentations, with appropriate highlighting of significant points, and relevant supporting detail. 明瞭・体系的な描写と情報提示。要点を適切な形で強調。要点を支える細部の提示。
 B2 Can give clear, detailed descriptions and presentations on a wide range of subjects related to his/her field of interest, expanding and supporting ideas with subsidiary points and relevant examples. 明瞭・詳細な描写と情報提示。幅広い関心領域について。補助的観点や事例を示し,アイデアを補強・拡張。
 B1 Can reasonably fluently sustain a straightforward description of one of a variety of subjects within his/her field of interest, presenting it as a linear sequence of points. 関心領域の1つについて,直接な描写をかなり流暢にできる。論点は単純な線的に表出。
 A2 Can give a simple description or presentation of people, living or working conditions, daily routines. likes/dislikes etc. as a short series of simple phrases and sentences linked into a list. 人・生活・暮らし・仕事・毎日のルーチン作業・好き嫌い等について。単純な描写と情報提供。短い句や文が項目羅列的につながるだけ。
 A1 Can produce simple mainly isolated phrases about people and places. 人・場所について。単純な句を独立的に発話。
 Pre-A1 Can produce short phrases about themselves, giving basic personal information (e.g. name, address, family, nationality) 自分について(名前・住所・家族・国籍など)。短い句。
石川整理
 C2 複雑な内容についても,聞き手を意識した効果的な展開。
 C1 複雑な内容についても,論点を掘り下げて結論に至る。
 B2 幅広い関心領域について,要点+細部を伝達。
 B1 関心領域の一部について,直接的・線的な描写。
 A2 身近な内容について,項目羅列的に句や文を並べる。
 A1   人・場所について,文にならない句を並べる。
 Pre A1 自分自身について,短い句を断片的に産出。
 ※descriptorは分野+言語+発話内容+展開度,で構成される。

Overall Written Production (p.75)
 C2 Can write clear, smoothly flowing, complex texts in an appropriate and effective style and a logical structure which helps the reader to find significant points. 明瞭・流暢・複雑。適切で効果的な文体と論理構造。読み手が要点をつかみやすい。
 C1+ Can write clear, well-structured texts of complex subjects, underlining the relevant salient issues, expanding and supporting points of view at some length with subsidiary points, reasons and relevant examples, and rounding off with an appropriate conclusion. 明瞭・構成。複雑な話題。重要な問題の強調。論点を補強・拡張。一定の長さ。補助的論点・理由・事例も組み込んで。適切な結論につなげる。
C1 Can employ the structure and conventions of a variety of written genres, varying the tone, style and register according to addressee, text type and theme. 幅広いジャンルの構造や書き方ができる。読み手・テキストタイプ・テーマに応じて調子・文体・使用域を変化させる。
 B2 Can write clear, detailed texts on a variety of subjects related to his/her field of interest, synthesising and evaluating information and arguments from a number of sources. 明瞭・詳細。幅広い関心領域。複数ソースからの情報・論点を統合・評価。
 B1 Can write straightforward connected texts on a range of familiar subjects within his/her field of interest, by linking a series of shorter discrete elements into a linear sequence. 身近な幅広い関心領域。直接的。文はつながっている。短い要素を直線的につなげる。
 A2 Can write a series of simple phrases and sentences linked with simple connectors like ‘and,’ ‘but’ and ‘because’. 単純な句や文。単純な接続詞(and but because)でつながっているだけ。
 A1+ Can give information in writing about matters of personal relevance (e.g. likes and dislikes, family, pets) using simple words
and basic expressions. 個人的話題(好き嫌い,家族,ペット)。情報提供。語彙単純。
 A1 Can write simple isolated phrases and sentences. 単純な句や文。断片的。
 Pre-A1 Can give basic personal information in writing (e.g. name, address, nationality), perhaps with the use of a dictionary. 基本的な個人情報(名前・住所・国籍)。しばしば辞書を使って。
石川整理
 C2 (複雑な内容についても,)聞き手を意識した効果的な展開。
 C1 (複雑な内容についても,)表現方法を多様に。結論に導く。
 B2 幅広い関心領域について,情報の統合+評価。
 B1 身近な関心領域について,直接的・線的な描写。
 A2 (人・場所について,)単純な句や文を接続詞で並べる。
 A1 個人的話題について,句を断片的に述べる。語彙も単純。
 Pre A1 基本的個人情報について,断片的情報提示。辞書使用。
<SWのdescriptor結合の試み(6/30版)>
 C2 複雑な内容について,十分な明瞭性・流暢性・複雑性・構成性をもって,聞き手を意識して効果的に議論を展開する。
 C1 複雑な内容について,多様なスタイルを使い分け,論点を掘り下げ,一定の結論を示す。
 B2 幅広い関心領域について,要点+細部の両方を示し,複数の情報を統合・評価する。
 B1 身近な関心領域について,文を直接的・線的につなげる。
 A2 身近な内容について,句や文を接続詞などで羅列的に並べる。
 A1   自分自身の事柄について,句を断片的に並べる。語彙も単純。
 Pre A1 自分自身の基本情報について,短い句を断片的に産出。
 ※SとWで言われていることはほぼ同じで,統合が可能。ポイントは内容・論理展開・文特徴の3点か?
 ※話題が決められている場合,内容の複雑さor短さはポイントにしにくい(外材的に決まっているので)
内容を取ると v2
 C2 十分な明瞭性・流暢性・複雑性・構成性をもって,相手を意識して効果的に議論展開。
 C1 スタイルを使い分け,論点を掘り下げ,一定の結論を示す。
 B2 複数の情報について,要点+細部を示し,情報を統合・評価する。
 B1 文を一定のロジックで直接的・線的につなげる。
 A2 句や文を羅列的に並べる。
 A1   単純な語彙で,句を断片的に並べる。
 Pre A1 短い句を断片的に産出。

 
2020年5月
5/1~ 開拓社のコーパス概説書の校正継続
5/19  校正返送
5/20~ IJCALLT修正論文のrevision
・ICNALE Spoken Dialogueのpersuasion role-play談話の言語学的性質を再定義
5/29 修正論文のrevisionを提出


2020年4月
4/1 採択が決定。関連書類提出。海外共同研究者に連絡。
4/8 国内業者にプロジェクトの概要を説明して協力可否を照会。
4/9 協力方針の確認
4/10 とりあえず15名程度の評価者拠出の方向でこちらか仕様書作成することに。
4/27 開拓社コーパス概説書の校正開始

◎2021年度収集記録
国内収集 (Due A0072)
ビジネス 
1 日本・CW (TT)(ビジネス:広告代理店)★全終了→支払済
2 日本・CW (KA)(ビジネス:医療工業)★全終了→支払済
3 日本・CW (YM)(英語:在マレーシア,ホテル予備校)★全終了→支払済
4 中国・CW (BL)(ビジネス:米IT)Essay only ★6/22期限に届かず解除手続きへ
・・・・・・・・・・・・・・・・・・・・・・
英語教員 
5 日本・高校教員 HM(英語)★全終了→支払済
6 日本・高校教員 IT(英語)★全終了→支払済
7 日本・高校教員 TY(英語)★S終了(6/24)W終了(8/14)
・・・・・・・・・・・・・・・・・・・・・・
若手研究者 
8 日本・院生(国内) SY(英語)Essay only ★全終了
9 日本・院生(海外) MY(化学)★6/6 Sp終了 7/8 全終了

海外大学プロジェクト協力研究者 (Due B0130)
(中国)
・G Wang  (Cewanggui) Hubei University(英語)★全終了→会計処理済
・X Zhou(许洲) Hubei University(英語)★全終了→支払処理済

(台湾)
・Y-M Yen Tunghai University (政治学)7/18 W仮提出→SD修正依頼→★8/1 SW受け取り→コメント補填依頼→8/1 修正完了・会計処理済
・E Lin National Taipei University of Technology(英語)★W(7/8)★S(8/2)→会計処理

(パキスタン)
・S Aftab University of Lahore(分子生物学)7/20にS仮受領→Overall/Comment修正依頼→7/29 ★全終了,会計処理済み
・S-Ullah University of Gujrat(経済学)★W(7/13)→7/30 S受け取り,コメント修正依頼→8/2 コメント再修正依頼 ★8/4完了→会計処理済
・M Ali Malik University of Gujrat(英語)7/20にS仮受領→Overall修正依頼(W時までに)→★8/15 全終了→会計処理済

(インドネシア)
・Prihantoro Universitas Diponegoro (英語)★全終了→支払処理済

(韓国)
・W Choi Korea University(英語)★W(8/5)★S(9/3)→支払い処理
・Kim Byung Sun  Catholic Kwandong University(英語)7/31までにW予定? ★9/17了。支払処理済み
・T Yoon Chuncheon National University of Education(英語)★9/11了。支払処理済み
・・・・・・・・・・・
10 台湾 A Wu National Taiwan University(英語)★W(7/25)11/6督促
12 台湾 J Kuo(郭銘傑) National Taiwan University(政治学)withdraw