研究室で作成していた新しいコーパスJASWRICについて紹介発表を行いました。
神戸大学 大学教育推進機構/大学院国際文化学研究科外国語教育論講座/数理・データサイエンスセンター 石川慎一郎研究室の活動報告サイトです。 研究室トップページ http://language.sakura.ne.jp/s/
このブログを検索
2022/08/31
2022.8.31 国立国語研究所言語資源ワークショップで発表
2022/08/30
2022.8.30 神戸大学教養教育院 令和4年度前期ピアレビュー意見交換会・検討会参加
神戸大の教養教育院では、年度ごとに、担当部会を決めて、開講授業の1つを全学に公開し、評価委員の先生などが聴講して、後で検討会を行う、という仕組みがあります。
わたしは、かつて英語部会で授業を出したことがありますが、今年度は、データサイエンス部会教員としてデータを出しました。
2022/08/29
2022.8.29 小中高大生作文コーパスJASWRIC公開
昨年12月より準備を進めていた新しいコーパスが完成し、リリースを行いました。
小中高大生700名が、2つの絵描写課題を行って書いた作文を集めたものです。子供の作文コーパスで公開されているものはほとんどなく、その意味で、面白い研究資源になるのではないかと考えます。
L1の子どもの日本語(書き言葉)の発達研究のほか、迫田久美子氏が構築された日本語学習者コーパスI-JASと併用することで、L2との対照研究資料にも使用可能です。登録後、ダウンロードして分析したり、オンラインで検索することも可能です。ご興味があれば、こちらからどうぞ。
附属を抱える大学の教員として、いつかはやりたい研究でした。参加してくれた児童・生徒・学生の皆さんに感謝です!
2022.8.29 兵庫県立伊丹高校探究指導担当者講習会にて講話
伊丹高校の「サイエンス×探究」を指導されている理系の先生方(数・理)の講習会に参加し、研究指導についての講話をおこないました。
講話では、高校の探究の目的や、とくに理系生徒向けの指導のありかた、探究で目指す地点の明確の必要性などについて話しました。
いささか単純化した議論ですが、
(A)高校生にすべて自由に任せる、結果的に、サイエンスとしては危ういものができあがる
(B)教師が介入し、細かく指導する。サイエンスとして妥当なものができあがる
という2つの方向があった場合、どちらを選ぶかは時に悩ましい判断です。私見では、高校の探究はリサーチのプロセスを一通りお試しで体験して、将来の本格的なサイエンス研究を行う「素地」を養うことが主眼なので、もしAとBが対立するなら、Bが優先されるべきと考えていますが、この点については正解はなく、学校の方針、地域の意向、先生方個人のお考え、生徒の意向、など、多くの要因で総合判断するしかないでしょう。
伊丹の生徒さんはいつも優秀なので、今年度もよい研究を仕上げてくれることを願っています。
2022/08/27
2022.8.27 神戸大学国際文化学研究科オープンキャンパス
表記のコース別説明会に出席しました(online)。
私のところには、コーパス志望の学生さんがお見えになりました。
一般論として、コーパス研究ではじめて研究をしてみようと思う場合は、ともかくも見様見真似でいいので、小さいコーパスで小さいテーマを調べてまとめてみる、ことが大事なような気がします。
そのことで、コーパスへの自身の向き、不向きもわかりますし、コーパス研究が見かけとは違って実際には地味で辛気臭いこともわかってきます。
昔に比べると、大学院レベルでもOCなどの催しが増えてきたことは総論としては良いことのように思います。学生にとってもいろいろな大学院のOCに参加し、先生方と意見交換していくなかで、ある種のfitness のようなものを感じ取れる機会になりますので。大学院は、「大学」を選ぶよりも、指導教員を選ぶという部分がありますので。。。
2022/08/26
2022.8.23-26 関西大学外国語研究科集中講義
表記で集中講義を担当しました。
授業では、受講生の方が専門で使っておられるデータ(YNUコーパス)を使い、一緒に実習を行いました。私にとっても新たな発見があり、楽しい授業となりました。
依頼メール(学生が、教授に対して、研究で必要だから本を貸してくれるよう頼むメールを書く)において、母語話者学生データを基準とした場合の中韓学生の過少使用(母語話者なら言うのに学習者が言わない/言えない語)
(中国語母語学生)
・自分のやっている仕事をレポートと言わず、論文という
・いただければ、よろしければ、などを使わない
・学年(~年)を言わない
(韓国語母語学生)
・突然ですが。。。 と言わない
・学年(~年)を言わない
・いただければ、などを使わない
共通点と相違点があるのが面白いですね。
関大は、数年前に、駅前から大学を結ぶエスカレータを整備したのですが、これまでは、迷いそうで使用を避けていました。今年は思い切って使ってみましたが、なかなかに快適です。
こういうのって、キャンパス内の標高差が大きい神戸大なんかでもあると便利でしょうね。。。まあ、予算がないのでおよそ実現可能性はないですが。
2022/08/22
2022.8.22 神戸大学附属小学校研究プロジェクト意見交換会
附属小学校の先生方の研究プロジェクトを伺い、研究助言を行いました。
子どものやりとり、議論、会話etcの研究について考えるべきポイント
・会話には目的がある(親睦、意見シェア、一方的説得、共同でのアイデア創発など)
・目的ごとに、会話の「成功」の形は違い、評価も異なるべき
・会話の参与者は、話し手と聞き手に区別されるが、実際には両者はターンごとに入れ替わっている
・「良い話し手」はイメージしやすいが(主張を簡潔にわかりやすく伝えつつ、emotionalな要素を少し振り替えてうまく相手を説得するなど)、「良い聞き手」の定義は困難
・相手に気持ちよく話させる vs 時に耳に痛いことも伝えて相手の思考を高次に引き上げる -which is a good listner?
2022/08/21
2022.8.21 学習者コーパス研究例会参加
表記に参加しました。自分自身の理解がたりなかった競合モデルについて学びなおす良い機会となりました。
Wikipediaの「競合モデル」の解説
自分メモ
キーターム:合図(cue)、合図の比較、認知メカニズム、創発主義
石川の雑駁なまとめ(正確でないかも、です)
・言語理解には、何らかの言語的な手掛かりが必要
・手掛かりは、動作主の有生性、語順、格の標識など
・これらの各々の重要性は言語によって違う
・新しい言語を学ぶとは、L1で身に着けた手掛かりの取捨選択ルール(?)を、L2用にチューンナップする営み
・その際に鍵になるのがL2のインプットとの接触
・汎言語的な認知メカニズムを措定している+オンサイトのインプット重視、という点で、生得説と環境学習説のハイブリッド的性質を持つ
2022/08/10
2022/08/05
2022.8.5 Asia TEFL 20th Conference (Indonesia)で発表
20th AsiaTEFL - 68th TEFLIN - 5th iNELTAL 2022 Indonesia(アジア圏の英語教育の統合学会であるAsiaTEFLとホスト国インドネシアの国内全国大会の合同大会)で発表を行いました。
Shin'ichiro ISHIKAWA (Kobe U, Japan) "A New Yardstick of Comparison for Contrastive Interlanguage Analysis: A Study on the ICNALE Global Rating Archives"
大きなプロジェクトの成果を10分程度で要約するのは土台無理があるのですが、あえてその短さに刈り込んでみることで、自分の中で、自分のやっていることの目的や方向が再度クリアに再定義できるというメリットがあることを再確認した発表でした。
今回は、申し込みの際に、あえて自分の研究をELFの枠で出してみました。同じ問題意識を持つ研究者の方とセッションで同席できていろいろ勉強になりました。
TEFLIN会長キーノートの1つ
対面とオンラインを組み合わせたハイブリッド方式でしたが、配信などはスムーズで、感心しました。上記は、発表者とそのパワポを同時にうつし、かつ、背景に学会の背景画面を配置して1つの画面にするというものなのですが、どうやったらこういうことができるのか、ちょっとわからないぐらいすごいです(自分の授業でもこういう感じにしたい)。。。 このほか、発表者だけの画面、資料だけの画面、会場風景だけの画面なども視聴者側で選んで表示できます。いや、すごい。
===============
追記 8/7
これは運営側に起因する問題ではないと思うのですが、Day 2/3で、メインセッションからブレイクアウトルームに移動できなくなるという大きな問題が2度発生しました。一度ブレイクアウトのほうに入っている人はブレイクアウトルーム間での移動はできるのに、メインセッションからブレイクアウトルームに出られなくなる、という症状です。運営はDay2はbreakoutroomの再起動、Day3はzoomそのものをいったん落とすハードリセットで対応しましたが、これはzoom側の問題のようです。。。Day 3の場合参加者は200人以上いて、うち、メインセッションの100名ほどが移動できない状態になり、その中にはブレイクアウトルームでの発表者も相当数いたため、かなり混乱しました。ただ運営は、対応策(ビデオリンクを送れば後日配信)などをメインセッショ画面に表示するなど、よく対応しておられました。オンライン学会をやるものとして勉強になりました。
===============
ただ、惜しむらくは発表時間の指示がかなり混乱したことで、当初の20分が15分になったかと思えば、本番2,3日前に、突然「ビデオは8分で終えろ」という指示が飛んできたということがありました。しかし、当日になると、実は発表時間は15分だったことが判明・・・というような小さなドタバタがあったにはあったのですが、まあ、こういうのは国際大会のあるある、なので。
別途送ったプロシー原稿は、査読中ということで、大会後hopefully6か月後には・・・ということのようです。
プログラムブック全体で多いenglish X Y の3語連鎖(※学部名などは除く)
english language teaching
english language education
english as a ★foreign langageとくるか lingua francaとくるか、ですね
english for specific ★ESPは研究者が多い
english education study
english education from
english language and
english language teaching
english language teaching
english language learning ★teachingのほうがlearningより多いのはちょっと面白い
english teachers in ★やはりteacherなのですね。learnerではなく。
english language teachers
english education at
english for young ★幼児英語
english to young
english education in
english for academic ★このへんにEAPが出て来る
english as foreign
english teacher at
english study program ★カリキュラム系もAsiaTEFLでは多い
english education program
english as an
english learning materials ★教材論
english for business ★東南アジアで多いビジネス英語
english language skills
english listening and ★4技能ではlisteningが最上位
english studies at
english language textbook ★教材論の変形
english medium instruction ★はやりのEMI
2022/08/01
2020-2023 科研(基盤B:JASWRICサブプロジェクト)進捗報告
最終更新日 2023/6/5
2020~2022年度 科研(基盤B)「アジア圏英語学習者の作文・発話に対する世界最大級公開型評価データセット開発と分析」(20H01282 )サブプロジェクトA(JASWRIC構築)進捗報告
◎このエントリの位置付け
本エントリは,報告書「科学研究における健全性の向上について」(日本学術会議,2015年3月6日)の(2)-1および(2)-5アで指摘されている「研究ノート」の電子版として位置付けています。その都度の準備の状況・実験の過程・問題点などを時系列的に記録し,誤記の修正などを除き,過去の内容は変更しないこととします。
◎事業目的
【メインプロジェクト(GRA構築)】
将来の自動採点・自動評価の基礎資料となるよう,ICNALEプロジェクトで収集済みのアジア圏学習者のL2作文・発話データを用いて,国際評価パネルによる評価データを体系的に収集・公開する。あわせて評価データを用いた「良い作文」「良い発話」の計量モデル化に取り組む。
メインプロジェクトの目的に沿い、日本人の英語産出を評価する際の基礎資料として、日本人の日本語産出資料を収集する→JASWRICの構築
【サブプロジェクトB(WE拡張)】(2022年10月~)
作業者より、全体形態素台帳のデータ重複の報告。対応。
2001 SN-6 →1991のSN-6のデータが誤って入っていた
2023年4月
4/1 「ひまわり」用のパッケージデータを同梱、readmeの修正(バージョンは変更せず)
2023年3月
3/1 国語研シンポ発表準備
3/2 国語研シンポビデオ前撮り終了。新しい形態素ファイルで「色」によるフィルタリングを行い、v1.1での修正行数を計算(約7600行)。新しいデータをサーバーにアップロード、ウェブサイトの更新。
2/13 そのほかの修正もしているので、ということで再提出を依頼される
2/16 当方の元版に文境界ラベルの欠損を追加し送信
2/16 受理。明日めどに本番環境反映予定。
2/20 反映完了
2/21 納品作業
2/28 国語研シンポの発表準備
1/18 品詞タグ検証作業が終了。
1/24 検索システム開発業者にデータの引き渡し
1/26 提出したデータの不備ありとの返信
1/30 データチェック、語彙素の欠損行などあり、修正しつつ新作業マニュアルを作成し、作業者に連絡
1/31 打ち合わせの結果JASWRICの訂正はこちらでやることに。。。
1/31 まる2日作業やって行ずれに気づき、全部おじゃんになる。燃え尽きる。
2022年12月
12/2 中間作業報告。順調に進捗。1月中旬に終了見込みとのこと
12/10 インタフェース改修検討
2022年11月
11/17 仕様書を作成して事務に提出
11/16 作業者紹介があり見積作成のためのトライアル作業を依頼。1000行/Hで総額見積李実施。事務に経緯を報告。年度内にはJASWRICはできるがJFICは難しそうな状況。
11/14 国語研究所にタグ付け修正作業者の紹介依頼
11/11 神戸大・湖北大合同ゼミでJASWRIC紹介発表
2022年8月
8/29 ウェブサイト更新
国語研論文修正の継続
・トップ画面、左端のJASWRICのaboutのとびさき修正
Spoken Dialogueのポップアップ内容
7/27 業者より作業進捗着信。検索画面のv1が出る。
★追加指示だし。
7/19 朝、HP作成完了。申請サイト作成完了。ウェブサイト業者に連絡。性別は小中高大全部カットすることに。論文にもその旨反映。国語研、採択通知。夕刻、HP修正。関係者にプレリリース告知。<ここでこの仕事はいったん終える>
7/12 ここまでの記録を整理してこのエントリを作成
7/12 午前、被験者コードを付与する作業が完了。小3-6のアンケートデータの転記。JASWRIC1.0としてまとめ、システム業者に送付。業者とスケジュール確認。
7/11 full editにしてかつedit記録を保存する方針に変更。作業やり直し。web茶まめで作業するがコードの数が合わない。修正作業。夜、被験者コードの付与。半分終了。
7/8 データ整理開始、まず、被験者情報の整理を行う
7/7 国語研に申し込み完了
7/6 大学生謝金事務完了
7/6 国語研WS発表に向けて論文の共著者への勧誘(附属教員宛て)、迫田・丸山先生にアブストの確認依頼
6/30 下記納品
6/29下記の受け取り
6/27~ 大学生への謝金支払い
6/21 小学校の1-2年データ収集完了。
6/16 中高追加(中1・3)の書きおこし納品
6/16 大学生提出期限
6/15 中高追加分書きおこし発注
6/6-8 大学クラスで参加者募集
6/1 追加データ受領
2022年5月
5/27 下記承認
5/24 附属小追加データ収集の研究内容審査申請
5/23 中高データの納品
5/18 中等に中1・中3の追加データ収集を依頼
5/15 中高データの書きおこし発注
2022年4月
4/4 生徒人数分の印刷を行い、学内便で発送
4/1 附属中等教科会議で協力確認返信
2022年1~3月
3/4 小学生データ書きおこし納品
1/26 迫田先生にプロンプトの使用許諾以来→受理
1/13 附属小教員に研究協力の意向を伺い
2022年12月
12/26 迫田先生の学習者コーパス研究会で、松隈氏(専修大)の研究発表を聞き、日本人から絵描写作文を集めるというアイデアに触れる
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~