神戸大学石川慎一郎研究室　活動報告

2017/12/11

2017.12.11 神戸大学「データサイエンス入門２」特別講義

石川は，12月より，学内に新設された「数理・データサイエンスセンター」の併任となりました。その関係で，表記の特別授業においてオムニバス講義（１回分）を担当しました。

2017/12/10

2017.12.10 情報通信学会「思考と言語研究会」＠愛媛大学で発表

表記で研究発表を行いました。

○石川慎一郎（神戸大）・岩見理華（神戸大附属中等）
グローバル体験学習と探究学習が高校生の教科学力およびグローバル能力に与える影響

なお，報告の内容は，「信学技報」 vol. 117, no. 341, TL2017-46, pp. 13-18, 2017年12月.に掲載されました。

発表では，SGHの二大事業とされるグローバル体験学習と探究学習のうち，後者の教科学力に対する寄与が相対的に大きいことをデータ分析結果をふまえて報告しました。

2017/12/08

2017.12.7-9 International Conference on ESP, New Technologies and Digital Learning で発表

International Conference on ESP, New Technologies and Digital Learning
The Hong Kong Polytechnic University, Hunghom, Hong Kong
7-9 December 2017

表記で研究発表を行いました。
発表題目：Evaluation of Learners’ L2 English Essays: Comparison of Three Approaches

発表では，科研（萌芽）で構築したICNALE Edited Essaysのデータを使い，ESL Composition Profileの５観点評価の総合値に対して，相関性の高い代替評価法ができないか検証した結果を報告しました。

その結果，ESL CPはOrganizationの１観点評価であっても５観点評価のおよそ８割の説明力を保持できることなどがわかりました。

2017/12/05

2017.12.5 兵庫県立伊丹高校SGH教員向け研究会

表記で講演を行いました。

当日は，過日発表された大学入試センターテストの後継問題（数学）を例に取り上げ，新しい学力，考える力，深く対話的な学びといった新指導要領の鍵概念について説明を行いました。

たとえば上記の数学の問題の場合，比例や関数の通常の練習問題ができるだけでは正しく回答できないかもしれません（実際試行テストの正答率も大変低いものでした）。つまりは，身近な事象を自分自身で数学的モデルとして再構成する力が今の教育できちんとつけられているかどうか，もしそうでないならばどのような対応が新たに必要になるのか，教育関係者は学校外の人々の視点も取り入れながら一緒に考えていく必要があります。これが，社会に開かれた教育課程を作り上げる第一歩となるはずです。

また，講演後は，同校の管理職やSGH研究部の先生がたとともに，新年度からのSGHのカリキュラムについてディスカッションを行いました。私のほうからは，SGHのねらいとコンセプトを改めて明確にする必要性，また，なぜ同校でそれをやるのかがすべての生徒にすぐわかるようなストーリーを作ること，それを関係者が共有していることがとくに重要になるといった点を指摘させていただきました。春からの伊丹SGHのますますのパワーアップが期待されます。

2017/12/03

2017.12.3 ひょうご大学コンソーシアム主催「兵庫県学生英語プレゼンテーションコンテスト」参加

審査員として表記に参加しました。

兵庫県学生英語プレゼンテーション・コンテスト
Hyogo English Presentation Contest for College Students

力作ぞろいの発表で楽しみました。

この手のコンクールの審査はよくやるのですが，今回のものはかなり大規模なもので１位賞金１０万円にも驚きました。

参加者の方への講評でも申したのですが，参加者の英語力の差はほとんど感じられませんでした。逆に違いが見えてくるのが提案の内容。今回の場合は，「兵庫県に留学生を呼び込み，地元企業に就職してもらう」というテーマをどこまで深堀りし，独自の提案に落とし込めたかがカギとなりました。英語も大事ですが，英語で何を話すかはもっと大事です。この点を次への課題としていただければと思います。

結果はこちら。
http://www.consortium-hyogo.jp/event/2017/pdf/171204_result.pdf

2017/12/02

2017.12.2 JACET東アジア英語教育研究会参加

西南学院大学で開催された表記の研究会に参加しました。

JACET SIG第180回東アジア英語教育研究会
日時：12月2日（土）14：00–17：15
場所：西南学院大学西南コミュニティーセンター
テーマ：「ことばの学習と習得を科学する」
内容：
研究発表：心理言語学研究「tough構文の理解：意味的透明性と漸進性」伊藤彰浩（西南学院大学）、
「第2言語理解におけるメロディー呈示の有効性」村木華子（西南学院大学4年）、
「C-Test項目の難度決定要因の探究」田中清之介（西南学院大学4年）、

JACET SIG第181回東アジア英語教育研究会
日時：12月2日（土）　15：30-17：35
場所：西南学院大学　1号館307号教室
テーマ：「これからの英語教育ー質保証にむけて」
内容：
「外国語授業における学びの質ー学習者の視点から」加藤由崇（中部大学）・笹尾洋介（京都大学）・田地野　彰（京都大学）、
「意味を重視した英語指導法の構築と検証」細越響子（京都府立大学）・高橋　幸（京都大学）・金丸敏幸（京都大学）、
「詩とは何か」からはじまる音声指導ー英詩研究者からの提言（Part II)」　桂山康司（京都大学）

どれも興味深い発表でした。とくに西南学院伊藤ゼミの学生さんの発表は力作ぞろいで感銘を受けました。

2017/12/01

2017.12.1 研究メモ：BCCWJの語数問題

国立国語研究所が開発した現代日本語書き言葉均衡コーパス（BCCWJ）は，言語研究の基礎資料としてきわめて重要なものですが，全体の語数については，いくぶん曖昧さが残っています。自己メモとして記録します。

語数は，「１語」をどう見るか，つまりは文字列をどのように切り分けるかによって決まりますが，BCCWJでは，語を短めに認定する短単位（六甲／山）と，長めに認定する長単位（六甲山）の2種の単位で処理が行われています（つまり，同じデータを短単位で解析したものと，長単位で解析したものの2種が同時に提供されている）。単に語数と言った場合は，通例，短単位での語数を指します。

(A)
まず，「少納言」のトップページを見てみましょう。
http://www.kotonoha.gr.jp/shonagon/

ここでは語数は約１億500万語となっています。

(B)
次に，国語研究所コーパス開発センターウェブサイトの「BCCWJ概要」を見ましょう。
http://pj.ninjal.ac.jp/corpus_center/bccwj/

ここでは語数は1億430万語とあります。70万語減りました！？

（C）
次に，同じく国語研究所コーパス開発センターのウェブサイト内の「BCCWJ＜DVD版公開データ」のページを見ます。
http://pj.ninjal.ac.jp/corpus_center/bccwj/dvd-index.html

短単位　104,911,464語
長単位　83,585,665語

ということで，短単位では1億491万語となります。これは上記の（A），つまり，少納言の記述とおよそ一致します。（Ｂ）の記述とは一致しません。

(D)
今度は中納言サイト内の「BCCWJ：レジスターごとの語数」のページを見ます。
https://maro.ninjal.ac.jp/wiki/index.php?BCCWJ%2F%E3%83%AC%E3%82%B8%E3%82%B9%E3%82%BF%E3%83%BC%E3%81%94%E3%81%A8%E3%81%AE%E8%AA%9E%E6%95%B0

短単位の場合は

長単位の場合は

です。BCCWJには１サンプルとして１０００字分を機械的に切りとった固定長データと，１万字以内でまとまりを優先して切り取った可変長データが混在していますが，上記は，固定長語数，可変長語数，合計語数となります。我々が見るのは最後の数字です。

短単位　104,911,460語
長単位　83,584,516語

(Ｃ)の場合より短単位で4語分（長単位で149語分）減って？います。

（E）
今度は国語研究所コーパス開発センターウェブサイト内の「「中納言」版公開データ」のページを見ます。
http://pj.ninjal.ac.jp/corpus_center/bccwj/bcc-chu.html

ここでは短単位版と長単位版の語数を示したエクセルがＤＬできます。個々のサンプルごとの語数を示したファイルです。列合計を取ると総語数が出ます。ただし，ここでは，語数と，語数（記号など除外）という2種の単位が出ています。

短単位の場合は

長単位の場合は

つまり，
短単位　124,100,968語　（記号抜き） 104,911,464語
長単位　101,877,008語（記号抜き） 83,585,665語

ここで，これまで出ていた数字が記号抜きだったことがわかります。この数字は(Ｄ)と一致します。

(F)
続いて，山崎（編）（2014）「書き言葉コーパス：設計と構築」（朝倉書店）の第２章「サンプリング」を見てみましょう。

p.23の図2.1には，以下の情報が載っています。

出版サブコーパス・・・約3437万語
図書館サブコーパス・・・約3038万語
特定目的サブコーパス・・・約4017万語

これを合計すると1億492万語です。数字を丸めたことで若干の差は出ていますが，これは（E）で言う，短単位・記号抜きの104,911,464語に一致するものと言えるでしょう。

（G）
前出の本の同じ第２章のp.27の表2.2にはサブコーパス別の語数が出ています（明示していませんが短単位語数と思われます。）

可変長・・・100,833,045語
固定長・・・16,178,029語

これらを単純に合計すると117,011,074語となり，記号抜きだとすると，他のデータより
1200万語ほど多くなっています。

同書には，図2.1の語数とずれが生じていることについて，「図2.1に示した語数（※石川注：つまり他の多くの文献に記載されたBCCWJ総語数と一致する値）は，固定長サンプルと可変長サンプルを統合した語数であるため，表2.2に示した語数の合計とは若干異なる」と注記されています。

森秀明（2016）の論文にもあるように，固定長と可変長には一部重複があります。とすると，図2.1の「統合」というのは，単純加算して重複を除去したという意味のように思われます。そうだとすると，重複分が1200万語存在することになります。BCCWJの固定長，可変長サンプルの重複については現在調査中で，分かり次第，追加報告したいと思います。

・・・・・・・・・・・・・

ということで，わかったことをまとめると以下のようなことになるでしょうか？

・記号を含めると，短単位で１億２４００万語，長単位で１億２００万語程度
・記号を除くと，短単位で１億５００万語，長単位で８４００万語程度
・とくに言及なく総語数という場合は，記号なし・短単位が前提になっている
・ただし，各書で報告される総語数には一定の食い違いが残っている

（要確認事項）
・長単位＋短単位の単純合計値と，重複除去合計値の関係性

いずれにしても，BCCWJに関して一般に語られる語数が，「記号を抜いた」もので，かつ，「短単位」計測による，ということは，改めて確認しておきたいと思います。

登録: 投稿 (Atom)

このブログを検索

2017/12/11

2017/12/10

2017/12/08

2017/12/05

2017/12/03

2017/12/02

2017/12/01