このブログを検索

2017/12/01

2017.12.1 研究メモ:BCCWJの語数問題

国立国語研究所が開発した現代日本語書き言葉均衡コーパス(BCCWJ)は,言語研究の基礎資料としてきわめて重要なものですが,全体の語数については,いくぶん曖昧さが残っています。自己メモとして記録します。

語数は,「1語」をどう見るか,つまりは文字列をどのように切り分けるかによって決まりますが,BCCWJでは,語を短めに認定する短単位(六甲/山)と,長めに認定する長単位(六甲山)の2種の単位で処理が行われています(つまり,同じデータを短単位で解析したものと,長単位で解析したものの2種が同時に提供されている)。単に語数と言った場合は,通例,短単位での語数を指します。

(A)
まず,「少納言」のトップページを見てみましょう。
http://www.kotonoha.gr.jp/shonagon/


ここでは語数は約1億500万語となっています。


(B)
次に,国語研究所コーパス開発センターウェブサイトの「BCCWJ概要」を見ましょう。
http://pj.ninjal.ac.jp/corpus_center/bccwj/


ここでは語数は1億430万語とあります。70万語減りました!?


(C)
次に,同じく国語研究所コーパス開発センターのウェブサイト内の「BCCWJ<DVD版公開データ」のページを見ます。
http://pj.ninjal.ac.jp/corpus_center/bccwj/dvd-index.html


短単位 104,911,464語
長単位 83,585,665語

ということで,短単位では1億491万語となります。これは上記の(A),つまり,少納言の記述とおよそ一致します。(B)の記述とは一致しません。

(D)
今度は中納言サイト内の「BCCWJ:レジスターごとの語数」のページを見ます。
https://maro.ninjal.ac.jp/wiki/index.php?BCCWJ%2F%E3%83%AC%E3%82%B8%E3%82%B9%E3%82%BF%E3%83%BC%E3%81%94%E3%81%A8%E3%81%AE%E8%AA%9E%E6%95%B0

短単位の場合は
長単位の場合は

です。BCCWJには1サンプルとして1000字分を機械的に切りとった固定長データと,1万字以内でまとまりを優先して切り取った可変長データが混在していますが,上記は,固定長語数,可変長語数,合計語数となります。我々が見るのは最後の数字です。

短単位 104,911,460語
長単位 83,584,516語

(C)の場合より短単位で4語分(長単位で149語分)減って?います。

(E)
今度は国語研究所コーパス開発センターウェブサイト内の「「中納言」版公開データ」のページを見ます。
http://pj.ninjal.ac.jp/corpus_center/bccwj/bcc-chu.html

ここでは短単位版と長単位版の語数を示したエクセルがDLできます。個々のサンプルごとの語数を示したファイルです。列合計を取ると総語数が出ます。ただし,ここでは,語数と,語数(記号など除外)という2種の単位が出ています。

短単位の場合は


長単位の場合は

つまり,
短単位 124,100,968語 (記号抜き) 104,911,464語
長単位  101,877,008語 (記号抜き) 83,585,665語

ここで,これまで出ていた数字が記号抜きだったことがわかります。この数字は(D)と一致します。

(F)
続いて,山崎(編)(2014)「書き言葉コーパス:設計と構築」(朝倉書店)の第2章「サンプリング」を見てみましょう。

p.23の図2.1には,以下の情報が載っています。

出版サブコーパス・・・約3437万語
図書館サブコーパス・・・約3038万語
特定目的サブコーパス・・・約4017万語

これを合計すると1億492万語です。数字を丸めたことで若干の差は出ていますが,これは(E)で言う,短単位・記号抜きの104,911,464語に一致するものと言えるでしょう。

(G)
前出の本の同じ第2章のp.27の表2.2にはサブコーパス別の語数が出ています(明示していませんが短単位語数と思われます。)

可変長・・・100,833,045語
固定長・・・16,178,029語

これらを単純に合計すると117,011,074語となり,記号抜きだとすると,他のデータより
1200万語ほど多くなっています。

同書には,図2.1の語数とずれが生じていることについて,「図2.1に示した語数(※石川注:つまり他の多くの文献に記載されたBCCWJ総語数と一致する値)は,固定長サンプルと可変長サンプルを統合した語数であるため,表2.2に示した語数の合計とは若干異なる」と注記されています。

森秀明(2016)の論文にもあるように,固定長と可変長には一部重複があります。とすると,図2.1の「統合」というのは,単純加算して重複を除去したという意味のように思われます。そうだとすると,重複分が1200万語存在することになります。BCCWJの固定長,可変長サンプルの重複については現在調査中で,分かり次第,追加報告したいと思います。

・・・・・・・・・・・・・

ということで,わかったことをまとめると以下のようなことになるでしょうか?

・記号を含めると,短単位で1億2400万語,長単位で1億200万語程度
・記号を除くと,短単位で1億500万語,長単位で8400万語程度
・とくに言及なく総語数という場合は,記号なし・短単位が前提になっている
・ただし,各書で報告される総語数には一定の食い違いが残っている

(要確認事項)
・長単位+短単位の単純合計値と,重複除去合計値の関係性

いずれにしても,BCCWJに関して一般に語られる語数が,「記号を抜いた」もので,かつ,「短単位」計測による,ということは,改めて確認しておきたいと思います。