語数は,「1語」をどう見るか,つまりは文字列をどのように切り分けるかによって決まりますが,BCCWJでは,語を短めに認定する短単位(六甲/山)と,長めに認定する長単位(六甲山)の2種の単位で処理が行われています(つまり,同じデータを短単位で解析したものと,長単位で解析したものの2種が同時に提供されている)。単に語数と言った場合は,通例,短単位での語数を指します。
(A)
まず,「少納言」のトップページを見てみましょう。
http://www.kotonoha.gr.jp/shonagon/
ここでは語数は約1億500万語となっています。
(B)
次に,国語研究所コーパス開発センターウェブサイトの「BCCWJ概要」を見ましょう。
http://pj.ninjal.ac.jp/corpus_center/bccwj/
ここでは語数は1億430万語とあります。70万語減りました!?
(C)
次に,同じく国語研究所コーパス開発センターのウェブサイト内の「BCCWJ<DVD版公開データ」のページを見ます。
http://pj.ninjal.ac.jp/corpus_center/bccwj/dvd-index.html
短単位 104,911,464語
長単位 83,585,665語
ということで,短単位では1億491万語となります。これは上記の(A),つまり,少納言の記述とおよそ一致します。(B)の記述とは一致しません。
(D)
今度は中納言サイト内の「BCCWJ:レジスターごとの語数」のページを見ます。
https://maro.ninjal.ac.jp/wiki/index.php?BCCWJ%2F%E3%83%AC%E3%82%B8%E3%82%B9%E3%82%BF%E3%83%BC%E3%81%94%E3%81%A8%E3%81%AE%E8%AA%9E%E6%95%B0
短単位の場合は
長単位の場合は
です。BCCWJには1サンプルとして1000字分を機械的に切りとった固定長データと,1万字以内でまとまりを優先して切り取った可変長データが混在していますが,上記は,固定長語数,可変長語数,合計語数となります。我々が見るのは最後の数字です。
短単位 104,911,460語
長単位 83,584,516語
(C)の場合より短単位で4語分(長単位で149語分)減って?います。
(E)
今度は国語研究所コーパス開発センターウェブサイト内の「「中納言」版公開データ」のページを見ます。
http://pj.ninjal.ac.jp/corpus_center/bccwj/bcc-chu.html
ここでは短単位版と長単位版の語数を示したエクセルがDLできます。個々のサンプルごとの語数を示したファイルです。列合計を取ると総語数が出ます。ただし,ここでは,語数と,語数(記号など除外)という2種の単位が出ています。
短単位の場合は
長単位の場合は
つまり,
短単位 124,100,968語 (記号抜き) 104,911,464語
長単位 101,877,008語 (記号抜き) 83,585,665語
ここで,これまで出ていた数字が記号抜きだったことがわかります。この数字は(D)と一致します。
(F)
続いて,山崎(編)(2014)「書き言葉コーパス:設計と構築」(朝倉書店)の第2章「サンプリング」を見てみましょう。
p.23の図2.1には,以下の情報が載っています。
出版サブコーパス・・・約3437万語
図書館サブコーパス・・・約3038万語
特定目的サブコーパス・・・約4017万語
これを合計すると1億492万語です。数字を丸めたことで若干の差は出ていますが,これは(E)で言う,短単位・記号抜きの104,911,464語に一致するものと言えるでしょう。
(G)
前出の本の同じ第2章のp.27の表2.2にはサブコーパス別の語数が出ています(明示していませんが短単位語数と思われます。)
可変長・・・100,833,045語
固定長・・・16,178,029語
これらを単純に合計すると117,011,074語となり,記号抜きだとすると,他のデータより
1200万語ほど多くなっています。
同書には,図2.1の語数とずれが生じていることについて,「図2.1に示した語数(※石川注:つまり他の多くの文献に記載されたBCCWJ総語数と一致する値)は,固定長サンプルと可変長サンプルを統合した語数であるため,表2.2に示した語数の合計とは若干異なる」と注記されています。
森秀明(2016)の論文にもあるように,固定長と可変長には一部重複があります。とすると,図2.1の「統合」というのは,単純加算して重複を除去したという意味のように思われます。そうだとすると,重複分が1200万語存在することになります。BCCWJの固定長,可変長サンプルの重複については現在調査中で,分かり次第,追加報告したいと思います。
・・・・・・・・・・・・・
ということで,わかったことをまとめると以下のようなことになるでしょうか?
・記号を含めると,短単位で1億2400万語,長単位で1億200万語程度
・記号を除くと,短単位で1億500万語,長単位で8400万語程度
・とくに言及なく総語数という場合は,記号なし・短単位が前提になっている
・ただし,各書で報告される総語数には一定の食い違いが残っている
(要確認事項)
・長単位+短単位の単純合計値と,重複除去合計値の関係性
いずれにしても,BCCWJに関して一般に語られる語数が,「記号を抜いた」もので,かつ,「短単位」計測による,ということは,改めて確認しておきたいと思います。