サウジの大学が主催する応用言語学会(何年か前に発表したことがあります)で、BNC2014(Love 2020)の開発者であるRobbie Love教授の講演をオンラインで聴講しました。
学会パンフより
BNC2014 Spokenにはこれからのコーパス開発の手本となるさまざまな工夫がなされているのですが、開発者本人から話が聞け、大変勉強になりました。
講演メモより
1)6700万人の英国の人口に対する代表性には疑問があるが、他に方法はない
2)既存のオンライン検索システムは書き言葉用のものが多い。書き言葉は1テキストは1ソースと簡単に結びつくが、複数名が同時に発話する話し言葉ではそれは通用しない。この意味で、話者区分を組み込んだ話し言葉データ用の検索システム開発は大きな挑戦であった
3)コロケーションの境界画定の問題
4)BNC1994/BNC2014の比較でで時代変化が見られる(と思われる)が、この点についてはすでに批判の声もある(i.e., 2点の頻度だけ見て、その間の頻度情報なしに、増加や減少などのトレンドが取り出せない)
5)Chat GPTにauthenticな英国人の会話を出せ、というとすでに出してくれるがその信頼性は不明。将来の発話データ収集とトランスクリプション作業は、スマートグラスなどを着用してもっと簡単にできるようになるのかもしれない。