このブログを検索

2019/09/21

2019.9.21 計量国語学会大会参加@国立国語研究所(立川)

表記に参加しました

プログラム
http://www.math-ling.org/Docs/poster2019.pdf

13本と盛りだくさんな内容でしたが,どれも興味深い発表でした。コーパス言語学は究極的には1つの手法なので,主として扱う言語が違っても,同じ土俵で考えたり議論したりすることができます。

下記は聴講メモより

1)S/Wの対比は難しい
話し言葉,書き言葉といっても,その中には膨大な多様性があり,1つのコーパスでそれを代表させることはきわめて難しい。とくに,現代日本語の「書き言葉」を代表するとされるBCCWJのデータ構造は複雑で,BCCWJの総体が何を表しているのかは自明ではないかも?

2)話し言葉コーパスの分析単位をどうするか
話し言葉コーパスの書き起こしはどの程度まで信頼できるものだろうか?たとえば,「はい」と「はあい」と「は・い」と「はああい」等の音声はどこまで正確に書きわけられるものだろうか?だとすると,それを分析単位にすることは可能だろうか?

3)多変量解析の複数実行
たとえば異なる手法でちょっと違う結論が出てしまった(ように見える)とき,どういう対応が望ましいのだろうか?

4)文体と編集
編集された(かもしれない)テキストの文体はどこに帰属するのだろうか?

5)TTR補正
RやCは知っていたが,typeのlogのlogを,tokenのlogのlogで割る「S値」というのを初めて知った(孫・金,2019)。たしかにHerdan Cよりもトークンの影響を殺していそう。

6)多変量解析によるグルーピング問題
結局,グルーピングの数を決める究極的な根拠とはなんだろうか?

などなど,盛りだくさんな一日だった。また,院生さんはじめ,若い発表者が多いのも,(英語コーパス研究の側から言うと)純粋にうらやましい限り。