このブログを検索

2018/05/09

2018.5.9 研究メモ:最近の欧州におけるコーパス研究の動向:LREC2018の発表論文から

The European Language Resources Association(ELRA)が主催する大規模な世界大会であるLRECが,2018年5月に日本で開催されました。石川は招待講演者として1日のみ参加させていただきましたが,会期中に本体会議だけで1119本の発表がありました(ポスター含む)。

上記のプログラムに検索をかけると,"corpus"の出現は196回。corpusの左端3語の共起語を機械的に検索し,手作業でフィルタリングしたところ,下記のような共起パタンが見えてきました。LRECが,そもそも教育系の発表が少なく,工学系言語処理の発表がメインであるという偏りはあるものの,ある程度,今のヨーロッパのコーパス研究の関心のありようを写し取っていると言ってよいでしょう。

(1) どの言語を対象とするとか
japanese 7
english 5
chinese 5
german 4
portuguese 3
french 3
vietnamese 2
spanish 2
polish 2
persian 2
italian 2
arabic 2
★開催地であった日本語,また,定番の英語を別にすれば,アジア圏言語では中国語とベトナム語のコーパス開発の報告がありました。

(2)どんなタイプの言語を対象とするか?
speech 9
dialogue 4
text 4
twitter 3
interaction 3
summarization 2
paraphrase 2
medical 2
learner 2
entity 2
document 2
dialect 2
blog 2
★(A)発話,対話,やりとり,(B)ツイッター,ブログ,(C)要約文,翻訳文,(D)その他:医療関係,学習者産出,方言,などの発表があり,数の上では(A)が多くなっています。我田引水ですが,対話を集めているICNALE Spoken Dialogueプロジェクトも,こうした欧州の研究トレンドに合致しているようです。このほか,named entity(固有表現抽出)のコーパスに関する発表などもありました。

(3)どのようにデータを収集・処理するか?
multimodal/ multi/ (multi-)modal 17
annotated 15
parallel 13
large/ (large-)scale 9
multilingual 3
bilingual 3
standard 2
crowdsourced 2
テキスト・音声・動画などを併存させるmulti-modal,品詞タグなどの言語情報などを埋め込むannotated,2言語(多くは対訳)以上を集めるparallel, bilingualあたりの発表が多いのは納得です。また,クラウドソーシングの手法を用いたコーパス収集の発表も見られました。