上記のプログラムに検索をかけると,"corpus"の出現は196回。corpusの左端3語の共起語を機械的に検索し,手作業でフィルタリングしたところ,下記のような共起パタンが見えてきました。LRECが,そもそも教育系の発表が少なく,工学系言語処理の発表がメインであるという偏りはあるものの,ある程度,今のヨーロッパのコーパス研究の関心のありようを写し取っていると言ってよいでしょう。
(1) どの言語を対象とするとか
japanese | 7 |
english | 5 |
chinese | 5 |
german | 4 |
portuguese | 3 |
french | 3 |
vietnamese | 2 |
spanish | 2 |
polish | 2 |
persian | 2 |
italian | 2 |
arabic | 2 |
(2)どんなタイプの言語を対象とするか?
speech | 9 |
dialogue | 4 |
text | 4 |
3 | |
interaction | 3 |
summarization | 2 |
paraphrase | 2 |
medical | 2 |
learner | 2 |
entity | 2 |
document | 2 |
dialect | 2 |
blog | 2 |
(3)どのようにデータを収集・処理するか?
multimodal/ multi/ (multi-)modal | 17 |
annotated | 15 |
parallel | 13 |
large/ (large-)scale | 9 |
multilingual | 3 |
bilingual | 3 |
standard | 2 |
crowdsourced | 2 |