Lancaster Symposium on Innovation in Corpus Linguistics 2021 (Online)
2021/6/23 UK time(日本は+8時間)
★同日に前半を聴講。6/25に後半を録画で視聴してメモ追加。
12.30 – 12.45 Introduction to the Symposium (Vaclav Brezina)
・図書館でBrownのマイクロフィルムを発見
・BNC2014リリース
・イノベーション,カンディンスキーの絵のように後世で評価
・ゲストへの共通質問 なぜコーパスがあなたにとって個人的に興味深いか? あなたの分野でコーパスの価値を示す事例は? あなたの分野ではなぜイノベーションが大事? あなたの分野におけるコーパスの将来像は?
12.45 – 13.15 Corpus Linguistics and the Philosophy of Science (Tony McEnery)
・科学とは?
→現実についての合理的(rational)な事実の模索
→scientia realis vs scientia reationalis
・言語へのrationalなアプローチに必要なのか?
→データの収集と選定の手段,ツール,他の研究者と議論して関連研究を参照できること,手法を正しく使い,手法の背後の理論を理解するよう訓練されていること
・科学の手順(参考 カール・ポパー)
ポパーの貢献(Wikipediaより)疑似科学と科学の区別,反証可能性(反証できない理論は科学ではない)
→発見 vs 思い付き(falsification)
→コーパスは形而上的思い付きを科学に転換することを可能にする
・事実(reality)の捉え方
→科学的事実と形而上的事実=2種類の事実。両者の中間にもう1つ,社会的事実。
・米国の綴りの英国への影響 スペルチェッカーの普及にも影響される
・事実とはなにか
→研究者の事実観に依拠。物理的事実,社会的事実,形而上的事実のせめぎあいが重要
・パラダイム
13.15 – 13.45 Corpus Linguistics in Discourse Analysis (Charlotte Taylor)
・難民はしばしばpoured intoなど水のメタファーでとらえられる
・共起語分析を歴史的データに適用するのも有益
・水に関する語として,現在ではflowの共起語に「金」が,waveの共起語に「犯罪」が増える
・CLと談話研究の融合のためには,
1) 分野の境界を再考する
2) 談話研究の概念やツールを埋め込む
3) 対話式のコーパス検索ツール
4) アノテーションデータへのアクセス
5) 談話研究,メタファ研究のベンチマークを確立
6) reflexivity(研究者と研究対象の関係性)の再考
13.45 – 14.15 Corpus Linguistics in Digital Humanities (Michaela Mahlberg)
・DHはテキストだけでなくさらに幅広いobjectを対象にする
・CLではfictoinよりnon fictonを対象にすることが多い(fictionへの関心を)
・close reading(特定作品の特定の部分だけを取り出して精読) vs distant reading(文学史などを見ながらdigital libraryの資料を使って巨視的にデータを分析する)
・CLiC(Corpus Linguistics in context)= reading concordances with CLiC
・CLiCデータベースでは,テキストに引用部,short/long suspension(said Xなどの挿入)などのタグが付与されている
・BNCの生の会話と小説の登場人物会話を比較:類似性と連続性(lexical bundle比較)
・19世紀小説とDickensをBiberのD1(involved/ informational)で分析→地の文と発話で振る舞いが異なる(小説は1つではなく2つの言語態を内包)
・コーパスの中の小説データの位置づけ:1) 比較対象の1ジャンルとして,2)参照コーパスの一部として,3)世界理解の手がかりとして
・CLiCプロジェクトにおけるコンコーダンサ beganで始まるlong supensionなどを抜き出せる
・Dickensの典型的パタン fix his eyes on herなど。さらにreporting V + ing + his/her ... eysなどのパタンも抽出できる。
・CLiCプロジェクトでは,Open researchを目指す。データなどをすべて公開。
・今後の研究への提言:研究を透明でopenに,協働を,bigger pictureを見よう
14.30 – 15.00 Corpus Linguistics and Historical Sociolinguistics (Terttu Nevalainen)
・歴史的社会言語学
・言語変化への興味からCLに興味
・社会言語学では図書館で蔵書のメモを取ってshoeboxにindex cardを集めるなど,昔からCL的なことをやっていた
・CLは社会言語学をdoable(実現可能)にする
・Corpus of Early English Correspondence(CEEC)(送信人データベースを調べることで,書き手の性別・宗教・職業・学歴などをキーにその人の手紙を呼び出せる)
・CEEC シリーズ 260万語(1410-1861),220万語(1653-1800),44万語(1402-1663)=合計526万語(1402-1800)
・文法変化を調べられる
・動詞の3単現sの変化(singeth→sings)。1500~1600の時代別,英国の地域別(北部とロンドンでは古くからs。東部はsへの移行が遅い)
・Westminster(政治地区)はth。City of London(商業地区)はs。
・CromwellはWestminsterで勤務してth形を使用。Henry Machyn(商人)はCity居住でsを使用。
・Wish List:歴史分析のベースラインとなりうる巨大コーパス+小規模な特殊コーパス
・1700以前の印刷資料はEEBOに収録されているが図書館に眠る手書き原稿の電子化はこれから
・ヘルシンキ大ではジェンダー・時代別の言語モデルを構築し予測する試みも
※ここまでライブで視聴。以下は後日録画で視聴予定。
15.00 – 15.30 Corpus Linguistics and Language Learning (Fanny Meunier)
・コーパスへの興味:実際の言語データ/ツールへのアクセス+データの持続性("24/7 language assistant")
・コーパスの価値:理論的価値(CLILの効果検証),手法的価値(メタデータ,混合手法,縦断データ,異タイプデータ(SWなど),教育的価値(DDL)
・イノベーションの重要性:変化こそが価値。技術的知識,教育的知識,内容的知識の3つが必要。真ん中にTechnological pedagogical content knowledge (TPACK)
・コーパスの将来像:統合が加速(オンライン作文支援ツールなど collocaid),AIなどに対応したコーパスの在り方を
・研究室に張っている標語 "Be a voice, don't be an echo"
15.30 – 16.00 Corpus Linguistics, Statistics and Tools Development (Vaclav Brezina)
・2021 CLさらに一般的に,さらに学際的に,さらに複雑で精錬され,さらに課題も
・コーパスを使った社会言語学調査ではなぜそんなに統計的に有意なの?B & Meyerhoff 14
・BNCはどのぐらい大きいのか?(ツールによってサイズが一致しない) B & Timperley 17
・どんなツールが必要か? LancsBox
・統計処理を普及させるにはツールへのアクセスが課題
・LancsBox 5万人以上の利用者。中国>英>米>イタリア>独・・・(日本は10位にない)
・構文のパタンを指定するのが難しい→smart search(用意してある品詞名をクリックして組み合わせていく)
・Lancaster Stats Tools online(相関,クラスター,MD分析)
・MD分析の結果もグラフィカルに出力
・コーパスの将来像 統合!
16.00 – 16.30 General Discussion