(8月)
8/1 7/31作業にミスを発見。MNでの英訳時に,2001SN4と2001SN6を処理すべきところ,2021SN4と2021SN6を処理していた。→新規に2001のSN4とSN6をMNで処理し,MNフォルダに上書き
8/3 2011モジュールが納品。会計処理。
8/6 ICNALEの検索システムをベースに検索のモックイメージを作成。業者に送付し,見積もり依頼をとる。
8/10 開発業者とのメール質疑
8/10 Sketch Engineでタグ付け。vertファイルを個別にDLすることができなくなっていることを確認。開発業者に連絡。DLできないのは仕様とのこと。
(サポートの回答)
It is not possible in the interface. The solution would be for you to download the whole corpus and then split it to separate files by simple command in the command line, which could for example look something like this: csplit name_of_the_file_with_whole_corpus.txt '/doc id/' '{*}' .
8/11 開発業者とのZoom会議(1000~1020) 英語のPOS解析データについて,前回システムと同等での提供が可能であることを確認。
8/12 研究室で作業。2011データの英訳作成,形態素解析データ作成。日本語形態素データの統合エクセルを修正(v2に)。連番のふりなおし,年号列,雑誌名列を新設。
群像(GZ)がGNとなっていたエラーを修正。あわせて,年代別に品詞列のデータと形態素列のデータを作成。品詞については最初の列にA-B-Cの形で情報が付与されている。Antconcでは記号を認識する設定にしないとまとめて処理できない。形態素についても,アメリカ-america,私-代名詞のように意味確定(disambiguation)のためのタグがついているのでAntconcでは同様の処理が必要。JAECS論文用に,高頻度助詞を用いた分類を試行。
助詞をアイテムとしたときの70年分データの布置
※1961~1991のかたまりと,2001~2021のかたまりにわかれる。作家が世紀の分かれ目を意識したというわけではもちろんないだろうが,助詞使用は世紀の切れ目でちょうど質的に変化している可能性がある。
8/13 JAECS用の予稿論文を執筆。
8/14 上記をいちおう完成(8p)。
8/16 上限が6pであることに気づき,修正作業。内容を圧縮して6pに。(1か月ほど寝かして再チェックして投稿予定)
8/17 各出版社への通知文を作成。また作品台帳をアップデート。各社への引用作品リスト送付の準備を行う。1700 発送完了。
3文芸誌にコーパス収録を通知
8/20 システム開発業者より見積もり遅延の通知。
8/21 研究ネタメモ:「日本語学習者の作文の文体は教科書が執筆された年代の文体に影響されているのではないか?」調査
8/24 新潮社より確認通知をいただく。
(7月)
7/5
・1971-新潮1月号(文学部から取り寄せ)を複写
・1981-新潮/文学界/群像を借りだして複写
・自宅で1971の3セット,1981の3セットをスキャン
・フルで取ると1971は32本,1981は43本。これまで31~32本で取っているので,1981はテキスト化の作品を絞る。
・現時点のデータの構造(3文芸誌,太字はテキスト化済)1961/1971/1981/1991/(未2001)/(未2011)/2021
・英語化について再検討:Deep L翻訳は訳せるところはこなれた良い翻訳になるが,一方で,同じ原文に対して表現の異なる訳が複数列挙されていたり(訳文a,訳文b,訳文cなどが並ぶ),原文の訳し飛ばしが非常に多い
・人手翻訳が理想だが,editageに翻訳させると5000字で65,000円(13円/字)。1年あたり30本として200万弱(3年600万)なので,これは予算的に不可。
・Deep L翻訳とGoogle翻訳(訳は不自然だが飛ばしはしない)を両方使う? NICTの「みんなの翻訳」に登録。テストデータで出力実験。
7/7
・サンプルデータのエクセル台帳への登録作業を実施
・1981年データ(B16/ G12/ S15=43件)より12本を削除(コードは元表記)→31本
(a) 1981年内で重複している作家について一方を削除(4本)
81-G-02(中里恒子)
81-G-04(芝木好子)
81-S-10(中上健次)
81-B-04(水上勉)
(b) 他の年代と重複している作家(18本)のうち全体が3件以上になる作家を削除(5本)
81-S-01(遠藤周作)
81-S-08(田久保英夫)
81-S-11(円地文子)
81-G-12(小島信夫)
→以上を除去した場合,B=15,G=8, S=11となり,Bが多い。
(c)他の年代(1回)と重複している作家のうち,Bの掲載分を削除(3本)
81-B-01(庄野潤三)
81-B-02(阿川弘之)
81-B-03(芝木好子)
→以上を除去した場合,B=12,G=8, S=11,全体30となる。
※削除対象12本リスト
81-B-01(庄野潤三) 02(阿川弘之) 03(芝木好子) 04(水上勉)
81-G-02(中里恒子) 04(芝木好子) 05(大原富江) 12(小島信夫)
81-S-01(遠藤周作) 08(田久保英夫)10(中上健次) 11(円地文子)
→これらを除いて,連番を振り直し
→元コピーから12本を抜いてスキャンを取り直し
7/7
・1971/1981データの書き起こしを発注(作業1か月程度)
7/8
・2021の日本語データの英語化作業
・データの不足する3本のうち,連載の2本は継続号から補充することに(※来週の月曜に図書館で作業予定)
21-G-03 【4473/ 4294字】こんにちは赤ちゃん →ママ(最終的にボツ化も検討)
21-G-07 【3653/ 3617字】硝子万華鏡(第4回)→2月号から約1400字補填
21-S-11 【4941/ 4852字】漂流(連載19)→2月号から60語程度補填
・CLOB/ CROWNについての情報の整理(※現在DLサイトが停止中)
7/9
・2000年以降のデータを含めるようになったことと,翻訳システムを二重化する(DL+Google)可能性が出てきたことを前提に,ファイルネームのルールを修正。一括変換。
旧:EJ-61-US-01 (オリジナル英語,日本語訳,1961年,米国,通番01)
新:E-JDL-1961-US-01 (オリジナル英語,DL(Deep Learning)による日本語訳,1961年,米国,通番01)
・Google翻訳でUKデータの日本語訳作業を行ったが17本で受け付けられなくなる・
・NICTの「みんなで翻訳」(汎用エンジン)に切り替えて訳文の作成
個々のテキストごとに反訳の再現率が出る(70%程度のものが多い)
【英語原文(1961-UK-01冒頭)】
'Are you sure you're quite fit? It's terrible weather. ' He turned round to face his colleague. For some esoteric reason Fairbanks always completed the buttoning of his flies in the main area of the lavatory. 'Good morning, Harold, ' he said. 'I'm pretty chipper, thanks, considering. '
【みんなの翻訳】
「あなたは本当にぴったりですか。ひどい天気ですね。」彼は振り向いて同僚に向かった。
いくつかの難解な理由で、フェアバンクス駅はいつもトイレのメインエリアでハエのボタンを留めていた。「おはよう、ハロルド。」と彼は言った。「ありがとう、考えてみると、私はとても頭がいいんだよ。」
【DeepL翻訳】
「本当に体力があるのか? ひどい天気だよ」。 と言って、同僚の方を振り向いた。何か難解な理由があって、フェアバンクスはいつも便所のメインエリアでズボンのボタン付けを済ませるのだ。 おはようございます、ハロルド」と彼は言った。 私はとても元気だよ、ありがとう。
★コロケーションなどはある程度取れており検索補助としては実用レベルか?
【日本語原文(2021-BG-01冒頭】
今日はおれの誕生日だった、おれは十七歳になった、セヴンティーンだ。家族のものは父も母も兄も皆な、おれの誕生日に気がつかないか、気がつかないふりをしていた。それで、おれも黙っていた。夕暮に、自衛隊の病院で看護婦をしている姉が帰ってきて、風呂場で石鹸を体じゅうにぬりたくっているおれに、《十七歳ね、自分の肉をつかんで見たくない?》といいにきた。
【みんなの翻訳】
Today was my birthday, and I was seventeen years old, Seventeen. All the family members, father, mother and brother, either did not notice my birthday or pretended not to notice it. So I kept silent. At the end of the evening, my sister, who is a nurse at a Self-Defense Forces hospital, came back to me, and I was rubbing soap all over my body in the bathroom. Seventeen years old, don't you want to grab your flesh and see it?
【DeepL翻訳】
Today was my birthday, I turned seventeen, I'm a seventeen year old. Everyone in my family, my father, mother, and brother, either didn't know it was my birthday or pretended not to. So I kept quiet about it. At dusk, my sister, who worked as a nurse at a Self-Defense Forces hospital, came home and asked me, "You're seventeen, don't you want to grab your own flesh and see what it looks like?
統合検索例(英語:Original+MN英訳=209本における"young woman")
冒頭コードがEのものは英語原作,Jのものは日本語原作
7/10
・1961/91/2021の日本語小説形態素解析済データを1ファイルに統合。30万行のエクセルファイルとなった。
・この形になっていれば,経年変化,語種分析など,対応性広く有益。この後,作品コードに加え,著者名,生年,性別情報などを追加。
・基本指標について60年間の増減を調査
・接続詞は減る,句点も読点も減る,漢語は1割,外来語は2倍増える!
7/12
・図書館で下記の2点について2月号の次号連載冒頭を補充入力
21-G-07 【3653/ 3617字】硝子万華鏡(第4回)→2月号から約1400字補填
21-S-11 【4941/ 4852字】漂流(連載19)→2月号から60語程度補填
7/13
・2011年の雑誌が図書館にないように思えたので,レファレンスに照会を出す
...............................................................................................................
石川です。科研プロジェクトの関係で,文芸誌の「群像」「新潮」「文学界」の3種について,2011年1月号および2月号をお借りしたく存じます。ただ,現在,貴館においては,これらの雑誌は「最新1年分:開架室3F-雑誌コーナー / 過去2年分:倉庫に保管(カウンターでお尋ねください) /1950-2005は書庫雑誌」という記載がなされていますが,2011年1~2月分は,過去2年分ではなく,かつ,2005年以降なのですが,これらは所蔵されていないということでしょうか?あるいは借りだし可能でしょうか?
...................................................................................................................
7/14
・所蔵なし,との返答(なぜなのだろう。1960年代(以前)から継続収蔵してきたものがこの10年で突然途切れたというのは大学図書館として考えられない…)。amazonの古本で即時に発注。
・1971年版納品
7/15
・大学で1971年版の現物との照合作業。今回はページ境界などが黒くなっている個所はなく,★,■記号は確認されず。
7/16
・1971版は32あるため1つ削る。
・同年で2つ入っているのは吉行淳之介と小島信夫
・他年を加えた合計でもともに61/71/71の3本
・どちらかを落とす根拠がないので50音順で小島の1つを落とす(長短編バランスから連載のほうを残す)
71-B-02 観客
71-G-08 別れる理由(その28)(「町」第37回)
・上記に伴い71のBGの連番の修正実施
・1971年版のDeepL英訳作成作業完了
・同上のみんなで翻訳英訳作成作業完了
・同上web茶豆での形態素解析,形態素台帳転記作業終了
・増補分のデータの差し替え
21-G-07 【3653/ 3617字】硝子万華鏡(第4回)→2月号から約1400字補填
21-S-11 【4941/ 4852字】漂流(連載19)→2月号から60語程度補填
・DeepL訳,みんな訳,web茶豆,の3点セット処理。形態素台帳の旧データを削除して新データで差し替え。全体をソートしてsequence numberを割り付け。
7/17
・作品台帳の欠損データ(開始ページ数)を補填,連載にコードを付与,連載の連番表記を統一
7/22
・1981年版が納品。即日支払い処理完了。
・1981年版について2種の英訳を作成。
7/23
・1981年版について形態素データを作成。
7/24
・英語コーパス学会の口頭発表に申込。____________________________________________________________
「1961-2021日本語小説コーパス」の構築:日英小説対照研究の新しい可能性
"1961-2021 Japanese Fiction Corpus" : For a New Comparative Study of Japanese/ English Fictions
構築中の「1961-2021日本語小説コーパス」について報告する。これはBrown Corpusの標本抽出年である1961年を起点として,2021年まで,10年ごとの間隔で3大文芸誌(「新潮」「文学界」「群像」)に掲載された日本語の小説とその英訳(機械翻訳2種)を収集するものである。本コーパスは,60年間にわたる日本語の表記・表現・文体の変化の研究に活用できる。また,付随する英訳データをBrown/ LOB(1961年),Frown/
FLOB(1991年),Crown/ CLOB(2009年)等に収集されている小説データと対照させることで,時代要因を統制した上で,日本語小説と英米小説に出現するイメージ・比喩・マインドスケープの比較研究も可能になる。発表では本コーパスの開発理念と手順,また,収集済みのデータから明らかになった知見の一部を報告する。
(参考文献)
Leech, G., & Short, M. (2007) Style in Fiction (2nd Ed.). Routledge.
日本文体論学会(編)(1991)『文体論の世界』三省堂.
中村明(2016)『日本語文体論』岩波書店.
__________________________________________________________
7/27
・2001納品。英訳2種,形態素データを作成。
・作業後,SN-04~08に★が残っていることを確認→木曜に研究室で現物確認する。
7/29
・研究室で現物からページ中央のカゲの部分を追加入力(SN-04~08)
7/31
・追加した5本について,英訳2種作り直し,形態素とりなおし,形態素台帳のデータ差し替え。
(6月)
6/2 群像1961/1991,文学界1961/1991 以上4セットの書き起こしを発注
・DeepLなどで英日相互翻訳データをつくり,4元検索を可能にするシステム設計の可能性を検討
6/14 上記4セット納品。研究室で現物と照合し,ページ境界の文字つぶれ箇所を手作業で入力追加。
・Antconcで検索し,書き起こし作業者による★(複数文字が読めない),■(1文字が読めない)の箇所を悉皆的に調査し,該当部を原文と照合して手作業で追加。
・収集作家の氏名読み,生年・没年調査(2021/6現在収録予定作家)
姓 名 著者名かな 生 没
阿部 公房 あべ こうぼう 1924 1993
阿部 知二 あべ ともじ 1903 1973
池澤 夏樹 いけざわ なつき 1945 alive
石原 慎太郎 いしはら しんたろう 1932 alive
井上 光晴 いのうえ みつはる 1926 1992
上林 暁 かんばやし あかつき 1902 1980
梅崎 春生 うめざき はるお 1915 1965
円地 文子 えんち ふみこ 1905 1986
遠藤 周作 えんどう しゅうさく 1923 1996
遠藤 周作 えんどう しゅうさく 1923 1996
大江 健三郎 おおえ けんざぶろう 1935 alive
大江 健三郎 おおえ けんざぶろう 1935 alive
大岡 昇平 おおおか しょうへい 1909 1988
大原 富枝 おおはら とみえ 1912 2000
小川 国夫 おがわ くにお 1927 2008
小川 国夫 おがわ くにお 1927 2008
北 杜夫 きた もりお 1927 2011
北村 鱒夫 きたむら ますお ★調査中
金 石範 きん せきはん 1925 alive
倉橋 由美子 くらはし 1935 2005
黒井 千次 くろい せんじ 1932 alive
小島 信夫 こじま のぶお 1915 2006
小林 恭二 こばやし きょうじ 1957 alive
米谷 ふみ子 こめたに ふみこ 1930 alive
佐藤 春夫 さとう はるお 1892 1964
澤野 久雄 さわの ひさお 1912 1992
椎名 麟三 しいな りんぞう 1911 1973
芝木 好子 しばき よしこ 1914 1991
柴田 翔 しばた しょう 1935 alive
庄野 潤三 しょうの じゅんぞう 1921 2009
瀬戸内 寂聴 せとうち じゃくちょう 1922 alive
外村 繁 とのむら しげる 1902 1961
曽野 綾子 その あやこ 1931 alive
田久保 英夫 たくぼ ひでお 1928 2001
武田 泰淳 たけだ たいじゅん 1912 1976
武田 繁太郎 たけだ しげたろう 1919 1986
辻 邦夫 つじ くにお 1925 1999
辻 邦夫 つじ くにお 1925 1999
辻 邦夫 つじ くにお 1925 1999
津島 祐子 つしま ゆうこ 1947 2016
坪田 譲二 つぼた じょうじ 1890 1982
中上 健次 なかがみ けんじ 1946 1992
中野 幸次 なかの こうじ 1925 2004
中山 義秀 なかやま ぎしゅう 1900 1969
丹羽 文雄 にわ ふみお 1904 2005
丹羽 文雄 にわ ふみお 1904 2005
野間 宏 のま ひろし 1915 1991
林 京子 はやし きょうこ 1930 2017
原田 康子 はらだ やすこ 1928 2009
日野 啓三 ひの けいぞう 1929 2002
平林 たい子 ひらばやし たいこ 1905 1972
古井 由吉 ふるい よしきち 1937 2020
マキナニー ジェイ まきなにー じぇい 1955 alive
増田 みず子 ますだ みずこ 1948 alive
増田 みず子 ますだ みずこ 1948 alive
三浦 哲郎 みうら てつお 1931 2010
宮本 徳蔵 みやもと とくぞう 1930 2011
村田 喜代子 むらた きよこ 1945 alive
室生 犀星 むろう さいせい 1889 1962
森 栞莉 もり まり 1903 1987
安岡 正太郎 やすおか しょうたろう 1920 2013
吉村 昭 よしむら あきら 1927 2006
吉行 淳之介 よしゆき じゅんのすけ 1924 1994
・扱い検討
A 同一人物が2回,3回エントリーしている例がある
B 米国作家の翻訳は1例含まれる
6/15
・DeepL proに登録
・全データをDeepLで英訳(目視確認の結果,同じ語がその都度違う英語に訳されていたり,同じ訳文が続けて2度表示されるなど問題もあったが,内容要約程度の目的であれば実用レベルと判断)
・英語コーパスの整形
作業メモ
(1) BROWN, FROB, FROWN, FLOBのK(小説・一般)を1シートに展開し,Left関数8文字で行コードを別セルに転記。
(2) その後,=RIGHT(A1,LEN(A1)-8)式でコードを削除したセルを作成(上記の青)
(3) その後,コーパスごとの独自記号などを調査して可能な範囲で削除
==================================
LOB |^* |^ ^ *' **' *0 **[399 TEXT K25**] *<*4Maiden Offering*>
→削除処理
|(1756)
^(4058)
*系(取るとセルごと消えるのでママ)
FROWN/FLOB 各種開きタグ・閉じタグ・<#FROWN:K05\> ほか
→削除処理
<p_> (2707) <p/> (2679)
<quote_> (1937) <quote/> (1920) <quote |>(約400?)
<tf|> (173) <tf_> (79) <tf/> (77)
<h|> (20)
<?_> (89) <?/> (89)
==================================
(4)既知の問題 LOBの*0In thisなどが取り切れていない,各種タグ残り,途中改行ほか
6/16
・4コーパスのデータクリーニング継続
・センテンス途中の改行を削除(\n→φ)
・誤植修正タグについては修正後のみを残す
・単語の頭・途中に入りこんだ数字を除去
・そのほか[QUOTE][INDENT]<foreign>などのタグ,アクサンなどを示すコードなどを目視で確認して削除
・そのほか目視で見つかった文字化け,wonユt ('t),.モ (文末標識?)を修正
・作業後,DeepLで邦文訳を制作
6/17
・邦文制作作業終了(29*4=116本)
6/18
・仮称 EJ-PARAFIC (English-Japanese Parallel Fiction Corpus)
・分析例
日本語作品・英語作品を区別せず,比喩「山のように」を抽出
日本語作品・英語作品を区別せず,比喩導出表現 as if~を抽出
ファイルコーディングルール(暫定)
EJ-61-UK-01 英語原作の日本語訳。1961年刊行,英国,LOBコーパスコード01番
EE-91-US-10 英語原作の英語原文。1991年刊行,米国,FROWNコーパスコード10番
JE-61-SN-01 日本語原作の英語訳。1961年刊行の新潮の作品コード01番
課題の整理
※年代別で,英語原作29×2(英・米)=58本 > 日本語原作は現状31~32本(下記)
日本側を約2倍にするにはどうするか?
対応1) 新日本を加える?(来週,データ調査予定)
対応2) 3雑誌からのデータ収集ポイントを各年2つにする?(1月+6月)
※対応2のほうが,データとしての性質を維持しやすい。対応2の場合,61/91に続く2021データを加えれば,90年間スパンでの観察が可能に。(英語の2021は自作が必要)
・web茶まめでタグ付けを試みるが処理不可のものや,処理してもデータがからのものが出る
・3種のうち,本日現在amazonで購入可能な雑誌(群像1月,新潮1月,文学界1月/文学界6月)をとりあえず購入(群像と新潮の6月号は次回購入)
6/19
・web茶まめのトラブル理由を整理
(a)「数字処理」オプションを入れるとこけるものがある→オプションはずす
(b) テキスト中に<のタグがあるとその前で処理が中断→< >を悉皆的に元デーデータから削除
・以上の下準備を行って,179本を順次処理(完了)
タグ付けデータの頻度解析(各列区別せずcsvで全部読みこんだ場合)
・語彙分析に使用するには,表記形列,形態素列,品詞(大区分・中区分等)別のファイルの作成が必要。
★7/9 またこける→「ファイルから解析」(※「解析してみる」でなく)
6/20
・分量について再考。英語で58本と考えず,英国29,米国29,日本31~32と考えると今のままのほうが整合性が高い(英語vs日本語なのか,英国・米国・日本と見るべきか。言語研究だけでなくマインドスケープと掲げるなら英米は区別すべきかもしれない)。その場合はここはこのままで置いておき,日本の2021作業を先行させるべきか。
・専門家に現在の英米の文芸誌の紹介を依頼。
6/21
・2021/1のデータをコピー
6/22
・上記をスキャン。整形し,発注へ。
・プロジェクトの今後の方向性の拡張についての6/22時点でのメモ
(1) 「言語から見た日米マインドスケープ比較」
→新タイトル「言語から見た日・英・米のマインドスケープ比較」
(2) サンプリングポイント:1961/1991 only
→新枠組み 1961/1991/2021(30年間隔3点) ※2021の英米は別途収集
→余力あれば1961/71/81/91/01/11/21(10年間隔7点)
(3) 日本語原作と英語原作の比較
→機械翻訳による対訳データを用いたパラレル比較
6/28
・図書館で1971年刊行雑誌を借りだし。
文学界:コピー完了
群像:1月号なし→文学部から取り寄せ依頼。
新潮:1月号なし→文学部にもなし→1971年の2月号は三島由紀夫特集のため,3月号からデータ収集。(コピー完了)
6/29
・2021データの打ち込みが納品(※3本が5000字に不足,対応検討)
21-G-03.txt(4,473字)
21-G-07.txt(3,653字)
21-S-11.txt(4,941字)
(5月)
5/4 データ入力作業の外注にかかる謝金の調査
5/6 2020年度の科研報告
・大学図書館で1961/1991刊行の書籍(「文学」)リストを作成
・「文学」でフィルタしても,いわゆる小説はほとんど存在しない
・文芸雑誌の所蔵状況を調査(すばるは1970年より,群像はさらに古いものも)
・文芸雑誌を母集団にする方向を検討
5/10 日本の主な文芸誌(創刊年はWikipediaによる)
新潮(1904年創刊)
文學界 (1933年創刊)
群像 (1946年創刊)
文藝 (1933年創刊、季刊誌)
・Brown Corpusの元データの1961年以降刊行の「すばる」ははずす
・群像,文学界,新潮の3誌を中心に(神戸大に所蔵確認,国際文化)
・バラエティを増すため「オール読物」を検討したが所蔵なし。
・必要字数調査
翻訳会社time and space
日本語で400字の原稿を英語に翻訳すると、何ワードになるかといいますと、だいたい、200から210ワード
https://timeandspace.jp/blog/
★英語2,000語=日本語4,000字
翻訳会社e-jesco
日本語とヨーロッパ言語の場合、日本語400字が欧文1000文字(英語の場合、約200ワード)に相当http://www.e-jesco.jp/kakaku.html#
★英語2,000語=日本語4,000字
翻訳会社excellet
日本語で400文字の原稿を英語に翻訳すると何単語になるかといいますと、
だいたい、200から250単語になります
https://www.excellet.co.jp/blog/2017/302/
★英語2,000語=日本語4,000字
斉藤純一氏
日本語で400字の原稿を英語に翻訳すると、何語になるかといいますと、だいたい、220語から225語になります。
https://officesait.exblog.jp/1386703/
★英語2,000語=日本語3,600字
順番学研究所(各種統計調査結果をリポート)
http://jimclear.cocolog-nifty.com/blog/2011/12/16-799f.html
(国連文書の英語版と日本語版の比較から)1ワードはだいたい2.6文字に換算できる
★英文2,000語=日本語5,200字
★全体を通してみると,英語2,000語=日本語4~5,000字あたりが妥当
5/10
・大学図書館でレファレンスに大衆誌の購入方法などを相談
・新潮・文学界・群像の3雑について,書庫より1961/1991の1月号を借りだし
・うち新潮の1961/1と1991/1についてコピー&スキャン&OCR(※ページの真ん中が黒くなっており,対応を検討)
・文藝家協会に著作権処理について照会(コーパス化・公開は可能)
・Brown の小説全部とcompatibleにすると128本必要だが,SFやユーモアなどは文芸誌にはほぼない。BrownのGeneral Fictionに限れば28本。
・文芸誌1冊から約10本取れる(評論やノンフィクションは除く)。雑誌3種とすれば30冊,数のうえで28はクリアできる。
字数推定調査(新潮1961/1号。ページにより組が違うがおよそ1p=1500字?)
旧かなや旧漢字が多いことにいまさらながら驚く。1961ってつい最近だと思っていたが。
作品別に冒頭10p程度をコピー(するが真ん中がどうしても複写できない)
ともかくもスキャンにかける(※コップがBrown大学グッズであるのがポイント)
5/12 発注
・新潮1961/1991を外部業者(熊本,Plain社)に入力委託(ページの真ん中は飛ばす指示で。各5000字。OCRを使わず手打ちをしていただく。旧かななどは新かな変換を依頼)
5/17
・上記あがり(※会計登録不可のため,建て替えで支払い)
5/24
・新潮のページの境界の入力漏れの箇所を研究室で現物確認して補填
・群像の1961/1991をコピー
5/31
・群像の1991をスキャン
・群像1961にはコピーミスが確認されたので研究室で再度コピーのやり直し
・神戸大図書館書庫で1961/1991の両方を含む文芸雑誌の蔵書を網羅的に探し,「
新日本文学」(1945~2004終刊)を見つけ,データに加える(※1961は縮刷版になっていてコピーしやすい)
・研究室で群像1961のコピー不足分,および,文学界の1961/1991をコピー
~2020年度~
(1~3月)
3/30
・2020年度の会計執行状況の確認(※コロナ影響で支出が予定通りできなかった)
2/15
・コーパス文体論の先行研究の調査
12/20
・コーパス文体論の書籍調査
(10月)
10/5
・Brown Corpusの小説部門の構成確認 (
Manual)
・小説はジャンル別に収集されているが,「一般小説」などは具体的な内容が不明
・Brown のreplicationの前提として,作品情報リストを作る
・Generalセクションの作品リスト情報を入手,~01まで
10/6
・~03まで追加
10/15
・~15まで追加
(8~9月)
・内定にかかるオンライン手続きなど
...............................................................................................
Brown Corpus小説セクション(General Fiction)収録作品概要調査
・Amazonなどへのリンクを探す
・あらすじなどの情報を探して記載。作品のおおよその概要をつかむ。
K. General Fiction
Novels 20 Short Stories 9 Total 29/ 126(※約1/4がGeneral)
[Davis] questions the ingenuousness (無邪気さ)of those who believe that white and colored children can go to school together, enter one another's homes and then be barred from one another's hearts.(米国市民権運動の時代の黒人と白人の交友。悲劇へ)
"The Ikon" is a novel based upon the author's combat experiences in the Korean War(悲惨な朝鮮戦争での従軍経験). First published in l961 and reissued in conjunction with the unveiling of the monument to those 52,249 Americans killed, 103,284 Americans wounded, and the 8177 still missing in action in the Korean War.
詳細不明。表紙にはホワイトハウスのイラスト。副題にA Novel of the Presidency。政治ものか?
Google Booksからの情報
多く使われている語句
accused administration American Appeal Asia Atlantic atomic attack August Barnes believed bomb British called Chamberlin Chicago Tribune China claimed Cold commented commitments Committee Communism Communist Congress Congressman conservative continued critics debate December defense denied Dennis economic editorial efforts Eisenhower endorsed Europe European example feared February Flynn Follette forces Foreign Policy Germany Henry History Hoover House Human Events involved isolationism issue Italy January John Johnson July June Korea Langer leaders Libby liberal MacArthur major March Marshall McCarthy Michigan military Morley Morton Nationalist needed Neumann noted November October old isolationists opposed Papers Party Peace Pearl Harbor Plan pointed political President Presidential Press Progressive proposals Regnery remained Republican Robert Roosevelt Russia Senator September Smith soon Soviet speech stressed strong Taft Thomas Truman United University Vandenberg veteran isolationists Villard voted warned Washington Wood World York (政治もの)
Du Bois(社会学者,黒人解放活動家) called his epic Black Flame trilogy (3巻本シリーズ)a fiction of interpretation. It acts as a representative biography of African American history by following one man, Manuel Mansart, from his birth in 1876 until his death.(1人の黒人の生涯を追うことで黒人の歴史を語る) ... The last book in this profound trilogy, Worlds of Color(3巻本の最終巻), opens when Mansart is sixty and a successful and established college president. ... Worlds of Color delves into a more sinister, bleak, and doubtful future(冷たく冷笑的な未来を描く).
The Judges of the Secret Court, first published in 1961, is a historical novel about John Wilkes Booth (リンカーン暗殺者)and the aftermath of the assassination of President Abraham Lincoln in 1865. The book vividly portrays the setting and sentiments of the time, as well as Wilkes’ befuddled thinking (酩酊した思考)and his short-lived escape from justice, followed by the trial of those involved in the assassination.(伝記もの)
詳細不詳だが,副題としてA novel based on the life of Stephen Crane。Craneは『赤い武功章』"The Red Badge of Courage"で知られる米国の早世の作家。
・K07
Francis Pollini
Night詳細不詳。Amazonの裏表紙画像より(画像出典:https://www.amazon.co.jp/Night-Francis-Pollini/dp/0450003396)
bitter and bloodyな朝鮮戦争,2名の米国兵士と1名の狂気の中国人査問者。中国に捕虜にされた米軍のひどい欠陥。GI捕虜に対する中国人の残虐さを描いた本。
詳細不詳。下記Wikipediaの作家紹介ページより。
After his work as a screenwriter Endore published several other Freudian-tinged mysteries (Methinks the Lady..., Detour at Night) and also returned to his love of French history for biographical novels on Voltaire (Voltaire! Voltaire! [1961]), the Marquis de Sade (Satan's Saint [1965]) and Rousseau.(※フランスの歴史に基づくVoltaireの伝記小説)
The story of one day in the life of a young American boy in colonial Lexington, the day on which he joined the militia and saw his father shot down by the British.(マサチューセッツのレキシントン(※独立戦争の戦闘地)のアメリカの少年。民兵組織に加入。父親が英軍に射殺される)(歴史もの?)
Historical Novel Of The Life Of John Calvin(宗教改革で有名なカルバン派牧師のカルバン), One Of The Greatest Spiritual Leaders The World Has Known. The Book Takes Us From The Year 1521, When Calvin Was Twelve, To 1555, The Year His Protestant Authority Became Absolute.(歴史伝記)
副題 A Tale Of The Civil War
In the summer of 1863, Adam Rosenzweig leaves a Bavarian ghetto and sails for the United States to fight for the North in the Civil War(南北戦争). Fired by a revolutionary idealism inherited from his father, he hopes to aid a cause that he believes to be as simple as he knows it to be just. Over the course of his journey, Adam becomes witness to a world whose complexity does not readily conform to his ideals of liberty(理想と現実のズレ). When his twisted foot attracts unwanted attention on his voyage to America, he is threatened with return to Europe. He jumps ship in New York, only to be caught up in the violence and horror of the anti-draft riots. Eventually he reaches the Union Army, serving not as a soldier but as a civilian provisioner’s assistant. Adam’s encounters with others—among them a wealthy benefactor, a former slave, an exiled Southerner, a bushwacker and his wife—further challenge the absolutism that informs his view of the world and of his place in it.(南北戦争,歴史もの)
A novel with a purpose, this- that purpose to expose ""the heartless light"" of publicity at any price, even the life of a child. Here is a close-up, play by play, of what happens when a kidnapping case becomes public property.(子供が誘拐された家族に向ける残忍な好奇心の目?)
It is 1948 and a young American couple arrive in France for a holiday, full of anticipation and enthusiasm. But the countryside and people are war-battered, and their reception at the Chateau Beaumesnil is not all the open-hearted Americans could wish for.(1948,米国の夫婦がフランス旅行。期待していたが戦争の傷跡。欧州を開放した米国からの客がなぜ歓迎されないのか?)
Irving Stone's powerful and passionate biographical novel of Michelangelo(ミケランジェロの伝記). His time: the turbulent Renaissance, the years of poisoning princes, warring popes, the all-powerful Medici family, the fanatic monk Savonarola.
(読者レビューより by Patriot)
This is a terrific book. It takes place in the early 1960s but flashes back to the Civil War (米国南北戦争)in a nice blending of past and present. If you're at all familiar with the Parkersburg, WV area, you're in for a real treat. If not, it is still an excellent read.