このブログを検索

2023/03/03

2023.3.3 国立国語研究所「日常会話コーパス」シンポジウムVIIIで発表

表記で発表いたしました。


 

1300-1345 ポスター発表A3
発表題目:「語彙頻度に基づく学年推定モデリング:小中高大生作文コーパスJASWRICを用いた検討」



発表では、2022/8に初版をリリースしたJASWRICの形態素解析修正作業について報告し、2023/3にリリースしたv1.1の紹介を行いました。また、v1.1を用い、助詞・名詞・動詞の各々をサンプルとして学年を推定する重回帰分析の結果について報告しました。出席くださった方から、推定が目的であれば品詞を分ける必要はないのでは、という指摘があり、なるほどと思った次第です。

作業メモ
13学年をマージして13ファイルをケースにすると、変数は12までしか取れない。ステップワイズに投入する変数の数を増やすには(たとえば50とか100)、ケースをより細かく分ける必要がある。個人ファイルにすれば700ケースまで増やせるが、そうすると頻度0が続出することになり、このあたり、少し手法の工夫が必要。。。