このブログを検索

2024/03/04

2024.3.4 (研究メモ)NiniのMAT(Multidimensional Analysis Tagger)プログラムにおけるTTRの設定について

サンプルファイル

ICNALE_WE_CHN_PTJ0_001_B1_1 


1)Antconcでの語数確認

調整なしTTR=134/272=49.2%


2) MATでTTR基準272でやってみる

ぴったり272で処理


3) MATのカウント結果

トークン語数はおそらく句読点などの処理の関係で10語減っているが、
TTRは137のまま。
☛ MATのTTRは比率値ではなく、実際にはタイプ数

4) MATでTTR基準を思い切って10にしてみる(この場合、最初の10語だけを数えるのか?)

TTRは10となった。

ちなみに該当10語はこちら。Now many parents and teachers disagree that college students have。重複はないのでトークンもタイプも10。


5) MATでTTR基準を実際の272語より長い400語にしてみる。

137のまま。


結論
1)TTRは誤解のあるかきかたで、「別途指定したサンプル長におけるタイプ数」というのが正しい

2)MATが聞いている「TTR指定」というのは、タイプ(異なり語数)を数えるための、テキスト冒頭からの分析対象長の指定、と理解したほうがよい。

3)たとえば、100語、1000語、1万語のテキストを同時分析する場合であれば、最小の100語にそろえておくのが正解。もし1万語に設定すると、100語や1000語ファイルは基本条件で圧倒的に不利になってしまう。しかも基準値は出力のエクセルに記録されないので、分析者もチェックの手段がなくなる。ただし、100語に設定した場合、たとえば500人の作文をマージした群データなどを見ているのであれば、冒頭の1人目の作文(の一部)しか見ていないことになる。