サンプルファイル
ICNALE_WE_CHN_PTJ0_001_B1_1
1)Antconcでの語数確認
調整なしTTR=134/272=49.2%
ぴったり272で処理
トークン語数はおそらく句読点などの処理の関係で10語減っているが、
TTRは137のまま。
☛ MATのTTRは比率値ではなく、実際にはタイプ数
4) MATでTTR基準を思い切って10にしてみる(この場合、最初の10語だけを数えるのか?)
TTRは10となった。
ちなみに該当10語はこちら。Now many parents and teachers disagree that college students have。重複はないのでトークンもタイプも10。
5) MATでTTR基準を実際の272語より長い400語にしてみる。
137のまま。
結論
1)TTRは誤解のあるかきかたで、「別途指定したサンプル長におけるタイプ数」というのが正しい
2)MATが聞いている「TTR指定」というのは、タイプ(異なり語数)を数えるための、テキスト冒頭からの分析対象長の指定、と理解したほうがよい。
3)たとえば、100語、1000語、1万語のテキストを同時分析する場合であれば、最小の100語にそろえておくのが正解。もし1万語に設定すると、100語や1000語ファイルは基本条件で圧倒的に不利になってしまう。しかも基準値は出力のエクセルに記録されないので、分析者もチェックの手段がなくなる。ただし、100語に設定した場合、たとえば500人の作文をマージした群データなどを見ているのであれば、冒頭の1人目の作文(の一部)しか見ていないことになる。