尾崎幸謙(Koken Ozaki)
博士論文

博士学位論文

「Item Difficulty Parameter Estimation in Item Response Theory Prior to the Administration of the Test 」

IRT(Item Response Theory; Lord & Novick, 1968)によるテスト運用では,等化を経て項目母数が共通尺度上で表現された項目群の集まりである,項目プールを拡充する必要がある.実際のテストは,項目プール内から目的にあわせて項目を選択する.項目プール内の項目母数は共通尺度上で表現されているために,それらの項目に対する回答結果から,テストの版によらない,受験者の統一された特性値を推定することが可能となる.また,推定値は,偏差値のように,受験者の特性値の分布にも依存することもない.

項目プール内の項目は数回出題されると,プールから除外されるので,新たな項目を追加して,項目プールを拡充する必要がある.そこで,IRTによるテスト運用では,実際のテストに,項目母数推定および等化のための項目を含めておくという方法が広く用いられている.しかし,その方法では,受験者の評価に用いる前に,項目内容が受験者に漏洩する危険が伴う.また,項目プール内の項目を複数回出題するわけだから,ここでも漏洩の危険がある.この問題に対しては,テスト運用の面からの対策と,数理的な解決策が考えられている.

テスト運用の面からの対策としては,出題されるテスト項目の予測可能性を低くするために,出題のタイミングをランダムにしたり,各項目は項目プールには例えば5年間しか存在しないようにする,あるいは問題冊子の持ち帰りを禁止するなどの配慮が実際になされている.しかし,受験者に扮してテスト内容を盗み覚える人間がいれば,項目内容が漏洩することは必至である.だから,できれば各項目は1回だけ出題されるという状況が望ましい.しかし,その際には,評価のために用いるならば,項目母数は求まっていなければならない.これまでのテスト運用では初回の出題は採点対象とはならず,項目母数推定のみのためであったから,各項目を1回だけ出題することは実現できない.

また,Bejar(1983)は,テスト項目の困難度と識別力の,4人の専門家による予測を試みている.この研究の背後には,テスト項目の漏洩を防ぐために,専門家の評定から項目の特性の予測が可能ならば非常に便利であろうという期待があった.しかし,結果は実用に耐えうるほどのものではなかった.Bejar(1983)の結果が芳しくない理由は,1項目に対する直接的な評定では,評定者の普段接している人の特性値レベルに評定が依存するからと考えられる.

数理的な解決法として,Toyoda(2001)ではFischer(1973)のLLTM(Linear Logistic Test Model)のように,項目困難度を下位の要素ごとに分解する方法を用いて,SEM(Structural Equation Modeling)の枠組みで,未知項目の困難度を推定している.例えば,算数の問題で,足し算と掛け算の知識が必要な項目と,足し算と割り算の知識の必要な項目の困難度が推定されれば,掛け算と割り算の知識が必要な未知項目の困難度が推定可能となる.Toyoda(2001)の方法は,未知項目の困難度をかなりの精度で推定している.しかし,この方法の欠点は,困難度が要素に分解可能な項目に対してしか適用できないことである.

Chapter 2からChapter 4では,これらとは別の解決法が提案されている.まずChapter 2では,Ozaki and Toyoda(2004a)で提案された方法を論じる.テスト項目の漏洩を防ぐために,Bejar(1983)のように当該分野を熟知した評定者を用いるが,Ozaki and Toyoda(2004a)では,評定者による項目対の難易度比較データから困難度母数の推定を行う方法が提案された.項目対比較を行うことで,評定結果が評定者の普段接している人の特性値レベルに依存しなくなると考えられる.等化の方法も提案されている.

Chapter 3では,Ozaki and Toyoda(2004b)で提案された方法を論じる.Ozaki and Toyoda(2004b)では,Ozaki and Toyoda(2004a)の方法にComputerized Adaptive Testing(CAT)の考え方が応用され,少ない項目対比較で十分な精度を持った困難度母数が推定可能となり,より実用的な方法に改良された.

さらにChapter 4では,CATの考え方に加えて,項目提示の仕方にも工夫が施された.Chapter 4では,困難度母数を推定したい項目を,項目プールから選ばれた複数の項目と比較する方法で項目提示を行う.1対1ではなく,1対多の比較である.このとき,項目プールから選ばれた複数の項目の困難度の順序を評定者に明らかにすることで,より正確な判断を下すための手がかりを提供することが重要な点である.

Chapter 2からChapter 4では,シミュレーション研究とともに,実データ研究の結果が示される.3つの章の実データ研究では,豊田(2002)の学力テストを一貫して用いた.学力テストの困難度母数は既に求まっており,実データ研究は,既に推定されている困難度母数がどの程度復元されるかを問題とした.その結果,Chapter 2, 3, 4の順で推定精度は高くなった.特にChapter 4の方法はかなりの精度で困難度母数が復元されることが示され,実用に耐えうる方法であることが示唆された.Chapter 5では,まとめと今後の課題が記されている.最後に文献が示され,式の証明が行われる.

    Bejar, I. I. (1983). Subject Matter Experts' Assessment of Item Statistics. Applied Psychological Measurement, 3, 303-310.
    Fischer, G. H. (1973). The linear logistic test model as an instrument in educational research. Acta Psychologica, 37, 359-374.
    Lord, F. M., & Novick, M. R. (1968). Statistical theories of mental test scores. Reading, Mass. : Addison-Wesley.
    Ozaki K., & Toyoda, H. (2004a). Paired Comparison IRT model by 3-value judgment : estimation of item parameters prior to the administration of the test. Paper presented at the 69th annual meeting of the Psychometric Society. Monterey CA.
    Ozaki K., & Toyoda, H. (2004b). Item Difficulty Parameter Estimation Using Paired Comparison and the Idea of Computerized Adaptive Testing. Paper presented at the 32nd annual meeting of the Behaviormetric Society of Japan. Aoyamagakuin University Japan.
    Toyoda, H. (2001). Parameter estimation for Rasch type items that have never been used. The Japanese Journal of Psychology. 73, 26-33. in Japanese.
    Toyoda, H. (2002). Introduction to Item Response Theory. Tokyo:Asakura-Shoten. in Japanese.
mailto: kouken(atmark)fuji.waseda.jp
Last update: 20011123