†TOP PAGE
†研究室紹介
†所蔵書籍
†その他
|
第55回教育心理学会シンポジウム
教育心理学研究に役立つ構造方程式モデリング
企画者:池原一哉 司会者:豊田秀樹
項目反応理論は,テストの作成や実施,分析や評価において非常に有効な理論であり,現在,ヨーロッパやアメリカ,オーストラリアをはじめ多くの国におけるテスト運用場面で利用されている。日本においても,語学試験や入社試験などで利用されるようになり,徐々に普及してきている。
教育心理学会では,2005年に「項目応答理論の基礎と応用」と題したチュートリアルが開催され,また,近年の『教育心理学研究』には,項目反応理論の理論的な研究だけでなく,実践・応用的な研究に関する論文が増えてきている。そこで,自主企画シンポジウムでは,項目反応理論の初歩的知識を有する人を対象に,実践・応用場面で利用できる手法・話題について分かりやすく紹介する。シンポジウムではあるが,チュートリアルに近い形式で発表を行い,理論の説明だけではなく,ソフトウェアの使い方,分析方法,結果の解釈の仕方など,実際のデータを用いることで適用のための解説を丁寧に行う。分析には,統計ソフトRを利用し,発表で利用したスクリプトおよびデータはホームページ上で配布する。
ラッシュモデル・多値ラッシュモデル
ラッシュモデルは,テストを構成する項目の特徴を一つの母数で表現するモデルであり,デンマークの数学者Raschにより考案された。IRTでは,横軸に潜在特性θを,縦軸に正答確率P_j (θ)を配した項目反応関数(item response function, IRF)により項目の特徴を捉える。正答確率P_j (θ)はθの関数で表され,識別力・困難度・当て推量といった項目母数によりIRFの形状が決められる。ラッシュモデルは,項目の困難度を表現する困難度母数のみによって規定され,IRFが交差しないという特徴がある。
ラッシュモデルは,2母数・3母数モデルよりも項目母数が少ないため,被験者が少なくても安定的に項目母数を推定できるという利点を有する。また,困難度母数と被験者母数を同一尺度上で評価でき,直感的に母数の解釈を行うことができる。さらに,被験者の合計得点を用いることで条件付き最尤推定法を利用することができ,条件付き尤度を利用したモデル適合の検討を行うことが可能である。
モデル適合を検討するための手法としては,テスト全体の適合を検討するAndersenのLR検定や項目ごとに適合を評価するWald検定,また,潜在特性の一次元性の仮定を検討するMartin-Lof検定が提案されている。また,モデルに適合していない項目および被験者を検出するために,残差を利用した指標も提案されている。さらに,不適合な項目や被験者を検出するために利用するPathway Mapや,困難度母数の位置と潜在特性の分布を同時にプロットしたPerson-Item Mapもモデル適合の検討に有用である。
2値型データに適用されるラッシュモデルを多値型へと拡張したモデルとして,部分採点モデルと評定尺度モデルがある。例えば,「はい(2)」「どちらでもない(1)」「いいえ(0)」という3カテゴリがあった場合に,部分採点モデルでは,「はい(2)」と「どちらでもない(1)」,「どちらでもない(1)」と「いいえ(0)」のように隣り合うカテゴリへの反応確率を利用してモデル化が行われる。評定尺度モデルは,部分採点モデルに制約を加えたモデルであり,両者ともラッシュモデルを拡張しているため,条件付き最尤推定法を利用して母数推定を行うことができる。
本発表では,パッケージeRmを利用し,ラッシュモデルの母数推定とモデル適合,および多値ラッシュモデルについて,適用例を示しながら説明を行う。
拡張ラッシュモデル
本発表では,ラッシュモデルの拡張モデルとして,線形ロジスティックテストモデル(linear logistic test model, LLTM),線形評定尺度モデル(linear rating scale model, LRSM),線形部分採点モデル(linear partial credit model, LPCM)を取り上げ,各モデルの説明と適用例を示す。
ラッシュモデルにおいては,各項目の困難度と当該項目に正答するために必要とされる受験者の特性値という二つの母数が仮定されている。ラッシュモデルを用いて項目を分析することで,困難度母数の値によって項目の難しさと,当該項目に五分五分の確率で正答するために必要な特性値を知ることが可能である。しかし,項目の中にはその全体的な難しさを,いくつかの要因に分解して捉えられることがある。このような項目の分析においては,全体的な困難度のみならず,想定される各下位要因がどの程度,全体的な項目困難度を規定しているのか,その重みをも知りたい場合がある。例えば,計算問題のように,受験者が項目を解く際にいくつかの認知的操作や規則が必要とされるような項目を分析する場合である。このとき,LLTMが有効である。LLTMは,困難度母数に分析者が想定した下位要因から成る線形的な構造を仮定し,項目の難しさを要因ごとに分解することにより,各要因の影響力の大きさを測ることを目的としたモデルである。LLTMを用いることで,各計算問題を解くために必要な下位要因から,項目の難しさを説明することが期待できる。
LRSMは多値型のラッシュモデルの一つである評定尺度モデルを一般化したモデルであると同時に,2値型モデルであるLLTMを多値型項目に対して拡張したモデルであるとも位置づけることができる。また,部分採点モデルを更に拡張したモデルとして,LPCMがある。LPCMもLRSMと同様に,LLTMの多値型への拡張モデルである。LPCMの利点として,一つのテスト内にカテゴリ数が異なる項目が含まれていても良いという点が挙げられる。以上,三つのモデルに関してパッケージeRmを用いて解説する。
特異項目機能
大規模な学力調査などでは,一つのテストで同一の能力を測定することを目的としているため,文化,民族,性別にかかわらず,測定は等質である必要がある。つまり,興味の対象となる被験者グループの正答確率が,所属するグループの違いによって異なるような性質は好ましいとはいえない。そして,ある項目に対する正答確率が,同一の特性値をもつにも関わらず,その被験者の所属する下位グループの違いによって明らかに異なる場合,それはDIF(特異項目機能)項目であるといわれる。IRTの文脈では,下位グループごとに項目母数を推定し,得られた推定値が大きく異なる項目がみられた場合,DIFが検出されたと判断される。
IRTを用いた実際のDIF検出の方法は,まず興味の対象となるグループを特定し,被験者をその下位グループに分割した後で,グループごとに項目母数を推定する。ただし,このとき各グループの特性値の分布は必ずしも等しくないため,一般的にはグループ間での比較を可能にするために項目母数の等化を行う。そして,同一尺度上にあるグループごとの項目母数とそれを用いて描かれるIRFに,統計的に有意な差があれば,DIFが検出されたといえる。検定については,グループ間の項目母数を用いて検定を行う方法と,各グループのIRFで挟まれた面積を用いて検定を行う方法の2通りに大別することができる。
本発表では,項目母数の等化について説明をした後,パッケージdifRを用いて,項目母数を比較する方法であるLordのカイ二乗検定,この方法を3つ以上のグループに拡張した一般化Lord検定について適用例を示しながら説明する。また,2つのグループのIRFによって挟まれた面積を用いて検定を行うRajuの方法,項目母数の比較をモデル比較の観点から行うLR検定についても簡単に説明する。
等化
IRTを利用してテストの運用を行う場合,同じ潜在特性を測定する異なるテストの結果を比較可能とすることができる。それを実現するための手続きは等化と呼ばれる。IRTに基づいた被験者母数の尺度には絶対的な基準があるわけではないので,同じ特性を測定する複数のテストを異なる受験者集団に実施した場合には,被験者母数の推定値を同じ尺度上で比較することは一般的にできない。また,被験者母数の尺度が変化するとそれに合わせて項目母数の値も変化してしまうため,異なるテストに含まれる項目の特徴を比較することもできない。これらの値の尺度を揃えることによって異なるテストの結果を比較できるようにすることが等化の目的であり,IRTを用いてテストの運用を行っていく上では等化は非常に重要な事柄である。
等化を行うことによって異なるテスト間の比較ができるようになると,例えば個人や集団に関する学力の継時的な変化を適切に把握することが可能となる。また,受験者の立場からは,その結果を参照することによって次の学習計画を立てやすくもなるだろう。
本発表では,IRTを利用して潜在特性を測定するということの基本的な考え方について簡単に説明するとともに,被験者母数や項目母数を変換することによるIRTモデルへの影響を確認し,それらの性質に基づいた種々の尺度の等化方法をいくつかのモデルのケースに分けて解説する。発表の中では,2値反応モデルと多値反応モデルに属する代表的なものを扱うことを予定している。また,等化を行うためのパッケージplinkの中から理論的な解説を行った等化手法を実行するための関数の使い方についても簡単に紹介する。
多次元IRT
IRTでは通常,単一の潜在特性,すなわち1次元のθを仮定しているが,現実場面では一つのテストで複数の潜在特性を測定することも考え得る。例えば,数学のテストでは,問題文を理解するための「文章読解能力」と,実際に問題を解くための「計算能力」の両方が必要だろう。このような場合には,多次元IRTモデルの適用が有効である。本発表では,項目特性曲面の図示や実データへの適用例を通して,2値および多値データを対象とした多次元IRTモデルをわかりやすく紹介する。なお,分析にはパッケージmirtを利用した。
まず,補償型と非補償型という二つの観点から,2値データのための多次元IRTモデルについて説明する。補償型モデルでは,複数次元のいずれかが高ければ問題に正答できるという仮定を置く。一方で,非補償型モデルの場合,ある問題に正答するためには想定される複数次元の特性すべてが必要であり,いずれか一つでも低い特性があると正答することが難しくなるという仮定を置いている。
これらのモデルはもちろん,正答・誤答の2値だけではなく,心理検査で扱われるような「はい」・「いいえ」,あるいは「あてはまる」・「あてはまらない」といった2値データにも適用可能である。例えば不安抑うつ尺度のようなテストでは,不安傾向もしくは抑うつ傾向のどちらかが高ければ受験者は「はい」と答えやすいと考えるのか,あるいは,不安傾向と抑うつ傾向の両方が高い受験者でなければ「はい」と答えにくいと考えるのか,という違いとして両モデルの相違を捉えることができる。
さらに,心理検査でよく用いられる3件法や5件法といった順序カテゴリカルデータのために拡張された多次元多値のIRTモデルについても取り上げる。また,2値および多値のモデルに共通した話題として,推定された項目母数について,複数次元を統合的に評価した上で適切に解釈するために,多次元識別力と多次元困難度を導入する。
|