中村健太郎(NAKAMURA Kentaro)
博士論文

博士学位論文

「主観を含む他者評定データに対する心理計量モデルの開発と検討
― 教育評価・授業評価の実証的研究を通じて ―」


本研究は,他者に対する主観を含んだ評定における不確実性を定量的に捉え,理解するための心理計量モデルの開発と適用,その検討を目的とする.具体的には,論述式テスト項目の評定者による採点データと学生による大学授業評価データに対して,構造方程式モデリング,ならびに項目反応モデルの観点から評定者の効果,影響を推測する方法論について考察を行った.

研究の対象とするデータは,双方とも現実場面での活用の要請が強い.本研究では,それらの社会的意義を確認した上で,広くパフォーマンス・アセスメントという評価方法を視野に入れ,主観を含む評定データに対して測定論の観点から考察を行った.心理測定学,教育測定学の枠組から論述式項目の採点,授業の評価を捉え,心理計量モデルによる分析を行うことを通じて,理論に基づいた客観的,定量的な実証的知見を提供する方法論を示し,実際の評価活動において有用な実証的知見を得る枠組について議論を行った.

論述式の問題項目に対する解答は評定者に採点されることで初めて得点化される.そのため,多肢選択式テストにおけるような従来の機械的な採点方式は適用できず,得点化の際に評定者の主観が影響する.したがって,受験者の特性の散らばりには評定者の変動という付加的な揺らぎが加わることになり,評定データに対する信頼性に関して慎重な検討が必要となる.

評定データを採用する教育測定においては,得点が評定者によって採点されるという側面を考慮した分析,検討が必要であり,その影響が定量的に把握されなければならない.教育測定学の分野では,一般化可能性理論などによってそれが可能となっている.また,項目反応モデルをパフォーマンス・アセスメントの評定点に適用し,評定者の影響を考慮した拡張されたモデルも提案されている.しかし,それぞれのモデルをさらに改良することで,より的確で詳細な知見を得ることが期待される.

一方,18歳人口の漸減により競争的環境にある大学においては,近年,学生による授業評価が積極的に行われるようになっている.文部科学省によれば,2004年度までに学生による授業評価は国立で87大学(約100%),公立75大学(約97%),私立529大学(約97%)で実施され,国公私立全体では691大学(約97%)で実施されている.

このように急速に普及した学生による授業評価は,アメリカではその結果が教員の人事にまで影響するようになっており,日本においても大学運営上の問題などから,今後ますます学生の評価データの影響力が大きくなるものと予想される.

しかしながら,学生による授業評価は,学生の履修動機や勤勉さなどから信用できないものであるという指摘があり,学生による評価の不安定さやいい加減さを指摘する研究も多数ある.評定に高度な客観性を期待できないという点は授業評価固有の問題である.

以上のように,教育評価,授業評価において利用される評定データは,要請の高さに比して信頼性に対する危惧も大きい.評定データに対する心理計量モデルの開発と適用は,評定結果を的確に活用し,テスト形式の多様化による学習活動の改善や授業改善に役立てる上でも極めて重要である.

本研究では,まず,従来の心理計量モデルや推定法の1つであるマルコフ連鎖モンテカルロ法などについて検討し,方法論上の準備を行った上で,評定データに対する分析と検討を行った.

論述式テストの複数評定者による採点データに対する分析では,受験者の解答過程を異なる多値型項目反応モデルで表現した階層評定者モデルを適用し,各項目の難しさや各評定点への到達のしにくさに加え,評定における採点の甘さや,ばらつきによる非信頼性について検討を行った.受験者の項目に対する反応に部分採点モデルを採用している従来の階層評定者モデルに対して,名義反応モデル,段階反応モデルを導入した異なるモデルをマルコフ連鎖モンテカルロ法により推定し,各モデルに特有の特徴とモデル間での共通点が明らかとなった.

一方,授業評価の評定点に影響を与える要因を特定し,信頼性を定量的に把握するために,構造方程式モデリングによって新たな拡張一般化可能性モデルを構成し,一般化可能性モデルよりも細かい評価精度の検討を可能とした.さらに,学生間に異質性を仮定し,評定のパタンから潜在的な下位集団を見出す潜在混合モデルとの統合モデルを適用することで,学生の質的な違いを検出することに成功し,より詳細な学生評定者に対する検討と評定点の解釈が可能となった.

また,授業に対する評定を適切に行わず,特異な反応パタンを示すと考えられる学生を,潜在混合モデルと項目反応モデルの枠組から捉えることによって特定化する分析を行った.シミュレーションデータと実際の授業評価データから,項目母数の推定に関する考察と,いい加減に評定を行う学生の発見について検討した.学生のいい加減な評定行動を適切にモデル化することで,デタラメな評定が与える項目母数の推定への影響を補正し,より正確に評価項目の特徴を知ることが可能となった.また,各学生についていい加減な評定を行っている確率を計算できることで,評価データの信憑性に関する検討と対応が可能となった.

本研究では,全ての学生が全ての授業を履修しているわけではないという実際の授業評価場面により即した形の分析も可能となった.評定が行われない授業に関して,欠測の問題としてとらえることで,拡張一般化可能性モデルが適用可能となり,評定の欠けている授業についても他の授業と同様に評価の位置と揺らぎを知ることができる.また,潜在混合モデルとの融合により,欠測のある状態で学生の下位集団における評定の特徴の違いを検討することもできるようになり,授業評価データに対する詳細な分析が可能となった.

mailto: kiike(atmark)toki.waseda.jp
Last update: 20070623