早稲田大学文学部・大学院文学研究科 心理学コース
豊田研究室

第58回教育心理学会総会 自主企画シンポジウム 要旨・発表資料

<ポストp値時代>の統計学

  • 企画:秋山 隆(早稲田大学)
  • 司会:久保 沙織(早稲田大学)
  • 話題提供:豊田 秀樹(早稲田大学)
  • 指定討論:楠見 孝先生(京都大学),向後 千春先生(早稲田大学)

全体要旨

統計的方法を学ぶことは,これまで,すなわち有意性検定を学ぶことでした。長期に渡りこの大前提はゆるぎなく盤石で,無条件に当たり前で,無意識的ですらありました。しかし,ときは移り,有意性検定やp値の時代的使命は終わりました。アメリカ統計学会ASAは,2016年3月7日に,p値の誤解や誤用に対処する6つの原則に関する声明をだしました(Wasserstein & Lazar, 2016)。この声明は「『ポストp < 0.05 時代』へ向けて研究方法の舵を切らせることを意図している」(R. Wasserstein (ASA News Releases, 2016)) ものだと言明されています.2016年現在,統計学における著名な学術雑誌バイオメトリカ (Biometrika) の過半数の論文が,ベイズ統計学を利用しています。多くの著名な学術雑誌も同様の傾向です。スパムメールをゴミ箱に捨て,日々,私たちの勉強・仕事を助けてくれるのは,ベイズ統計学を利用したメールフィルタです。ベイズ的画像処理によってデジタルリマスターされ,劇的に美しくよみがえった名作映画を私たちは日常的に楽しんでいます。ベイズ理論が様々な分野で爆発的に活用されています。ベイズ的・アプローチなしには,もう統計学は語れません。

有意性検定にはどこに問題があったのでしょう。3点あげます。

I.p値とは「帰無仮説が正しいと仮定したときに,手元のデータから計算した検定統計量が,今以上に甚だしい値をとる確率」です。この確率が小さい場合に「帰無仮説が正しくかつ確率的に起きにくいことが起きたと考えるのではなく,帰無仮説は間違っていた」と判定します。これが帰無仮説の棄却です。しかし帰無仮説は,偽であることが初めから明白です。それを無理に真と仮定することによって,検定の論理は複雑で抽象的になります。例えば2群の平均値の差の検定における帰無仮説は「2群の母平均が等しい(μ1=μ2)」というものです。しかし異なる2つの群の母平均が,小数点以下を正確に評価して,それでもなお等しいということは科学的にありえません。帰無仮説は偽であることが出発点から明らかであり,これから検討しようとすることが既に明らかであるような論理構成は自然な思考にはなじみません。p値は土台ありえないことを前提として導いた確率なので,確率なのに抽象的で実感が持てません。このことがp値の一番の弊害です。以上の諸事情を引きずり,「有意にならないからといって,差がないとは積極的にいえない」とか「有意になっ・トも,nが大きい場合には意味のある差とは限らない」とか,いろいろな言い訳をしながら有意性検定をこれまで使用してきたのです。しかし,これらの問題点はベイズ的アプローチによって完全に解消されます。ベイズ的アプローチでは研究仮説が正しい確率を直接計算するからです。

II.nを増加させるとp値は平均的にいくらでも0に近づきます。これはたいへん奇妙な性質です。nの増加にともなって,いずれは「棄却」という結果になることが,データを取る前に分かっているからです。有意性検定とは「帰無仮説が偽であるという結論の下で,棄却だったらnが大きかった,採択だったらnが小さかったということを判定する方法」と言い換えることすらできます。ナンセンスなのです。これでは何のために分析しているのか分かりません。nを増加させると,p値は平均的にいくらでも0に近づくのですから,BIGデータに対しては,あらゆる意味で有意性検定は無力です。どのデータを分析しても「高度に有意」という無情報な判定を返すのみです。そこで有意性検定ではnの制限をします。これを検定力分析の事前の分析といいます。事前の分析では有意になる確率と学術的な対象の性質から逆算してnを決めます。しかし検定力分析によるサンプルサイズnの制限・設計は纏足 と同じです。統計手法は,本来,データを分析するための手段ですから,たくさんのデータを歓迎すべきです。有意性検定の制度を守るために,それに合わせてnを制限・設計することは本末転倒です。ベイズ推論ではnが大きすぎるなどという事態は決して生じません。

III.伝統的な統計学における平均値の差・分散の比・クロス表の適合などの初等的な統計量の標本分布を導くためには,理系学部の2年生程度の解析学の知識が必要になります。すこし複雑な統計量の標本分布を導くためには,統計学のために発達させた分布論という特別な数学が必要になります。それでも,どの統計量の標本分布でも求められるという訳ではなく,導出はとても複雑です。検定統計量の標本分布を導けないと,(教わる側にとっては)統計学が暗記科目になってしまいます。この検定統計量の確率分布は何々で,あちらの検定統計量の確率分布は何々で,のように,まるで歴史の年号のように,いろいろと覚えておかないと使えません。暗記科目なので,自分で工夫するという姿勢が育つはずもなく,紋切り型の形式的な使用に堕す傾向が生じます。でもベイ・Y統計学は違います。マルコフ連鎖モンテカルロ (MCMC) 法の本質は,数学IIまでの微積分の知識で完全に理解することが可能です。標本分布の理論が必要とする数学と比較すると,それは極めて初等的です。生成量を定義すれば,直ちに事後分布が求まり,統計的推測が可能になります。文科系の心理学者にとっても,統計学は暗記科目ではなくなります。

学問の進歩を木の成長にたとえるならば,平行に成長した幾つかの枝は1本を残して冷酷に枯れ落ちる運命にあります。枯れ果て地面に落ちた定理・理論・知識は肥やしとなり,時代的使命を終えます。選ばれた1本の枝が幹になり,その学問は再構築されます。教授法が研究され,若い世代は労せず易々と古い世代を超えていく。そうでなくてはいけません。 統計学におけるベイズ的アプローチは,当初,高度なモデリング領域において急成長しました。有意性検定では,まったく太刀打ちできない領域だったからです。議論の余地なくベイズ的アプローチは勢力を拡大し,今やその地位はゆるぎない太い枝となりました。

しかし統計学の初歩の領域では少々事情が異なっています。有意性検定による手続き化が完成しており,いろいろと問題はあるけれども,ツールとして使えないわけではありません。なにより,現在,社会で活躍している人材は,教える側も含めて例外なく有意性検定と頻度論で統計教育を受けています。この世代のスイッチングコストは無視できないほどに大きいのです。このままでは有意性検定と頻度論から入門し,ベイズモデリングを中級から学ぶというねじれた統計教育が標準となりかねません。それでは若い世代が無駄な学習努力を強いられることとなります。教科教育学とか教授学習法と呼ばれるメタ学問の使命は,不必要な枝が自然に枯れ落ちるのを待つのではなく,枝ぶりを整え,適切な枝打ちをすることにあります。ではどうしたらいいのでしょう。どのみち枝打ちをするのなら,R.A.フィッシャー卿の手による偉大な「研究者のための統計的方法」にまで戻るべきです。「研究者のための統計的方法」の範囲とは,「データの記述」「正規分布の推測」「独立した2群の差の推測」「対応ある2群の差の推測」「実験計画法」「比率・クロス表の推測」です。これが統計学の入門的教材の初等的定番です。

文献

  • Wasserstein, R. L. & Lazar, N. A. (2016). The ASA's statement on p-values: context, process, and purpose, The American Statistician, DOI:10.1080/00031305.2016.1154108
  • ASA News Releases (2016). American Statistical Association releases statement on statistical significance and p-Values. (http://www.amstat.org/newsroom/pressreleases/P-ValueStatement.pdf)
  • R.A.フィッシャー(著) 遠藤健児・鍋谷清治(訳) (1970). 研究者のための統計的方法 森北出版 (Fisher, R. A. (1925). Statistical Methods for Research Workers, Oliver and Boyd: Edinburgh.)

発表資料

「<ポスト$p$値時代>の統計学」発表資料(PDF)

豊田 秀樹(早稲田大学)

ベイズ統計学と歩む,これからの心理学研究

  • 企画:長尾 圭一郎(早稲田大学大学院文学研究科)
  • 司会:豊田 秀樹(早稲田大学)
  • 指定討論:岡田 謙介先生(専修大学)

全体要旨

近年,ベイズ統計学はその方法論を拡大し,これまでの主流であった頻度論による伝統的統計学を凌駕する勢いをみせている。心理学をはじめとした社会科学の研究領域でも,その重要性はこれからますます高まることが予想される。 本発表では,伝統的統計学では数学的障壁に阻まれ,これまで利用される機会が少なかった発展的な確率分布 (I部),適用分野が多岐に渡る汎用的解析ツール (II部),心理学における有用なモデル (III部)をベイズ統計学による分析例を通して紹介する。 また,II部とIII部で導入されるモデルのグラフィカルな表現方法についても説明する。研究仮説が正しい確率と階層モデリングを用いたベイズ的アプローチはこれからの心理学研究の発展に寄与することが期待される。

リンク関数・プレート表現・BART モデル

例えば,xを説明変数,yを目的変数とした単回帰分析をベイズの枠組みで表現するとき,yがもし平均μ,標準偏差σの正規分布に従っていると仮定できるならば,その平均μが単回帰モデルによって生成されていると考える。これはすなわち,目的変数について将来新たなデータを取得した場合,当該データがその期待値(予測値)の周りで正規分布していると仮定・オていることと同じである。 しかしながら,目的変数yが条件付き正規分布に従っていると仮定できない場合には,回帰モデルをはじめとした線形構造をそのまま適用することはできない。そこで,リンク関数と呼ばれる変換を用いることで,条件付き正規分布以外に従うデータに対しても,線形構造によって説明や予測のためのモデルを構築することが可能となる。本発表では,目的変数に相当するデータが,期待値で条件付けた際にベルヌイ分布,ポアソン分布,負の二項分布に従っている場合のそれぞれについて,リンク関数を利用して線形構造を導入する方法を紹介する。

リスクの認知の有無とは無関係に,リスクを敢行する行動のことを,リスクテイキングという。リスクテイキング行動の個人差を,行動パフォーマンスの観点から検討するための一手法として,BART (Balloon Analogue Risk Task) がある。BART はPC 画面上で風船を膨らませるという課題であり,被験者は各試行において風船を膨らませるか,風船の大きさに応じた金額を獲得するかを選択する。 風船が大きくなるほど得られる金額が増加するが,ある大きさを超えると風船は破裂する。破裂した場合,その試行で得られる金額はゼロとなる。被験者はその条件の中でなるべく多くの金額を獲得できるよう課題を遂行する。本発表では,リスクテイキング傾向を表す母数と,行動の一貫性を表す母数によって構成される,Ravenzwaaij(2011)によって提案されたBART モデルを紹介する。

秋山 隆(早稲田大学文学学術院)

信号検出理論・トピックモデル

信号検出理論は,心理物理学的実験において,刺激を正しく判別する検出力および,被験者の判断基準や反応バイアスを評価するために用いられる。刺激の有無を判断する試行における被験者の反応結果は,刺激呈示の有無と,被験者の判断(Yes-No) とで2×2のクロス集計表にまとめられる。信号検出理論では,被験者の心理量がある一定の値以上となったときに信号がある(Yes)と判断すると考え,これら4パタンそれぞれの反応が得られる確率を,ノイズ分布と信号+ノイズ分布という2つの分布を仮定することで説明している。ここでは,信号検出理論の基本的なモデルに加えて,検出力と反応バイアスを個人ごとに推定するための階層ベイズモデルを導入し,単語の再認課題の実験データを用いた分析例を示す。

トピックモデルは,文書データを対象とした自然言語処理をはじめ,画像データ,音声データ,購買記録データ等にも適用され,情報検索や協調フィルタリングに応用されるなど,近年注目を集めている分析手法の1つである。トピックモデルを用いることで,大量の文書データを定量的に分析し,そこに潜む意味を明らかにすることができる。トピックモデルでは,それぞれの文書が複数のトピックを持つと仮定し,文書ごとに異なるトピック分布に従って単語レベルでトピックが選択され,そのトピックに固有の単語分布に従って個々の単語が生成されるという文書生成過程を表現している。このとき,トピック分布の事前分布として, ディリクレ分布を仮定する (Latent Dirichlet Allocation, LDA)。ここでは,米国AP通信の記事データを用いて,LDA によるトピックモデルの分析例を示す。

久保 沙織(早稲田大学グローバルエデュケーションセンター)

隠れマルコフモデル・アイオワ・ギャンブリング課題

隠れマルコフモデルは遷移する離散潜在変数の状態によって,観測される事象の確率分布が異なる確率モデルを表現する。直接観測できない潜在変数の状態を推測できることから,隠れマルコフモデルは心理学研究における観察者が直接にはわからない対象者の心理状態の推測に応用が期待される。本発表では,隠れマルコフモデルの基礎と なるマルコフ連鎖の概念に始まり,カテゴリカル分布を利用した教師あり学習モデル,前向きアルゴリズムを用いた半教師なしアルゴリズムを紹介する。また,隠れマルコフモデルの最終的な目的である状態遷移の系列を復元する方法としてビタビ・アルゴリズムのベイズ表現を紹介する。分析例として,共働きである夫婦に関して,奥さんの用意する夕食の献立から,奥さんのその日の疲労度を推測する問題を考える。

アイオワ・ギャンブリング課題(IGT)は意思決定のプロセスを評価する心理実験として知られている。IGT を利用することで,アスペルガー症候群やアルツハイマー患者といった臨床群における意思決定能力の欠如の度合いを評価できる。実験では,被験者に並んだ4つのカードのデッキから1枚のカードを引く試行を行ってもらう。カードの裏には報酬額と損失額が記載されており,デッキごとに得られる純利益の期待値は異なる。被験者は試行を繰り返すことで,望まれるデッキを選択する方・ェを獲得する。ここでは,被験者の探索行動と期待値に基づく選択を表現するモデルとして「期待数価モデル」を取り上げる。損失への敏感度,更新比率,選択の一貫性といった特性値をベイズ推定することで課題に対する被験者の傾向 を解釈することができる。

長尾 圭一郎(早稲田大学大学院文学研究科)

ワイブル分布を用いた推測

本発表では,実データの分析例を通してワイブル分布に関するベイズ推定を紹介する。 ワイブル分布は,元々物体の破壊強度が従う分布として提案された。現在では故障時間や寿命など,さまざまな社会現象がワイブル分布に従うことが知られている。 ワイブル分布の形状母数yがとる値によって,故障のタイプは3つに分かれる。1つ目が時間と共に故障率が低くなる「初期故障型」,2つ目が時間と共に故障率が高くなる「摩耗故障型」,3つ目が時間に関係なく故障率が一定となる「偶発故障型」である。ここでは2014年の同居期間別の離婚件数のデータを用い,リサーチクエスチョンの考察を行う。具体的には1)2014年に離婚した夫婦の平均的な同居期間,2)2014年の離婚の傾向は3つの故障モデルのどれに分類できるのか,3)「結婚4〜5年目が離婚しやすい時期である」という仮説が正しい確率,の3つを扱う。

磯部 友莉恵(早稲田大学大学院文学研究科)

階層ベイズ法による二項分布モデルとベータ二項分布モデル

コイントスをした場合に表が出る回数は二項分布に従う。しかし同じカウントデータでも各都道府県の待機児童数はそれぞれ同一の二項分布に従うとは限らない。なぜなら各都道府県によって待機児童になる確率が異なるからである。本発表では待機児童数のように観測対象ごとに生起確率の異なるベルヌイ試行から得られたデータを扱い,このようなデータを分析するためのモデルを2つ紹介する。1つは階層ベイズによる二項分布を用いたモデルである。このモデルは階層ベイズ法によって観測対象ごとの生起確率の異質性を考慮している。分析例では都道府県ごとの待機児童に関するデータを用いて都道府県ごとの待機児童になる確率や全体の平均的な待機児童になる確率を推定している。もう1つのモデルはベータ二項分布を用いたモデルである。このモデルの分析例ではネズミの胎児死亡に関するデータを扱い,観測対象群ごとの死亡率の差の推定やその大小に関する仮説が正しい確率の推定を行う。

吉上 諒(早稲田大学大学院文学研究科)

発表資料

「ベイズ統計学と歩む,これからの心理学研究」発表資料(PDF)

秋山 隆(早稲田大学文学学術院),久保 沙織(早稲田大学グローバルエデュケーションセンター),長尾 圭一郎(早稲田大学大学院文学研究科),磯部 友莉恵(早稲田大学大学院文学研究科),吉上 諒(早稲田大学大学院文学研究科)

「指定討論」資料(PDF)

岡田 謙介先生(専修大学)