この記事では、「p値ハッキング(p-hacking)」というデータ分析における誤った行為について、具体例を通じて解説します。
p値ハッキングは統計学者の間ではよく警戒されており、議論される傾向にあります。これに対して、機械学習では理論的な説明や物事の因果関係よりも予測の精度が主要な関心であるため、機械学習を用いたデータ分析やビッグデータに関してはp値ハッキングが見逃されやすいと言われています。
まず簡単にいうと、p値ハッキングとは、「実際は統計的に差がないのにも関わらずデータに差がある」と示してしまうデータ分析のバイアスです。
p値ハッキングが意識的または無意識的に行われている可能性があります。この記事を読めば、もしかするとご自身が過去にP値ハッキングをしていたことに気づく方もいるかもしれません。一方で、故意にP値ハッキングを犯してしまうケースもあります。無理やりデータから「意味がありそうな結果」を導きだそうとする時です。例えば、以下のようなシナリオです。
- 正当な理由なく新たなデータを取得し、追加した上で分析をやり直した
- 正当な理由なく外れ値など、分析に都合の悪いデータや測定値を除外した
- 新しい発見に寄与すると考え、特定の測定値を選択的に抽出した
- 複数の手法でデータ分析を実施し、もっとも望ましい結果のみ報告した
そもそも「p値ハッキング」における「p値」とは何かですが、詳細は[p値の関連記事] をご参照ください。
p値(有意確率)を簡単に言うと以下のような役割を果たします。
- 帰無仮説を棄却できるか(有意水準を超えているか)どうかの判断基準となる
- 帰無仮説が正しいという仮定の下で、帰無仮説の分布において、限界値よりも外側の(極端な)統計量の値が観察される確率(確率分布の面積)である
- p 値が小さいほど、帰無仮説を棄却するための強力な根拠となる
参考:執筆者の著書「データサイエンティスト検定[リテラシーレベル] 最強の合格テキスト」([文献1])
医薬品の臨床研究、心理学の研究、社会学の研究、生物学の基礎研究など、ばらつきのある母集団からサンプルを取って、統計学的な手法で仮説の検証を行う際に、このp値を用いた検定は基本的なデータ解析法として広く使われています。
帰無仮説が正しいと仮定したときに、観測データの実現値が得られ、それよりもさらに極端なデータが得られる確率(p 値)を求めます。計算した p 値が有意水準(例:5%)以下の場合、つまりp値が「十分に小さければ」帰無仮説を棄却し、対立仮説(例:観測結果に統計的な差がある)を採択します。 例えば、有意水準5%の両側検定において、標本データから p 値 = 0.0231(2.31%)が得られたとすると、有意水準 5%の片側限界値を超えないので、偶然ではなく有意な差が認められることになります。
近年、学術分野やビジネスにおいて、p値の誤解釈や誤用が問題視されています。p値は得られたデータが、設定した統計モデルに合致するか、矛盾するかの程度を示す指標の一つにすぎず、仮説が正しい証拠ではありません。これはp値ハッキングの問題と切り離すことができず、研究結果やデータ分析の結果の解釈や活用のあり方が問われています。[文献1]の中でもp値にまつわる誤解を解こうとしています。
p値ハッキングがなぜ起きるのか
(※)以下に紹介する論文はThe Art of Machine Learning: A Hands-On Guide to Machine Learning with R の中でも紹介されています。
なぜp値ハッキングが起きるかについて考えます。統計的仮説検定の言葉を用いて簡単にいうと、同じデータで何度も検定を繰り返すと、帰無仮説を誤って棄却する確率が高まるからです。
p値ハッキングに関する争論を展開する代表的な論文として、スタンフォード大学医学部教授のJohn Ioannidis(ジョン・イオアニディス)によって執筆され、PLOS Medicine に掲載された「Why Most Published Research Findings Are False」(和訳:「なぜほとんどの出版された研究結果は誤りであるのか」)(PLOS Medicine, August 30, 2005)([文献2])があります。なかなか強烈な印象を残すタイトルです。
以下はこの論文の要約を和訳したものです。
現在の研究成果の多くが誤っている可能性が指摘されています。研究の信頼性は、統計的検出力やバイアス、同じテーマの研究数、実際に存在する関係性の割合などに左右されます。特に、研究規模が小さい場合や効果が小さい場合、検証関係が多く選択基準が緩い場合、研究手法の柔軟性が高い場合、利害関係や偏見が強い場合、統計的有意性を競う研究者が多い場合には、誤った結果が出やすくなります。シミュレーションでは、多くの研究が誤っている可能性が高いと示されており、研究結果が単にバイアスを反映していることもあります。本論文では、これらの問題が研究の実施や解釈に与える影響を考察します。
上記の論文の中で、「コインの偏りの検出」を例に用いてp値ハッキングを説明しています。
多数のコインがあり、このうち一部は「歪み」を持つ、つまり表裏が平等に出ないことを確かめるための実験をしています。各コインを100回ずつ投げ、任意の1枚のコインについて40回より少なく、もしくは60回より多く表が出れば、このコインは表裏が平等に出ない(歪みを持つ)と結論づけます。
ところが、統計学に基づき、通常の一枚のコインにつき「表の出る回数」が100回の試行のうち「ちょうど50回」から±10回以内にずれる確率は5%であることが知られています。今度は多数のコインを投げる際に、たとえどのコインも歪んでいなくても、少なくとも1枚の「表の出る回数」が偶然にも[40,60]の範囲外に落ちる確率はそれなりに高いです。そうすると偶然にそうなったにも関わらず、該当するコインを「歪んでいる」と誤って判断することになります。
このように、p値ハッキングとは、あまりにも多くのデータを見ているので、たとえ意味を持つデータが全くなくても、見かけ上「統計的に有意」なデータが現れることを指しています。
機械学習のコンペティションの成果も信頼できない?
もう1つ印象に残る論文は、アデレード大学の医学研究者Lauren Oakden-Raynerによるブログ記事 “AI Com petitions Don’t Produce Useful Models” (和訳:AIコンペティションから有用なモデルが生まれない)です。
Kaggle、Signate、ILSVRCといった機械学習のコンペティションでは、競技者全員に同一のデータセットが与えられ、それを用いて予測タスクで最高の精度を達成しようとする。同じ機械学習の手法(アルゴリズムやモデル)、例えばRandom Forest を用いたとしても、モデルのハイパーパラメータのチューニングや特徴量づくりを通じて他の競技者に対して差別化を図ろうとする。これらのテクニックはトップの1~2%の精度を競う者たちの間で駆使されています。
最もわかりやすいモデルの1つである決定木のアンサンブル学習器Random Forest はモデルチューニングの難易度も比較的低く、「万人受け」する優秀なモデルとして知られています。これに対して、同じ木ベースのモデルでもブースティング系のモデルやスタッキングされた高度なモデルは、モデルチューニングや繊細なデータ加工による特徴量設計が大きく響く手法です。
では、p値ハッキングの話はどこで入ってくるのでしょうか。大勢の競技者が同じデータセットを捻り回すことは、[文献2]における歪みのあるコインが見つかるまで多数のコインの試行を行うと類似した行動と考えることができます。1000人の競技者がいたとすると、そのうちの一人だけが他の999人よりも数%だけ高い精度を達成したとしても、これは偶然または見かけ上高い精度のモデルが得られただけという可能性があります。つまり本当は1000通りのモデル、あるいは少なくともそのうちの上位のモデルはどれも同じくらいの精度だったということです。p値ハッキングが生じると、有意な差がないのにあたかも統計的有意な差があるように解釈されてしまうので機械学習のコンペティションの結果も例外ではありません。
p値ハッキングは、機械学習を活用する中での様々な手段、例えば、ハイパーパラメータの最適な組み合わせの探索や特徴量選択にも当てはまります。結局これらを行うことで、機械学習のコンペティションでトップの1%の精度を叩き出しています。例えば、4種類のハイパーパラメータをチューニングしようとし、それぞれについて10個の候補があるとする。これは10^4 = 10000 という膨大な数の組み合わせを試すことになります。この場合も最適に見える設定はただの偶然である可能性を否定しにくいです。
Rayner氏は特に、大規模な画像データセットImageNetを題材としているILSVRCという国際的な画像分類のコンペティションを批判しています。2017年以降このコンペティションはKaggleの中で行われるようになっています。2012年にAlexNetというCNN(畳み込みニューラルネットワーク)が従来のモデルよりも大きく精度が改善されたことで、CNNは画像分類の分野において注目されるようになり、それ以降毎年のように新しいCNNモデルが誕生し、前の年までの記録を更新しています。Rayner氏は統計的な手法を用いて何年間にわたってのコンペティションの結果を解析し、CNNが注目されるようになってから、近年の「新しい記録」はどれも過学習している、または、偶然に記録を更新していると主張しています。
しかも、サンプリング変動の影響も忘れてはいけません。本当に1000通りの手法のうちの1つだけが優秀だとしても、サンプリング変動の影響によりこの手法はコンペティションではトップ一位の記録を残せない可能性があります。
まとめ
本記事ではデータ分析において無意識または故意に犯しうる「p値ハッキング」について具体例を用いて解説しました。p値ハッキングが生じることにより、従来の薬より有効性が高くないのに新しい薬が注目されたり、他のモデルに比べて精度が高くはないのにあったかも技術の進歩としてもてはやされたりします。科学技術の進展にとって有害なことなので、データに関わる人は数値の正しい解釈を意識するとよいでしょう。
執筆担当者:ヤン ジャクリン (GRI分析官・講師)



