データサイエンス

統計学におけるp値の取扱注意

統計学的な手法で仮説の検証を行う際に登場する基礎的な概念に「p値」があります。医薬品の臨床研究、心理学の研究、社会学の研究、生物学の基礎研究など、ばらつきのある母集団からサンプルを取って解析するあらゆる研究分野において、このp値を用いた検定は基本的なデータ解析法として広く使われています。

2016年に、アメリカの統計学会がp値についての誤解や誤用が深刻であるとの声明を出しました。それ以前から、p値を用いることの妥当性について統計学者を中心に論争が続いていたが、このアメリカ統計学会の声明は、大きなインパクトを与えました。日本国内においても、統計的検定法を正しく理解して使用しようとする動きがあり、正しい理解を広めようとする書籍が出てきています。しかし、その内容が、p検定を活用している人に十分理解されているとは言えないのが現状です。

p値の妥当性についての議論が盛んになる中で、このp値を用いた検定そのものを全面禁止にすべきという、やや過激な主張もあるくらいです。もちろん、可能な限りの厳密性を求める科学研究では、そのような議論を行い、よりよい統計手法を探求していくことは重要です。しかし、厳密性だけでなく、I/O比やスピードが求められるビジネス領域では、p値を使ったものも含めて、統計学的検定は、依然として便利なツールの一つです。

ビジネスにおける統計検定の厳密性

マーケティングのビジネスの分野などで用いる検定は、厳密性や理論の妥当性が求められるアカデミックな学術研究とは異なり、必ずしも厳密である必要がない場合もあります。ここで取り上げたいのは”探索的”なデータ解析、”探索的”な統計分析などと呼ばれる良く使われるものです。科学研究では、世の中で起こっている現象の原理を理解し、それを一般化した法則を得ることが目的であるため、論文の審査などでは、統計学的な厳密性が求められます。一方、マーケティングの分野においては、厳密な一般法則を得ることよりも、次のアクションにつながる仮説やシナリオを抽出することを目的に行われることが多いです。そのため、検定結果は”研究成果”ではなく、アクションを決めるための”判断材料”として解釈されます。

とはいえ、統計学を活用する上では、アカデミックな領域で、統計学的検定のどういう点が問題視され、どういう対策が進められているかを知っておくことは重要です。それは、我々が”探索的”に用いている検定法が、どのような点で厳密ではなく、どのような限界があるのか知ることにつながるからです。

P値にまつわる誤解

「P値とは何か、説明してください」

即答できますか?統計学を理論的にしっかり学んでいる人はともかく、統計学をハウツー本などで習得した人や、理論は学生時代に軽く学んだ程度でその後は専ら検定を”使う”ことが中心であった人は、改めて聞かれると、うまく答えられない方もいます。そして、誤った理解をしている方も一定数います。

よくある間違いとしては、「仮説が正しい確率」、あるいは、「データが偶然のみで得られた確率」というものです。効果の大小や結果の重要性を意味する、という解釈も正しくありません。p値の正しい説明とは、「仮定している特定の統計モデルのもとで、帰無仮説が真である場合に、得られたデータと同等か、それよりも極端な値を取る確率」です。統計学の理論構成上、どうしてもこのような回りくどい表現になってしまうのである。統計学についての基礎的なない人にとっては理解が難しく、そのため、誤解や誤用が起きやすくなります。

p値はより簡単に言うと、得られたデータが、設定した統計モデルに合致するか、矛盾するかの程度を示す指標の一つにすぎず、仮説が正しい証拠ではないのである。言い換えると、十分条件ではなく、必要条件に過ぎないのです。それを物語るように、p値に基づいて有意であると結論を下している学術論文の多くは、実際には再現性がないことが知られています。

サンプル数が多くなるほど、p値は小さくなりやすいです。数学的にそうなります。しかし、サンプル数は、実験者が決めてしまう、検証しようとしている仮説の中身とは無関係な値では無いでしょうか。そして、サンプル数をどんどん増やしていくと、p値が小さくなっていき、いずれ、有意水準として実験者が任意に設定した値を下回ります。有意水準には、よく0.05が用いられるが、これも理論的な根拠があるわけではありません。この有意水準を下回ると、「帰無仮説は棄却された」として、あたかも仮説が証明されたかのように解釈してしまうのは危険です。しかし、あくまでも、仮定している特定の仮説の下で、データがそのモデルにどれくらい整合しているかを示すものにすぎず、帰無仮説が真である場合に、今回得られたデータと同等のデータ、あるいは、それ以上に極端なデータが得られる確率が5%未満である、というだけです。言い換えると、帰無仮説が真であるにも関わらず、そのようなデータが得られる可能性があります。

データ分析で良くある間違い

我々のように、大量のデータから有用な知見を抽出しようとする際に行いがちなことは、以下のようなことがあります。

  • 3つ以上の水準があり、そのうち2つの水準での検定を繰り返し、有意性がある組み合わせを探す、
  • 複数の属性でデータ収集を行い、それぞれ属性で検定を繰り返し、有意性がある属性を探す
  • 目的変数が複数ある場合、それぞれの目的変数で検定を繰り返し、有意性がある目的変数を探す

このように、データに対して複数回の検定を行ってしまうと、「多重性の問題」と呼ばれる問題が発生します。これは、帰無仮説が真であるにも関わらず、すなわち、たまたま極端なデータが得られただけであるのに、帰無仮説を棄却してしまい、有意性ありと判断してしまう誤り(第1種の誤りという)を犯す確率が、その検定の回数が増えるほど大きくなってしまう問題です。仮にp値を0.05とすると、1回の検定であれば、第1種の誤りを犯す確率は5%であるが、10回検定を行うと、この確率は1-(0.95)10=0.40と40%にもなってしまいます。

多重性の問題に対する補正法が知られており、そのような手法がとられることもあるが、マーケティングなどの”探索的”なデータ解析では、有意性の判断がそれなりの確率で誤っている可能性があることを承知した上で行うことも多い。得られた検定結果から、すぐにビジネス上のアクションにつなげるか、より厳密なデータ取得&検定を行って、厳密な方法で仮説を検証してから実行に移すかは、I/O比やビジネス動向に基づいて決めることであり、統計学はこれには答えてくれません。

もう一つp値を用いた検定で起こしやすい誤りとして、データを取得しながら随時検定を行い、データ数を増やしていき、有意差が見られた時点でデータ取得を止めて報告することです。これも、上記の多重性問題があり、第1種の誤りを起こしている可能性があります。検定ごとに、ある確率で第1種の誤りを犯すのであるから、検定を繰り返していけば、たまたま有意になってしまうこともあります。

統計学を習得すると、膨大なデータから知見を抽出できた達成感から、ついついその根拠をp値に基づいて議論したくなります。しかし、統計学的な根拠を全面に出しすぎると、p値否定派の過激派(?)の攻撃を受けてしまうかもしれません。厳密な検定は、実験計画の段階でサンプルの数や取得方法を決定し、データ取得から解析まで、綿密な計画に基づかないと、思わぬミスを起こしてしまいます。手持ちのビッグデータをとりあえず解析してみる、あるいは、まずはデータを取ってみて、得られたサンプルから知見を探る、といった場合には、この厳密性が損なわれてしまう可能性が大きいと言うことを覚悟しましょう。実は、データを見てから仮説を構築し、それを「仮説を検証しました」と報告することは、HARKing (Hypothesizing After the Results are Known)として、科学における不正行為の1種とされています。”探索的”な解析をしたのであれば、そのような解析であることを明示しなくてはなりません。p値を用いた検定の問題点や注意点を理解しつつ、場合によっては厳密性には欠けることを承知で、あくまでも検定は補助的に活用したという立場をとることで、思わぬ地雷を踏むことを避けるのが賢いです。

参考文献:『統計学が最強の学問である[実践編]』、ダイヤモンド社、西内啓

担当者:ヤン・ジャクリン(分析官・講師)

yan
データ分析官・データサイエンス講座の講師