統計学

正規分布を使わずに『仮説検定』の理論を驚くほどわかりやすく〜 Part1〜

よくある仮説検定の手順(教科書的な説明)

仮説検定の手順は、教科書的には次のように説明されます。

1)仮説(帰無仮説と対立仮説)を設定する

2)使用する有意水準と検定統計量の種類を決める

3)標本データに基づいて検定統計量を計算する

4)検定(仮説の検証)を行い、その結果をもとに帰無仮説を棄却するか を判断する

ところが、初めて学ぶ者にとって、この手順は必ずしもわかりやすいものではありません。そこで、これまでとは違う視点から、仮説検定を具体的で身近なイメージで考えてみようと思います。

新しい視点から仮説検定を理解

次のような例を考えてみましょう。

コインを5回投げて1回もあたらない?!

参加者全員のお菓子がありません。そこで、コイン投げで公平に配ることになりました。コインを投げ、表が出たら「お菓子がもらえる」、裏が出たら「何ももらえない」というルールです。

主催者:「コインには、何もしかけはありません。公平なくじ引きです」

参加者:「それなら公平だ」

主催者:「Aさんのコインは裏でした。残念。」

参加者A:「えー残念」

主催者:「Bさんのコインも裏でした。残念。」

参加者B:「また裏?残念」

主催者:「Cさんのコインも裏でした。残念。」

参加者C:「また裏?本当?」

主催者:「Dさんのコインも裏でした。残念。」

参加者D:「コインおかしくない?」

主催者:「Eさんのコインも裏でした。残念。」

参加者E:「インチキだ!」

本当にこのコイン投げは公平なのでしょうか?

本当に何もしかけもないコインなら、こんなことは起きないのではないしょうか?

(補足:この何気ない表現「本当に何もしかけもないコインなら」に注目しておいてください。これは、後で登場する「帰無仮説が正しいと仮定して」に対応しており、仮説検定においてとても重要な仮定の考え方です。)

仮にこのコインに何もしかけがなく、公平にコインを投げたとしましょう。その場合、5回連続して裏が出ることは、約3.1%の確率で起こります。

0.5×0.5×0.5×0.5×0.5=0.03125

ですから、この結果からこのコイン投げが「絶対にインチキだ!」と断言できません。一方、「5回連続裏が出たのはたまたま起きたにすぎず、絶対に公平なコイン投げだ」と断言することもできません。

コインを10回投げて1回もあたらない?!

次に、裏が10回連続出たとしたらどうでしょうか?

主催者:「コインには、何もしかけはありません。公平なくじ引きです」

参加者:「それなら公平だ」

主催者:「Aさんのコインは裏でした。残念。」

参加者A:「えー残念」

主催者:「Bさんのコインも裏でした。残念。」

参加者B:「また裏?残念」

主催者:「Cさんのコインも裏でした。残念。」

参加者C:「また裏?本当?」

主催者:「Dさんのコインも裏でした。残念。」

参加者D:「コインおかしくない?」

主催者:「Eさんのコインも裏でした。残念。」

参加者E:「インチキだ!」

主催者:「Fさんのコインも裏でした。残念。」

主催者:「Gさんのコインも裏でした。残念。」

主催者:「Hさんのコインも裏でした。残念。」

主催者:「Iさんのコインも裏でした。残念。」

主催者:「Jさんのコインも裏でした。残念。」

参加者F~J:「・・・」

さすがにここまで裏が続けば、このくじは絶対に不公平だと言いたくなります。

でも、本当に言い切れるのでしょうか?

仮にこのコインに何もしかけがなく、公平にコインを投げたとしましょう。その場合、10回連続して裏が出ることは、約0.1%の確率で起こります。

0.5×0.5×0.5×0.5×0.5×0.5×0.5×0.5×0.5×0.5=0.0009765625

約0.1%の確率で起こりうるわけですから、この結果からも、このコイン投げが「絶対にインチキだ!」と断言できません。

それでも、これくらい確率が低いとなると、次のように反論したくなるかもしれません。

「約0.1%なんて、ほぼゼロでしょう。ほとんど起こりえないことが起きたんだから、不公平だと考えるのが自然でしょう!」

一方で、厳密な証拠にこだわる人は、次のように反論するでしょう。

「約0.1%と0は異なる。約0.1%の確率で起こりうる以上、不公平とは言い切れない」

上記で、一体どちらが正しいのでしょうか?

結論から言うと、どちらが正しいとも、どちらが間違っているとも、断言できません。どちらのほうが「正しい可能性が高い」かは言えますが、100%確実に白黒決着をつけることはできません。

仮説検定の考え方

統計学は科学なのだから、人間の思い、主観、希望に左右されてはならないと考える人もいるでしょう。そのような価値観から見ると、「約0.1%なんて、ほぼゼロでしょう」「ほとんど起こりえないことが起きたんだから、不公平だと考えるのが自然でしょう!」という発言は、主観的であり、科学的ではないと思われるかもしれません。公平なのか不公平なのか、100%確実な決着をつけてもらいたいと思うかもしれません。

しかし、実は、主観的とも思える「約0.1%なんて、ほぼゼロでしょう」「ほとんど起こりえないことが起きたんだから、不公平だと考えるのが自然でしょう!」という発言に、統計学の本質が隠れています。

統計学の限界として、100%確実な答えを出すことはできません。統計学は、「人間の判断がなくても、物事に白黒をはっきりさせてくれるもの」ではありません。統計学が出せるのは、データをもとにした確率や誤差などの数値であり、その数値から判断を下すのはやはり「思考する人間」なのです。

コイン投げの例に戻りましょう。

  • 主催者は「コインには、何もしかけはありません。公平なくじ引きです」と言っています。
  • 参加者は「コインには仕掛けがあり、不公平なくじ引きだ!」と言っています。

これを、仮説検定の用語「帰無仮説」「対立仮説」を使って表すと、次のようになります[1]

  • 帰無仮説:コインにしかけはない。表が出る確率は0.5である。
  • 対立仮説:コインにしかけがある。表が出る確率は0.5ではない。

これが手順の 1)仮説(帰無仮説と対立仮説)を設定する」に該当します。

先ほどの例で、参加者は「約0.1%なんて、ほぼゼロでしょう」「ほとんど起こりえないことが起きたんだから、不公平だと考えるのが自然でしょう!」と言いました。

この「ほぼゼロでしょう」「ほとんど起こりえないことが起きた」とみなす基準が、統計学の重要用語「有意水準」です。

有意水準の意味を考える際に重要なことは、帰無仮説(ここでは主催者の主張)が正しいといったん仮定する、ということです。帰無仮説が正しいときに、どういう結果(ここではコインの裏表)が起きうるのかを考えます。コイン投げのような確率的な現象を扱っていますので、結果は1通りではなく、さまざまな結果が考えられます。そして、それらの結果の起こりやすさは同じではなく、起こりやすいものと起こりにくいものがあります[2]

そこで改めて、得られたデータ(コインの裏表の結果)を見ます。帰無仮説が正しいとした場合に、その得られたデータは起きやすい現象だったのか、それとも、起きにくい現象だったのかを、確率を計算して判断します。

コイン投げの例で言うと、主催者の主張どおり「コインにしかけはなく、表が出る確率は0.5である」場合に、「裏が連続して5回も10回も出る」ことがどれくらいの確率で起こるのかを計算します。その確率が非常に小さく「ほぼゼロ」とみなせるとき、「帰無仮説が正しいとしたら、ほとんど起こりえないことが起きた」と考えます。すなわち、「帰無仮説は正しくない」と判断し、主催者の主張は正しくなく、「コインにしかけはあり、表が出る確率は0.5ではない」と判断します。この「ほぼゼロ」とみなす基準が「有意水準」です。

有意水準の設定

では、有意水準はどのように設定するべきでしょうか?コイン投げの具体的なイメージで確認しましょう。

  • 裏が5回連続で出る確率である約3.1%について、確率はほぼゼロとみなして「ほとんど起こりえないこと」と言ってよいでしょうか?それとも、ほぼゼロとは言えず、「それなりの確率で起こりうること」でしょうか?
  • 裏が10回連続で出る確率である約0.1%について、確率はほぼゼロとみなして「ほとんど起こりえないこと」と言ってよいでしょうか?それとも、ほぼゼロとは言えず、「それなりの確率で起こりうること」でしょうか?

正解はありません。統計学を使う皆さんが考えて決めることなのです[3]

ただし、結果を見てから決めてはいけません(科学のルールに反します)。事前に「〇%を基準に判断しよう」と決めてから、計算をするのです。そして、計算を見て基準を変えてはいけません。

〇「5%を基準に判断しよう」→計算したら4%だった→「確率はほぼゼロとみなそう」

×「5%を基準に判断しよう」→計算したら5.1%だった→「5%を少し上回ってしまったが、ほぼ5%のようなものだから、基準をちょっと緩めて、5.1%も確率はほぼゼロとみなそう」

×「1%を基準に判断しよう」→計算したら3%だった→「1%基準は厳しすぎたから、やっぱり5%を基準にして、確率はほぼゼロとみなそう」

 

統計が使われる多くの例では、有意水準として5%が用いられることが多いです。つまり、確率5%以下は「ほぼゼロでしょう」「ほとんど起こりえないこと」とみなすというわけです。しかし、5%に根拠があるわけではなく、あくまでも慣習です。ですから、統計学を使うときは、有意水準の意味を考え、自分でしっかり考えて決めなくてはいけません。

物理学のノーベル賞級の大発見では、0.00003%のようなとてつもない厳しい基準が用いられることもあります。一方で、ビジネスの分野では、後で判断が間違っていることが分かってもよいから、役に立つ可能性のあるヒントを得る目的で10%のように非常に緩い基準を用いることもあります。

ここでは、例として1%を基準(有意水準)としてみましょう[4]。続いて、検定統計量の種類を決める必要がありますが、ここでは単純に「コインの裏が出た回数」としましょう。検定統計量としては、検証したい仮説に関係する、確率が計算可能な「数値」として、最も適切と考えられるものを考えて設定します[5]

ここまでで、手順「2)使用する有意水準と検定統計量の種類を決める」が完了します。

ここまでの議論を整理しましょう(仮説の設定と検定統計量の計算)

今回のコイン投げの例では、

  • 「コインを5回投げて、裏が5回連続で出た」
  • 「コインを10回投げて、裏が10回連続で出た」

といった事例について、

  • 帰無仮説:コインにしかけはない。表が出る確率は0.5である。
  • 対立仮説:コインにしかけがある。表が出る確率は0.5ではない。

のどちらが妥当か(どちらが「正しいか」ではない!)を検定しようとしています。

そして、有意水準(ほとんど起こりえないこととみなす確率の基準)を1%、統計検定量として「コインの裏が出た回数」としましたので、統計検定量は以下となります。

  • コイン5回の例:コインの裏が出た回数=5
  • コイン10回の例:コインの裏が出た回数=10

ここまでで、手順「3)標本データに基づいて検定統計量を計算する」が完了です。

さて、ここからいよいよ仮説検定もクライマックスです。

次回のPart2では、上記の仮説と検定統計量に対する考え方を導き出しましょう。次回も楽しみにしてください。

 

執筆担当者:ヤン ジャクリン  (データ分析官・講師)

 

補足

[1] 帰無仮説と対立仮説が逆ではいけないのでしょうか?通常、帰無仮説は「等号(=)」を使って表せる仮説をあてはめます。コイン投げの例では、「表が出る確率=0.5」と「等号(=)」を使って表せる主催者側の主張を帰無仮説とします。参加者側の主張「表が出る確率≠0.5」あるいは「表が出る確率<0.5」のように、「等号(=)」では表せず、不等号などのそれ以外の記号を使って表されます。

[2] 直感的には、しかけのないコインを使えば、表と裏が同じくらいの頻度で出るのが「起こりやすい」現象で、同じ側だけがずっと連続して出るのが「起こりにくい」現象と思うでしょう。直感が必ずしも正しいとは限りませんが、このケースでは正しいでしょう。

[3] 学問分野や業界によって慣習があったり、ガイドラインが定められていたりすることも多いです。慣習やガイドラインが自身の感覚と異なる場合は、異なる基準を選んでもよいでしょう。ただし、それを公の場で発表したり、学術的な論文として残したりする場合は、なぜそのような基準を選んだのかを説明できないと、相手にされないかもしれません。だからといって、盲目的に慣習やガイドラインに従うのも考え物です。

[4] ご自身の感覚で5%、0.1%など、別の基準が適切と思われる方は、ご自身の基準で計算してみてください。今回の例では、有意水準を5%とすると、「5%の確率で起こりうることをゼロとみなす」ということです。「20回に1回起こりうる出来事で、主催者をインチキと決めつけてよいのか?」という筆者の主観に基づいて1%としてみました。このように主観的な要因が含まれるのも統計学の特徴です。

[5] 統計検定量は「t値」や「z値」ではないの?と思った方もいるかもしれません。確かに、統計学の教科書で取り上げられる統計検定量はt値やz値がほとんどです。しかし、統計検定量とは、仮説を検証するためには「何の」確率を計算すればよいのかを考えて決めるものであり、t値やz値を用いればよいというものではありません。世の中の多くの例では、母集団が正規分布に従っていることを仮定することが多いため、t値(母分散が不明でサンプルサイズが小さいとき)やz値(母分散が既知、または、サンプルサイズが大きいとき)が用いられることが多いだけのことです。今回の例では、コインの表裏は正規分布ではなく二項分布に従いますし、サンプルサイズも5や10と小さいので、t値やz値を用いることはむしろ不適切といえます。

yan
データ分析官・データサイエンス講座の講師