よくある仮説検定の手順(教科書的な説明)
仮説検定の手順は、教科書的には次のように説明されます。
1)仮説(帰無仮説と対立仮説)を設定する
2)使用する有意水準と検定統計量の種類を決める
3)標本データに基づいて検定統計量を計算する
4)検定(仮説の検証)を行い、その結果をもとに帰無仮説を棄却するか を判断する
ところが、初めて学ぶ者にとって、この手順は必ずしもわかりやすいものではありません。そこで、これまでとは違う視点から、仮説検定を具体的で身近なイメージで考えてみようと思います。
新しい視点から仮説検定を理解
次のような例を考えてみましょう。
コインを5回投げて1回もあたらない?!
参加者全員のお菓子がありません。そこで、コイン投げで公平に配ることになりました。コインを投げ、表が出たら「お菓子がもらえる」、裏が出たら「何ももらえない」というルールです。
主催者:「コインには、何もしかけはありません。公平なくじ引きです」
参加者:「それなら公平だ」
主催者:「Aさんのコインは裏でした。残念。」
参加者A:「えー残念」
主催者:「Bさんのコインも裏でした。残念。」
参加者B:「また裏?残念」
主催者:「Cさんのコインも裏でした。残念。」
参加者C:「また裏?本当?」
主催者:「Dさんのコインも裏でした。残念。」
参加者D:「コインおかしくない?」
主催者:「Eさんのコインも裏でした。残念。」
参加者E:「インチキだ!」
本当にこのコイン投げは公平なのでしょうか?
本当に何もしかけもないコインなら、こんなことは起きないのではないしょうか?
(補足:この何気ない表現「本当に何もしかけもないコインなら」に注目しておいてください。これは、後で登場する「帰無仮説が正しいと仮定して」に対応しており、仮説検定においてとても重要な仮定の考え方です。)
仮にこのコインに何もしかけがなく、公平にコインを投げたとしましょう。その場合、5回連続して裏が出ることは、約3.1%の確率で起こります。
0.5×0.5×0.5×0.5×0.5=0.03125
ですから、この結果からこのコイン投げが「絶対にインチキだ!」と断言できません。一方、「5回連続裏が出たのはたまたま起きたにすぎず、絶対に公平なコイン投げだ」と断言することもできません。
コインを10回投げて1回もあたらない?!
次に、裏が10回連続出たとしたらどうでしょうか?
主催者:「コインには、何もしかけはありません。公平なくじ引きです」
参加者:「それなら公平だ」
主催者:「Aさんのコインは裏でした。残念。」
参加者A:「えー残念」
主催者:「Bさんのコインも裏でした。残念。」
参加者B:「また裏?残念」
主催者:「Cさんのコインも裏でした。残念。」
参加者C:「また裏?本当?」
主催者:「Dさんのコインも裏でした。残念。」
参加者D:「コインおかしくない?」
主催者:「Eさんのコインも裏でした。残念。」
参加者E:「インチキだ!」
主催者:「Fさんのコインも裏でした。残念。」
主催者:「Gさんのコインも裏でした。残念。」
主催者:「Hさんのコインも裏でした。残念。」
主催者:「Iさんのコインも裏でした。残念。」
主催者:「Jさんのコインも裏でした。残念。」
参加者F~J:「・・・」
さすがにここまで裏が続けば、このくじは絶対に不公平だと言いたくなります。
でも、本当に言い切れるのでしょうか?
仮にこのコインに何もしかけがなく、公平にコインを投げたとしましょう。その場合、10回連続して裏が出ることは、約0.1%の確率で起こります。
0.5×0.5×0.5×0.5×0.5×0.5×0.5×0.5×0.5×0.5=0.0009765625
約0.1%の確率で起こりうるわけですから、この結果からも、このコイン投げが「絶対にインチキだ!」と断言できません。
それでも、これくらい確率が低いとなると、次のように反論したくなるかもしれません。
「約0.1%なんて、ほぼゼロでしょう。ほとんど起こりえないことが起きたんだから、不公平だと考えるのが自然でしょう!」
一方で、厳密な証拠にこだわる人は、次のように反論するでしょう。
「約0.1%と0は異なる。約0.1%の確率で起こりうる以上、不公平とは言い切れない」
上記で、一体どちらが正しいのでしょうか?
結論から言うと、どちらが正しいとも、どちらが間違っているとも、断言できません。どちらのほうが「正しい可能性が高い」かは言えますが、100%確実に白黒決着をつけることはできません。
仮説検定の考え方
統計学は科学なのだから、人間の思い、主観、希望に左右されてはならないと考える人もいるでしょう。そのような価値観から見ると、「約0.1%なんて、ほぼゼロでしょう」「ほとんど起こりえないことが起きたんだから、不公平だと考えるのが自然でしょう!」という発言は、主観的であり、科学的ではないと思われるかもしれません。公平なのか不公平なのか、100%確実な決着をつけてもらいたいと思うかもしれません。
しかし、実は、主観的とも思える「約0.1%なんて、ほぼゼロでしょう」「ほとんど起こりえないことが起きたんだから、不公平だと考えるのが自然でしょう!」という発言に、統計学の本質が隠れています。
統計学の限界として、100%確実な答えを出すことはできません。統計学は、「人間の判断がなくても、物事に白黒をはっきりさせてくれるもの」ではありません。統計学が出せるのは、データをもとにした確率や誤差などの数値であり、その数値から判断を下すのはやはり「思考する人間」なのです。
コイン投げの例に戻りましょう。
- 主催者は「コインには、何もしかけはありません。公平なくじ引きです」と言っています。
- 参加者は「コインには仕掛けがあり、不公平なくじ引きだ!」と言っています。
これを、仮説検定の用語「帰無仮説」「対立仮説」を使って表すと、次のようになります[1]。
- 帰無仮説:コインにしかけはない。表が出る確率は0.5である。
- 対立仮説:コインにしかけがある。表が出る確率は0.5ではない。
これが手順の 1)仮説(帰無仮説と対立仮説)を設定する」に該当します。
先ほどの例で、参加者は「約0.1%なんて、ほぼゼロでしょう」「ほとんど起こりえないことが起きたんだから、不公平だと考えるのが自然でしょう!」と言いました。
この「ほぼゼロでしょう」「ほとんど起こりえないことが起きた」とみなす基準が、統計学の重要用語「有意水準」です。
有意水準の意味を考える際に重要なことは、帰無仮説(ここでは主催者の主張)が正しいといったん仮定する、ということです。帰無仮説が正しいときに、どういう結果(ここではコインの裏表)が起きうるのかを考えます。コイン投げのような確率的な現象を扱っていますので、結果は1通りではなく、さまざまな結果が考えられます。そして、それらの結果の起こりやすさは同じではなく、起こりやすいものと起こりにくいものがあります[2]。
そこで改めて、得られたデータ(コインの裏表の結果)を見ます。帰無仮説が正しいとした場合に、その得られたデータは起きやすい現象だったのか、それとも、起きにくい現象だったのかを、確率を計算して判断します。
コイン投げの例で言うと、主催者の主張どおり「コインにしかけはなく、表が出る確率は0.5である」場合に、「裏が連続して5回も10回も出る」ことがどれくらいの確率で起こるのかを計算します。その確率が非常に小さく「ほぼゼロ」とみなせるとき、「帰無仮説が正しいとしたら、ほとんど起こりえないことが起きた」と考えます。すなわち、「帰無仮説は正しくない」と判断し、主催者の主張は正しくなく、「コインにしかけはあり、表が出る確率は0.5ではない」と判断します。この「ほぼゼロ」とみなす基準が「有意水準」です。
有意水準の設定
では、有意水準はどのように設定するべきでしょうか?コイン投げの具体的なイメージで確認しましょう。
- 裏が5回連続で出る確率である約3.1%について、確率はほぼゼロとみなして「ほとんど起こりえないこと」と言ってよいでしょうか?それとも、ほぼゼロとは言えず、「それなりの確率で起こりうること」でしょうか?
- 裏が10回連続で出る確率である約0.1%について、確率はほぼゼロとみなして「ほとんど起こりえないこと」と言ってよいでしょうか?それとも、ほぼゼロとは言えず、「それなりの確率で起こりうること」でしょうか?
正解はありません。統計学を使う皆さんが考えて決めることなのです[3]。
ただし、結果を見てから決めてはいけません(科学のルールに反します)。事前に「〇%を基準に判断しよう」と決めてから、計算をするのです。そして、計算を見て基準を変えてはいけません。
〇「5%を基準に判断しよう」→計算したら4%だった→「確率はほぼゼロとみなそう」
×「5%を基準に判断しよう」→計算したら5.1%だった→「5%を少し上回ってしまったが、ほぼ5%のようなものだから、基準をちょっと緩めて、5.1%も確率はほぼゼロとみなそう」
×「1%を基準に判断しよう」→計算したら3%だった→「1%基準は厳しすぎたから、やっぱり5%を基準にして、確率はほぼゼロとみなそう」
統計が使われる多くの例では、有意水準として5%が用いられることが多いです。つまり、確率5%以下は「ほぼゼロでしょう」「ほとんど起こりえないこと」とみなすというわけです。しかし、5%に根拠があるわけではなく、あくまでも慣習です。ですから、統計学を使うときは、有意水準の意味を考え、自分でしっかり考えて決めなくてはいけません。
物理学のノーベル賞級の大発見では、0.00003%のようなとてつもない厳しい基準が用いられることもあります。一方で、ビジネスの分野では、後で判断が間違っていることが分かってもよいから、役に立つ可能性のあるヒントを得る目的で10%のように非常に緩い基準を用いることもあります。
ここでは、例として1%を基準(有意水準)としてみましょう[4]。続いて、検定統計量の種類を決める必要がありますが、ここでは単純に「コインの裏が出た回数」としましょう。検定統計量としては、検証したい仮説に関係する、確率が計算可能な「数値」として、最も適切と考えられるものを考えて設定します[5]。
ここまでで、手順「2)使用する有意水準と検定統計量の種類を決める」が完了します。
ここまでの議論を整理しましょう(仮説の設定と検定統計量の計算)
今回のコイン投げの例では、
- 「コインを5回投げて、裏が5回連続で出た」
- 「コインを10回投げて、裏が10回連続で出た」
といった事例について、
- 帰無仮説:コインにしかけはない。表が出る確率は0.5である。
- 対立仮説:コインにしかけがある。表が出る確率は0.5ではない。
のどちらが妥当か(どちらが「正しいか」ではない!)を検定しようとしています。
そして、有意水準(ほとんど起こりえないこととみなす確率の基準)を1%、統計検定量として「コインの裏が出た回数」としましたので、統計検定量は以下となります。
- コイン5回の例:コインの裏が出た回数=5
- コイン10回の例:コインの裏が出た回数=10
ここまでで、手順「3)標本データに基づいて検定統計量を計算する」が完了です。
さて、ここからいよいよ仮説検定もクライマックスです。
次回のPart2では、上記の仮説と検定統計量に対する考え方を導き出しましょう。次回も楽しみにしてください。
執筆担当者:ヤン ジャクリン (データ分析官・講師)
[1] 帰無仮説と対立仮説が逆ではいけないのでしょうか?通常、帰無仮説は「等号(=)」を使って表せる仮説をあてはめます。コイン投げの例では、「表が出る確率=0.5」と「等号(=)」を使って表せる主催者側の主張を帰無仮説とします。参加者側の主張「表が出る確率≠0.5」あるいは「表が出る確率<0.5」のように、「等号(=)」では表せず、不等号などのそれ以外の記号を使って表されます。
[2] 直感的には、しかけのないコインを使えば、表と裏が同じくらいの頻度で出るのが「起こりやすい」現象で、同じ側だけがずっと連続して出るのが「起こりにくい」現象と思うでしょう。直感が必ずしも正しいとは限りませんが、このケースでは正しいでしょう。
[3] 学問分野や業界によって慣習があったり、ガイドラインが定められていたりすることも多いです。慣習やガイドラインが自身の感覚と異なる場合は、異なる基準を選んでもよいでしょう。ただし、それを公の場で発表したり、学術的な論文として残したりする場合は、なぜそのような基準を選んだのかを説明できないと、相手にされないかもしれません。だからといって、盲目的に慣習やガイドラインに従うのも考え物です。
[4] ご自身の感覚で5%、0.1%など、別の基準が適切と思われる方は、ご自身の基準で計算してみてください。今回の例では、有意水準を5%とすると、「5%の確率で起こりうることをゼロとみなす」ということです。「20回に1回起こりうる出来事で、主催者をインチキと決めつけてよいのか?」という筆者の主観に基づいて1%としてみました。このように主観的な要因が含まれるのも統計学の特徴です。
[5] 統計検定量は「t値」や「z値」ではないの?と思った方もいるかもしれません。確かに、統計学の教科書で取り上げられる統計検定量はt値やz値がほとんどです。しかし、統計検定量とは、仮説を検証するためには「何の」確率を計算すればよいのかを考えて決めるものであり、t値やz値を用いればよいというものではありません。世の中の多くの例では、母集団が正規分布に従っていることを仮定することが多いため、t値(母分散が不明でサンプルサイズが小さいとき)やz値(母分散が既知、または、サンプルサイズが大きいとき)が用いられることが多いだけのことです。今回の例では、コインの表裏は正規分布ではなく二項分布に従いますし、サンプルサイズも5や10と小さいので、t値やz値を用いることはむしろ不適切といえます。