正規分布を使わずに『仮説検定』の理論を驚くほどわかりやすく〜 Part1〜

よくある仮説検定の手順（教科書的な説明）
新しい視点から仮説検定を理解
仮説検定の考え方

よくある仮説検定の手順（教科書的な説明）

仮説検定の手順は、教科書的には次のように説明されます。

1）仮説（帰無仮説と対立仮説）を設定する

2）使用する有意水準と検定統計量の種類を決める

3）標本データに基づいて検定統計量を計算する

4）検定（仮説の検証）を行い、その結果をもとに帰無仮説を棄却するかを判断する

ところが、初めて学ぶ者にとって、この手順は必ずしもわかりやすいものではありません。そこで、これまでとは違う視点から、仮説検定を具体的で身近なイメージで考えてみようと思います。

新しい視点から仮説検定を理解

次のような例を考えてみましょう。

コインを5回投げて1回もあたらない？！

参加者全員のお菓子がありません。そこで、コイン投げで公平に配ることになりました。コインを投げ、表が出たら「お菓子がもらえる」、裏が出たら「何ももらえない」というルールです。

主催者：「コインには、何もしかけはありません。公平なくじ引きです」

参加者：「それなら公平だ」

主催者：「Aさんのコインは裏でした。残念。」

参加者A：「えー残念」

主催者：「Bさんのコインも裏でした。残念。」

参加者B：「また裏？残念」

主催者：「Cさんのコインも裏でした。残念。」

参加者C：「また裏？本当？」

主催者：「Dさんのコインも裏でした。残念。」

参加者D：「コインおかしくない？」

主催者：「Eさんのコインも裏でした。残念。」

参加者E：「インチキだ！」

本当にこのコイン投げは公平なのでしょうか？

本当に何もしかけもないコインなら、こんなことは起きないのではないしょうか？

（補足：この何気ない表現「本当に何もしかけもないコインなら」に注目しておいてください。これは、後で登場する「帰無仮説が正しいと仮定して」に対応しており、仮説検定においてとても重要な仮定の考え方です。）

仮にこのコインに何もしかけがなく、公平にコインを投げたとしましょう。その場合、５回連続して裏が出ることは、約3.1%の確率で起こります。

0.5×0.5×0.5×0.5×0.5＝0.03125

ですから、この結果からこのコイン投げが「絶対にインチキだ！」と断言できません。一方、「５回連続裏が出たのはたまたま起きたにすぎず、絶対に公平なコイン投げだ」と断言することもできません。

コインを10回投げて1回もあたらない？！

次に、裏が１０回連続出たとしたらどうでしょうか？

主催者：「コインには、何もしかけはありません。公平なくじ引きです」

参加者：「それなら公平だ」

主催者：「Aさんのコインは裏でした。残念。」

参加者A：「えー残念」

主催者：「Bさんのコインも裏でした。残念。」

参加者B：「また裏？残念」

主催者：「Cさんのコインも裏でした。残念。」

参加者C：「また裏？本当？」

主催者：「Dさんのコインも裏でした。残念。」

参加者D：「コインおかしくない？」

主催者：「Eさんのコインも裏でした。残念。」

参加者E：「インチキだ！」

主催者：「Fさんのコインも裏でした。残念。」

主催者：「Gさんのコインも裏でした。残念。」

主催者：「Hさんのコインも裏でした。残念。」

主催者：「Iさんのコインも裏でした。残念。」

主催者：「Jさんのコインも裏でした。残念。」

参加者F～J：「・・・」

さすがにここまで裏が続けば、このくじは絶対に不公平だと言いたくなります。

でも、本当に言い切れるのでしょうか？

仮にこのコインに何もしかけがなく、公平にコインを投げたとしましょう。その場合、10回連続して裏が出ることは、約0.1%の確率で起こります。

0.5×0.5×0.5×0.5×0.5×0.5×0.5×0.5×0.5×0.5＝0.0009765625

約0.1%の確率で起こりうるわけですから、この結果からも、このコイン投げが「絶対にインチキだ！」と断言できません。

それでも、これくらい確率が低いとなると、次のように反論したくなるかもしれません。

「約0.1%なんて、ほぼゼロでしょう。ほとんど起こりえないことが起きたんだから、不公平だと考えるのが自然でしょう！」

一方で、厳密な証拠にこだわる人は、次のように反論するでしょう。

「約0.1%と0は異なる。約0.1%の確率で起こりうる以上、不公平とは言い切れない」

上記で、一体どちらが正しいのでしょうか？

結論から言うと、どちらが正しいとも、どちらが間違っているとも、断言できません。どちらのほうが「正しい可能性が高い」かは言えますが、100%確実に白黒決着をつけることはできません。

仮説検定の考え方

統計学は科学なのだから、人間の思い、主観、希望に左右されてはならないと考える人もいるでしょう。そのような価値観から見ると、「約0.1%なんて、ほぼゼロでしょう」「ほとんど起こりえないことが起きたんだから、不公平だと考えるのが自然でしょう！」という発言は、主観的であり、科学的ではないと思われるかもしれません。公平なのか不公平なのか、100%確実な決着をつけてもらいたいと思うかもしれません。

しかし、実は、主観的とも思える「約0.1%なんて、ほぼゼロでしょう」「ほとんど起こりえないことが起きたんだから、不公平だと考えるのが自然でしょう！」という発言に、統計学の本質が隠れています。

統計学の限界として、100％確実な答えを出すことはできません。統計学は、「人間の判断がなくても、物事に白黒をはっきりさせてくれるもの」ではありません。統計学が出せるのは、データをもとにした確率や誤差などの数値であり、その数値から判断を下すのはやはり「思考する人間」なのです。

コイン投げの例に戻りましょう。

主催者は「コインには、何もしかけはありません。公平なくじ引きです」と言っています。
参加者は「コインには仕掛けがあり、不公平なくじ引きだ！」と言っています。

これを、仮説検定の用語「帰無仮説」「対立仮説」を使って表すと、次のようになります[1]。

帰無仮説：コインにしかけはない。表が出る確率は0.5である。
対立仮説：コインにしかけがある。表が出る確率は0.5ではない。

これが手順の　1）仮説（帰無仮説と対立仮説）を設定する」に該当します。

先ほどの例で、参加者は「約0.1%なんて、ほぼゼロでしょう」「ほとんど起こりえないことが起きたんだから、不公平だと考えるのが自然でしょう！」と言いました。

この「ほぼゼロでしょう」「ほとんど起こりえないことが起きた」とみなす基準が、統計学の重要用語「有意水準」です。

有意水準の意味を考える際に重要なことは、帰無仮説（ここでは主催者の主張）が正しいといったん仮定する、ということです。帰無仮説が正しいときに、どういう結果（ここではコインの裏表）が起きうるのかを考えます。コイン投げのような確率的な現象を扱っていますので、結果は１通りではなく、さまざまな結果が考えられます。そして、それらの結果の起こりやすさは同じではなく、起こりやすいものと起こりにくいものがあります[2]。

そこで改めて、得られたデータ（コインの裏表の結果）を見ます。帰無仮説が正しいとした場合に、その得られたデータは起きやすい現象だったのか、それとも、起きにくい現象だったのかを、確率を計算して判断します。

コイン投げの例で言うと、主催者の主張どおり「コインにしかけはなく、表が出る確率は0.5である」場合に、「裏が連続して5回も１０回も出る」ことがどれくらいの確率で起こるのかを計算します。その確率が非常に小さく「ほぼゼロ」とみなせるとき、「帰無仮説が正しいとしたら、ほとんど起こりえないことが起きた」と考えます。すなわち、「帰無仮説は正しくない」と判断し、主催者の主張は正しくなく、「コインにしかけはあり、表が出る確率は0.5ではない」と判断します。この「ほぼゼロ」とみなす基準が「有意水準」です。

有意水準の設定

では、有意水準はどのように設定するべきでしょうか？コイン投げの具体的なイメージで確認しましょう。

裏が５回連続で出る確率である約3.1%について、確率はほぼゼロとみなして「ほとんど起こりえないこと」と言ってよいでしょうか？それとも、ほぼゼロとは言えず、「それなりの確率で起こりうること」でしょうか？
裏が１０回連続で出る確率である約0.1%について、確率はほぼゼロとみなして「ほとんど起こりえないこと」と言ってよいでしょうか？それとも、ほぼゼロとは言えず、「それなりの確率で起こりうること」でしょうか？

正解はありません。統計学を使う皆さんが考えて決めることなのです[3]。

ただし、結果を見てから決めてはいけません（科学のルールに反します）。事前に「〇％を基準に判断しよう」と決めてから、計算をするのです。そして、計算を見て基準を変えてはいけません。

〇「5%を基準に判断しよう」→計算したら4%だった→「確率はほぼゼロとみなそう」

×「5%を基準に判断しよう」→計算したら5.1%だった→「5%を少し上回ってしまったが、ほぼ5%のようなものだから、基準をちょっと緩めて、5.1%も確率はほぼゼロとみなそう」

×「1%を基準に判断しよう」→計算したら3%だった→「1%基準は厳しすぎたから、やっぱり5%を基準にして、確率はほぼゼロとみなそう」

統計が使われる多くの例では、有意水準として5%が用いられることが多いです。つまり、確率5%以下は「ほぼゼロでしょう」「ほとんど起こりえないこと」とみなすというわけです。しかし、5%に根拠があるわけではなく、あくまでも慣習です。ですから、統計学を使うときは、有意水準の意味を考え、自分でしっかり考えて決めなくてはいけません。

物理学のノーベル賞級の大発見では、0.00003%のようなとてつもない厳しい基準が用いられることもあります。一方で、ビジネスの分野では、後で判断が間違っていることが分かってもよいから、役に立つ可能性のあるヒントを得る目的で10%のように非常に緩い基準を用いることもあります。

ここでは、例として1%を基準（有意水準）としてみましょう[4]。続いて、検定統計量の種類を決める必要がありますが、ここでは単純に「コインの裏が出た回数」としましょう。検定統計量としては、検証したい仮説に関係する、確率が計算可能な「数値」として、最も適切と考えられるものを考えて設定します[5]。

ここまでで、手順「2）使用する有意水準と検定統計量の種類を決める」が完了します。

ここまでの議論を整理しましょう（仮説の設定と検定統計量の計算）

今回のコイン投げの例では、

「コインを５回投げて、裏が５回連続で出た」
「コインを１０回投げて、裏が１０回連続で出た」

といった事例について、

帰無仮説：コインにしかけはない。表が出る確率は0.5である。
対立仮説：コインにしかけがある。表が出る確率は0.5ではない。

のどちらが妥当か（どちらが「正しいか」ではない！）を検定しようとしています。

そして、有意水準（ほとんど起こりえないこととみなす確率の基準）を1%、統計検定量として「コインの裏が出た回数」としましたので、統計検定量は以下となります。

コイン５回の例：コインの裏が出た回数＝５
コイン１０回の例：コインの裏が出た回数＝１０

ここまでで、手順「3）標本データに基づいて検定統計量を計算する」が完了です。

さて、ここからいよいよ仮説検定もクライマックスです。

次回のPart2では、上記の仮説と検定統計量に対する考え方を導き出しましょう。次回も楽しみにしてください。

執筆担当者：ヤン　ジャクリン　（データ分析官・講師）

補足

[1] 帰無仮説と対立仮説が逆ではいけないのでしょうか？通常、帰無仮説は「等号（＝）」を使って表せる仮説をあてはめます。コイン投げの例では、「表が出る確率＝0.5」と「等号（＝）」を使って表せる主催者側の主張を帰無仮説とします。参加者側の主張「表が出る確率≠0.5」あるいは「表が出る確率＜0.5」のように、「等号（＝）」では表せず、不等号などのそれ以外の記号を使って表されます。

[2] 直感的には、しかけのないコインを使えば、表と裏が同じくらいの頻度で出るのが「起こりやすい」現象で、同じ側だけがずっと連続して出るのが「起こりにくい」現象と思うでしょう。直感が必ずしも正しいとは限りませんが、このケースでは正しいでしょう。

[3] 学問分野や業界によって慣習があったり、ガイドラインが定められていたりすることも多いです。慣習やガイドラインが自身の感覚と異なる場合は、異なる基準を選んでもよいでしょう。ただし、それを公の場で発表したり、学術的な論文として残したりする場合は、なぜそのような基準を選んだのかを説明できないと、相手にされないかもしれません。だからといって、盲目的に慣習やガイドラインに従うのも考え物です。

[4] ご自身の感覚で5%、0.1%など、別の基準が適切と思われる方は、ご自身の基準で計算してみてください。今回の例では、有意水準を5%とすると、「5%の確率で起こりうることをゼロとみなす」ということです。「20回に1回起こりうる出来事で、主催者をインチキと決めつけてよいのか？」という筆者の主観に基づいて1%としてみました。このように主観的な要因が含まれるのも統計学の特徴です。

[5] 統計検定量は「ｔ値」や「ｚ値」ではないの？と思った方もいるかもしれません。確かに、統計学の教科書で取り上げられる統計検定量はｔ値やｚ値がほとんどです。しかし、統計検定量とは、仮説を検証するためには「何の」確率を計算すればよいのかを考えて決めるものであり、ｔ値やｚ値を用いればよいというものではありません。世の中の多くの例では、母集団が正規分布に従っていることを仮定することが多いため、ｔ値（母分散が不明でサンプルサイズが小さいとき）やｚ値（母分散が既知、または、サンプルサイズが大きいとき）が用いられることが多いだけのことです。今回の例では、コインの表裏は正規分布ではなく二項分布に従いますし、サンプルサイズも５や１０と小さいので、ｔ値やｚ値を用いることはむしろ不適切といえます。

データ分析・AIの専門家集団 GRI

[データ分析・AIの専門家集団「GRI」と一緒に仕事をしませんか？お問い合わせお待ちしております]

正規分布を使わずに『仮説検定』の理論を驚くほどわかりやすく〜 Part1〜

よくある仮説検定の手順（教科書的な説明）