データサイエンス

気を付けないと騙される!?統計の落とし穴【シンプソンのパラドックス】

こんにちは!ひよっこデータ分析官のyokochanです。

最近あらゆるメディアでグラフやアンケート結果を見るときに、結果そのものよりもどうやって集計したのか、の方が先に気になるようになるくらいにはデータ分析に染まってきました。

50人の小学生に聞いた”なりたい職業ランキング”を世間一般の小学生のランキングとして出してるのを見た日には怒りで眠れません。(嘘です)

今日はデータを見る側も分析する側も気を付けないと結果の捉え方を間違えてしまうという面白い話を見つけたので紹介します。

具体例

以下の問題について考えてみてください。

とある番組Aの視聴率調査をP市とQ市でそれぞれ行いました。

その結果、
男性の視聴率は、P市よりQ市の方が高く、
女性の視聴率も、P市よりQ市の方が高くなりました。

では、全体の視聴率はP市とQ市どちらが高いでしょうか?

1.P市が高い
2.Q市が高い
3.どちらが高いかわからない

正解は、、

 

 

3.どちらが高いかわからない

です!

これを問題にしてるということは2じゃないんだろうなぁ…くらいは勘づくでしょうが、じゃあこの状況で「全体の視聴率はP市が高い」というケースはあるのでしょうか?

解説

実際の数字を入れて見れば一目瞭然です。

ポイントはそれぞれの分母の数です。

以下のような状況だと、「全体の視聴率はP市が高い」が成り立ちます。

男性
女性
全体
P市 5人/50人=10% 35人/100人=35% 40人/150人=26.7%
Q市 15人/100人=15% 20人/50人=40% 35人/150人=23.3%

このように母集団全体の結果と母集団を分割したときの結果が異なる場合があるという説を”シンプソンのパラドックス”と言います。

具体的な例は検索するといろいろ出てくるので興味ある方はぜひ調べてみてください。

私たちが気を付けたほうが良いこと

さて、この例から得られた結果の定義や着目している部分がどこなのかには細心の注意を払わなければならないことがわかります。

今の世の中、あらゆるデータや統計情報が溢れています。

そうしたデータを見る側としては、表面的な結果だけを見て騙されないようにする

データを分析する側としては、間違った解釈を招くような集計をしない

といったことが大切だと思います。

yokochan
データ基盤構築やデータ可視化をやっています。 夏は沖縄の海、冬は北海道の山、年がら年中ももクロのライブ会場。