DS検定

オッズ比の計算と解釈が案外紛らわしい(ロジット分析Part1)

ロジスティック分析(ロジスティック回帰)は線形回帰の中で有名な手法ですが、「ロジット分析」を聞いたことのある人は案外少ないかもしれません。

ロジット(logit)はあったかもロジスティック(logistic)の略字のように見えて、実際そのように説明している文献もあります。 しかし、この両者は似たような分析を異なる視点から行うものと私は解釈すべきだと思います。

あえて簡単にいうならば、ロジスティック分析は確率を求めること、ロジット分析は回帰係数を求めることに着目しているということができそうです。

よく見られるロジスティック回帰の関数の形式は以下の通りです。ただしここでは説明 変数としてX1,X2の2つを仮定します。

P(X = (X1,X2)) = 1/(1+exp(-(aX1+ bX2 + c))    …(式1)

 

これに対して、ロジット分析の関数は以下のように表されます。

  ln(オッズ比)      …(式2)

では、次にオッズやオッズ比についてまず見てみましょう。

ちなみに、ロジスティック分析に関してはぜひこの記事を読んでください。

参考↓

読者の疑問に答える!線形回帰分析の「線形」はどういう意味?回帰分析とは、ビジネスにおいて最も多く使われているデータ分析手法の1つです。そのシンプルさ、分析結果の説明のしやすさなどが人気の理由です...

 

オッズとオッズ比

オッズとは、ある事象が起こる可能性で、発生しない確率(1-p)に対する発生する確率 (p)の比率である((式3))。

…. (式3)

つまり、オッズが1より大きいと「発生する確率」が「発生しない確率」より大きいことを、逆に1より小さいと「発生しない確率」が発生する確率より大きいことを意味します。また、オッズが 取りうる値の範囲は [0, ∞]です。

そして、オッズ比とは二つのオッズの比率です。
例えば、式3でp(Y=1)を(家が駅から10分以上離れている世帯が子供を持つ確率)とすると、オッズ比は、(家が駅から10分以上離れている世帯が子供を持つ確率)/ (家が駅から10分以上離れている世帯が子供を持たない確率) となります。

下の表は家が駅から10分以上離れているかどうかと子供を持つかどうかを示しているク ロス表です。

ここでオッズ1は:

(家が駅から10分以上離れている世帯が子供を持つ確率)/ (家が駅から10分以上離れて

いる世帯が子供を持たない確率)
= [a/(a+c)] / [c/(a+c)] = a/c = 7/2

オッズ2とは:

(家が駅から10分未満の世帯が子供を持つ確率)/ (家が駅から10分未満の世帯が子供を 持たない確率)
= [b/(b+d)] / [d/(b+d)] = b/d =3/8

そして、オッズ比は オッズ1/オッズ2=7*8/2*3=28/3 となります。

オッズ比の解釈に注意

確率とオッズ比の解釈が異なることには注意が必要です。 確率が0.5と聞くと、比較する2つの現象が同じくらい起こりやすい、あるいはある事象が発生する確率と発生しない確率が同じくらい、つまり「どちらにも同じくらいなりうる」ということになります。しかし、ここで、発生する確率と発生しない確率が0.5で同じである場合にはオッズは1になることがポイントです。もしオッズ比が1を下回ることがあれば、注目される事象の確率が減っていることを意味します。

また、この記事のPart2以降で話すが、オッズ比はロジット分析に深く関連するもので、オッズ比が1より小さい時に回帰係数が負の値になります

例えば、目的変数としてダミー変数「家が駅から10分未満かどうか」があり(10分未満を1、10分以上を0)を用いて、説明変数「子供の数」が就業に与える影響を分析した結果、回帰係数が「-1.05」が出て、オッズ比は「0.4」が得られたと仮定しましょう。しかしながら、一部の方は「0.4」という数値を、それが正である故に間違って解釈してしまうこともあるようです。この結果は子供の数が一人増えると、「家が駅から10分未満」である可能性が0.4倍増加すると読み取ることができるものの、実際は子供の数が増えると家が駅から遠くなることを示唆しています。

この話題の後半では、オッズ比を用いたロジット分析、及びロジスティック分析との関係性について記します。

執筆担当:ヤン ジャクリン (GRI分析官・講師)

 

 

yan
データ分析官・データサイエンス講座の講師