数学

オッズ比の対数と確率値・回帰係数の推定(ロジット分析Part2)

前回のPart1ではロジット分析に使用されるオッズ比について紹介しました。

オッズ比の計算と解釈が案外紛らわしい(ロジット分析Part1) ロジスティック分析(ロジスティック回帰)は線形回帰の中で有名な手法ですが、「ロジット分析」を聞いたことの...

今回のPart2ではロジット分析とロジスティック分析、この2つのアプローチの違いをどう解釈すべきかについて、なるべくわかりやすく説明することを目指します。

前述の通り、ロジット変換とはオッズ比の対数を取ったものです。

ロジット変換をすることにおり、扱うデータの性質が変わります。

本来0と1という質的データを持つ目的変数Yの値(例:1は顧客が離脱する、0は離脱しない)は[-∞, +∞] の範囲に変換されます。さらに、変換後は形式的に連続性のある量的データのように扱うことができるようになります。

上記のロジット変換の式を見ると、解釈が難しいと思われる方もいるでしょう。P(Y=1)という確率値であればある程度理解できるが、なぜその対数をとるのでしょうか。

実は、これが確率値を出力とするロジスティック分析とロジット分析の接点です。

ロジスティック分析を表す回帰の式は次のように記すことができます。ただし、X = (x1,x2) を説明変数(特徴量)とし、Y を目的変数とします(二値分類を仮定)。

ここで、Y(目的変数)はカテゴリーなどの質的変数(例:購入するをY=1とする)です。

ここで、以下のようにロジット変換の式変形を行うことによって、ロジット変換は実はロジスティック回帰の中の係数と説明変数の線型結合の部分(ax1+bx2+c)に等しいことがわかります。

このように式変形されたロジットのモデルは、線形モデルとしてみなされ、その係数a,b,cを通常の回帰分析と似た感覚で推定することができます。しかし、但し、回帰係数を推定する際には最小二乗法ではなく、通常最尤推定法(maximum likelihood method)を使います。尤度(likelihood)は以下のように表すことができます。

L(P,k,n)= nCkPk(1-P)n-k

ここでnはサンプル・サイズ、kはY=1となる回数、PはY=1となる確率を意味します。通常は、尤度の対数を取った対数尤度(log likelihood)が使われます。データサイズと回数が不変である場合は、尤度を最大にする確率Pを求め、そこから回帰係数を求めることができます。

以上をまとめると、最終的な目的や関与されるパラメータが共通でも、ロジット分析は一般的に回帰係数を求めることを目的とし、ロジスティック分析は確率(またはオッズ比)を求めようとする、と理解することができます。また、ロジット変換を行うことによって、質的データである目的変数が量的データとして扱われるようになります。

 

執筆担当者:ヤン ジャクリン(分析官・講師)

yan
データ分析官・データサイエンス講座の講師