DATA-SCIENCE

現在の機械学習分野を概観するための基礎知識  ~一般的な分析業務の手順とその留意点~ (4)

それでは、学習モデルの性能評価に良く用いられるROC曲線に関して説明していきます。ROC曲線では、各々のデータの陽性確率の閾値を変化させたときの「TPの割合」と「FPの割合」をプロットしていきます。例えば、以下のような表を考えます。

陽性確率 0.1 0.3 0.6 0.8 0.9
正解ラベル T F F T T

 
陽性確率の閾値を0.3として、それ以下を陰性(N)のグループ、それより大きいグループを陽性(P)と考えたとします。Nを青、Pを赤で表を塗りつぶしてみると、以下の表のようになります。

陽性確率 0.1 0.3 0.6 0.8 0.9
正解ラベル T F F T T

 
この時のTPの割合を考えます。3つのTのうち2つがPに入るため、TPの割合は0.67となります。一方でFPの割合は、2つのFのうち1つがPに入るので、FPの割合は0.5となります。以上から、閾値が0.3の時の座標 (FP, TP) はそれぞれ (0.50, 0.67) と計算できたので、この点をプロットします。陽性確率の閾値を0.0から1.0まで変化させ、全てのパターンに対してプロットすることでROC曲線が得られます。今回の表を用いると、下のようなグラフになります。

img7

 
ROC曲線はその性質上、曲線が左上の点 (FP, TP) = (0.0, 1.0) に近づくほど、そのモデルの性能が良いことを示します。どれだけ近づいたかを定量的に表す数値として、AUC (Area Under the Curve)があります。AUCは、ROC曲線の下側にできる領域の面積の大きさを表し、0.0~1.0までの値をとります。(下図参照)

img8
一般に、AUCが0.9以上のモデルが高精度とされ、0.7-0.9が適度な(moderate)精度、0.7-0.5は低精度とされます。0.5が低精度と言えるのは、ランダムにラベルを付与した際の近似が0.5になるところに起源があります。また、モデルによっては、AUCが0.0に近づくこともありますが、これはある意味、非常に高精度なモデルと言えます。なぜならそのモデルは「絶対に当たらない占い」のようなものなので、そのモデルの逆を予測すれば高確率で正答となるためです。

 

現在の機械学習分野を概観するための基礎知識
~一般的な分析業務の手順とその留意点~

固定ページ: 1 2

この記事をシェアする