【G検定知識】AICとBICを用いたモデル選択｜CO-WRITE ─ AIとデータサイエンス by GRI

赤池情報量規準（AIC）とベイズ情報量規準（BIC）は、いずれもモデルを選択するための基準とする指標です。以下の2つの要素のバランスをもとにモデルの良さを評価します。

モデルのデータへの当てはまりの良さ（尤度/適合度）
モデルの複雑さ（パラメータ数）

※正式名称は赤池情報量規準（Akaike’s information criterion; AIC）とベイズ情報量規準（Bayesian Information Criterion; BIC）

（ポイント）考え方としては、データへの適合度（最大尤度）と、モデルの複雑さ（パラメータ数）のバランスを取ることで、過学習を防ぐことです。

AICとBICはそれぞれ式1と式2で定義されます。複数のモデル候補を比較した際に、AIC またはBICの値が小さいほど優れたモデルと評価されます。

式１：AICの計算式

AIC = −2ln(θ)+2k

式２：BICの計算式

BIC = = −2ln(θ)+k・ln(n)

ここで、kはモデルのパラメータの数、θは最尤推定量、Lは尤度関数、nはデータ数です。

■第１項：データへの当てはまりの良さ

AICとBICは第１項が共通です。この第1項は「モデルのデータに対する当てはまりの良さ」を表し、当てはまりが良いほど小さい値を取ります。

lnL（θ）は最大対数尤度といい、対数尤度関数（likelihood function）lnL に、最尤推定量（maximum likelihood estimate）θを代入したものです。この最尤推定量θとは、モデルのパラメータについての「最も尤もっともらしい」（一番理にかなっている）推定量を意味します。

対数尤度は、観測値とモデルによる推定値の残差を用いて計算されます。モデルがデータとよく一致しているほど、尤度は大きくなります。よって、尤度の対数を取り、正負を逆転させた第１項 −2ln(θ) は、モデルがデータとよく一致しているほど小さくなります。

■第２項：モデルの複雑さ

次に、式1と式2の第２項がなぜ必要なのかを理解していきましょう。

一般に、モデルが高次元で複雑になるほどデータへの適合度は向上します（尤度は大きくなります）。しかし同時に、モデルが訓練データのすべての点にピッタリ当てはまる「合わせこみすぎ」の状態になります。これは過学習している状態で、機械学習において避けるべき状況です。

ところが、第１項にある尤度は過学習が起きているかどうかに関わらず、モデルがデータによく合うほど大きくなります。よって、仮に対数尤度のみをモデル選択の基準に用いた場合、過学習しやすいモデルが選ばれてしまいます。そのため、AICとBICでは第2項として、AICでは2k、BICではk・ln(n) を導入し、「複雑さに対するペナルティ」を加え、適切なモデルを選択しようとします。ここで、k はモデルのパラメータの数で、説明変数が少ないシンプルで過学習の起きにくいモデルほど小さい値を取ります。

「モデルのデータに対する当てはまりの良さ」と「モデルの複雑さ」のバランスを取るということは、回帰分析の正則化における「ペナルティ項（罰則項）」と同じ考え方です。

■ AICとBICの違い

AICとBICの第２項の違いに注目しましょう。

	ペナルティ項（第ニ項）	特徴
AIC	2k	パラメータ数kにのみ依存
BIC	k・ln(n)	パラメータ数kとデータ数nの両方に依存

BIÇについて、ln(n)はデータサイズnとともに増大するため、データ数が多い場合、パラメータ数kが増えると、BICの値が顕著に増大します。

次のようにまとめることができます
AIC：モデルの複雑さへのペナルティは比較的弱い
BIC：モデルの複雑さへのペナルティは強い（特にデータ数が多い場合）

したがって、BICの方がシンプルなモデルを選びやすいです。逆に言うと、モデルの複雑さを強く制限したい場合にBICを用いてモデルを選択するとよいです。

【G検定の予想問題】

赤池情報量規準（AIC）とベイズ情報量規準（BIC）の説明として、最も不適切な選択肢を１つ選べ。

1 AICと比べて、BICの方がモデルの複雑さに対するペナルティが強い。

2 AICとBICはともに、値が小さいほど優れたモデルを意味する。

3 AICとBICはともに、ペナルティ項がデータサイズに依存する。

4 AICとBICはともに、モデルのパラメータ数に依存する。

【解答・解説】

選択肢3が誤った内容である。

AICとBICはともにモデルの複雑さに対するペナルティ項があります。一方で、BICのペナルティ項k・ln(n)はパラメータ数とデータサイズ(n)の両方に依存するのに対し、AICのペナルティ項2kはパラメータ数(k)にのみに依存します。ゆえに選択肢３は誤りです。

そのため、モデルのパラメータが多い場合、AICよりもBICのほうが値は大きく増えます（選択肢１）。BICはモデルの複雑さへのペナルティが比較的強いため、BICの方がシンプルなモデルを選びやすくなります。

選択肢2： AICとBICはともに、第1項は「モデルのデータに対する当てはまりの良さ」が良いほど小さい値を取ります。第２項は、モデルの複雑さに関する指標であり、モデルがシンプル（パラメータ数が少ない）ほど小さな値を取ります。

選択肢４：AICとBICはともに、第１項が予測精度に依存し、第２項はパラメータ数に依存し、過学習の起きにくいモデルにも着目します。

データ分析・AIの専門家集団 GRI

[データ分析・AIの専門家集団「GRI」と一緒に仕事をしませんか？お問い合わせお待ちしております]