DATA-SCIENCE

現在の機械学習分野を概観するための基礎知識  ~一般的な分析業務の手順とその留意点~ (2)

それぞれの事象が起こる確率の算術平均値と標準偏差を次の表にまとめました。

事象 確率の算術平均値 E(X) 標準偏差 \sigma
0.507 0.027
0.493 0.027
1の目 0.156 0.023
2の目 0.176 0.021
3の目 0.189 0.053
4の目 0.156 0.017
5の目 0.148 0.032
6の目 0.175 0.027

 
算術平均値はいわゆる平均値ですので、なじみ深いものと思います。算術平均値は次の式で求めることができます。

E(X) = \frac{1}{n} \sum_{i=1}^n X_i

ここで、iは試行回、X_iは各試行回における確率、nは全試行回数を表します。一方で、標準偏差とは、その平均値がどれだけ揺らぐ可能性があるかを示す指標で、次の式で求めることができます。

\sigma = \sqrt{ \frac{1}{n} \sum_{i=1}^n (X_i-E(X))^2}

例えば上の表のコイントスで「表」が出る真の確率は、0.507±0.027の範囲の中の値である確率がおよそ68%となります。この68%という数字は統計学の「中心極限定理」をベースにして算出されるもので、この範囲のことを1\sigma範囲とも呼ばれます。同様に2\sigma範囲、つまり0.507±0.054の範囲の中には約95%の確率で入ってくることも同定理から導かれます。平均値\mu、標準偏差\sigmaのときに、真値が各\sigma範囲に収まる確率とその確率分布(ガウス分布や正規分布と呼ばれます)を表す概要図を下に載せておきます。(画像出典: 『68–95–99.7 rule』, Wikipedia)

img4

 
 
話しを今回の実験に戻しましょう。コインとサイコロを用いたそれぞれの実験において、各事象が出現する確率の平均と標準偏差を見てみると、どの平均値も真値に近く、1\sigma範囲の中に真値が含まれていることが分かります。これは、グリッド数に対してデータ数が十分にあるため、統計学がその威力を十分発揮していることの証明でもあります。それでは、試行回数を10回にしてみるとどうなるでしょうか。その結果は、今回は以下の表のようになりました。

事象 確率の算術平均値 E(X) 標準偏差 \sigma
0.259 0.181
0.741 0.181
1の目 0.0 0.0
2の目 0.065 0.042
3の目 0.120 0.067
4の目 0.568 0.087
5の目 0.227 0.161
6の目 0.259 0.123

 
例えば、この表のサイコロの1の目が出る確率の平均値と標準偏差がともに0になっています。これは、10回の試行の中で1の目が一度も出なかったため、その確率は常に0で、値に変化がなかったことが原因です。値に変化が無かったので、値の揺らぎの指標である標準偏差も0になってしまった訳です。この統計を信じるとすると、1の目が出る確率は完全に0となりますが、そんなことは実際には有りえません。グリッド数に比べて、データ数が十分大きいという条件をクリアしなければ、信用できない統計値が得られるだけになってしまうということです。
 これまではデータが1次元の時のことを考えてきましたが、これを多次元に拡張することを考えていきましょう。多次元化した際に劇的に変化するのはグリッドの数です。下の図は、1次元(D=1)から3次元(D=3)の空間において、各軸を3つのグリッドに分割したときの様子を示しています。

img5

 
1次元ではグリッド数は3ですが、2次元では9、3次元では27と指数関数的に増加していくことが分かると思います。これらのグリッドの中に入るデータ数が十分になければ、1次元の結果で明らかになったように、信頼できない統計値しか得られません。例えば、1つの軸の分割グリッド数が3であっても、100次元ともなると全グリッド数は5.1\times 10^{47}個に跳ね上がります。現時点での全世界のデジタル情報量は40ゼタバイト(=4.0\times 10^{22} byte)と言われていますが、1byteで1つの情報を表せたとしても、それでも遠く及びません。

 

以上のことから、高次元特徴ベクトルは(1)各データ点の特徴が失われる危険性があり、(2)統計的に有意な値を得るためには膨大な量のサンプル数が必要である、ということが分かっています。これを回避するためには、主成分分析や特異値分解のような高次元ベクトル(またはテンソル)を低次元へ変換するような数学技法が効果的です。特にテキストデータを扱う場合には、基礎的な特徴量(例えばBag-of-Words)は次元数が出現単語数に相当するため、どうしても高次元になりがちです。特異値分解の手法である、潜在意味解析(LSI)や潜在ディリクレ解析(LDA)のような、いわゆるトピックモデルを用いることで高精度分析が可能になることが知られています。分析する手法にもよりますが、トライしてみる価値はあるかと思います。

【参考文献】
『パターン認識と機械学習』

 

 

現在の機械学習分野を概観するための基礎知識
~一般的な分析業務の手順とその留意点~

ページ: 1 2 3

この記事をシェアする