DATA-SCIENCE
現在の機械学習分野を概観するための基礎知識 ~一般的な分析業務の手順とその留意点~ (2)
それぞれの事象が起こる確率の算術平均値と標準偏差を次の表にまとめました。
事象 | 確率の算術平均値 ![]() |
標準偏差 ![]() |
表 | 0.507 | 0.027 |
裏 | 0.493 | 0.027 |
1の目 | 0.156 | 0.023 |
2の目 | 0.176 | 0.021 |
3の目 | 0.189 | 0.053 |
4の目 | 0.156 | 0.017 |
5の目 | 0.148 | 0.032 |
6の目 | 0.175 | 0.027 |
算術平均値はいわゆる平均値ですので、なじみ深いものと思います。算術平均値は次の式で求めることができます。

ここで、




例えば上の表のコイントスで「表」が出る真の確率は、0.507±0.027の範囲の中の値である確率がおよそ68%となります。この68%という数字は統計学の「中心極限定理」をベースにして算出されるもので、この範囲のことを1






話しを今回の実験に戻しましょう。コインとサイコロを用いたそれぞれの実験において、各事象が出現する確率の平均と標準偏差を見てみると、どの平均値も真値に近く、1

事象 | 確率の算術平均値 ![]() |
標準偏差 ![]() |
表 | 0.259 | 0.181 |
裏 | 0.741 | 0.181 |
1の目 | 0.0 | 0.0 |
2の目 | 0.065 | 0.042 |
3の目 | 0.120 | 0.067 |
4の目 | 0.568 | 0.087 |
5の目 | 0.227 | 0.161 |
6の目 | 0.259 | 0.123 |
例えば、この表のサイコロの1の目が出る確率の平均値と標準偏差がともに0になっています。これは、10回の試行の中で1の目が一度も出なかったため、その確率は常に0で、値に変化がなかったことが原因です。値に変化が無かったので、値の揺らぎの指標である標準偏差も0になってしまった訳です。この統計を信じるとすると、1の目が出る確率は完全に0となりますが、そんなことは実際には有りえません。グリッド数に比べて、データ数が十分大きいという条件をクリアしなければ、信用できない統計値が得られるだけになってしまうということです。
これまではデータが1次元の時のことを考えてきましたが、これを多次元に拡張することを考えていきましょう。多次元化した際に劇的に変化するのはグリッドの数です。下の図は、1次元()から3次元(
)の空間において、各軸を3つのグリッドに分割したときの様子を示しています。

1次元ではグリッド数は3ですが、2次元では9、3次元では27と指数関数的に増加していくことが分かると思います。これらのグリッドの中に入るデータ数が十分になければ、1次元の結果で明らかになったように、信頼できない統計値しか得られません。例えば、1つの軸の分割グリッド数が3であっても、100次元ともなると全グリッド数は


以上のことから、高次元特徴ベクトルは(1)各データ点の特徴が失われる危険性があり、(2)統計的に有意な値を得るためには膨大な量のサンプル数が必要である、ということが分かっています。これを回避するためには、主成分分析や特異値分解のような高次元ベクトル(またはテンソル)を低次元へ変換するような数学技法が効果的です。特にテキストデータを扱う場合には、基礎的な特徴量(例えばBag-of-Words)は次元数が出現単語数に相当するため、どうしても高次元になりがちです。特異値分解の手法である、潜在意味解析(LSI)や潜在ディリクレ解析(LDA)のような、いわゆるトピックモデルを用いることで高精度分析が可能になることが知られています。分析する手法にもよりますが、トライしてみる価値はあるかと思います。
【参考文献】
『パターン認識と機械学習』
この記事をシェアする