データサイエンス

【連載】記述的多変量解析 – クラスター分析(階層的)

6.クラスター分析(階層的)

はじめに

多くの対象を、少ないグループ(クラスター)にまとめます。階層的手法では、「多」(ひとつひとつ/ひとりひとり)から始まって「単」(最終的には1つ、全体で1つ)にまでまとめます。

階層的手法

たくさんの対象を順次結合していきます。ひとつひとつから始まって、ひとつの集団になるまで、順次「近い」ものをまとめていきます。

※本稿では、「行」のクラスタリングを前提として書いています。

相対するものとしては、「非階層的」な(階層的ではない)手法があります。

なお、本連載では扱いませんが、重複クラスタリングのように、ひとつの対象が複数のクラスターに同時に属し得るというような方法もあります。

Ward法(ウォード・ほう)

クラスター分析には様々なオプションがあります。要するには近いものをまとめるのですが、これには、いくつか決めてしまわないと話が始まらない点があります。

まず、「距離」をどう定義するか。そして、「近い」をどう定義するか。

それぞれにいくつもオプションがあり、具体的な分析方法はその組み合わせで決まります。ですが、ここでは一通りに限定して説明します。

まず「距離」ですが、ここではユークリッド平方距離を使うものとします。なお、計算にあたって、値を標準化しません。

次いで「近い」をどう定義するか。「近い」を定義する式の、ある箇所に変数を使って様々な定義を一通りの表し方で表現することができる(組み合わせ的方法:conbinational method)こともあり、いくつか(7つ)方法があります。ここでは、Ward(ウォード)法に限定して触れます。

デンドログラム

この「近い」の定義、Ward法ですが、鎖効果が起こりにくいといったメリットがあり、多くの場合はこの手法を選びます。

例えば、同じデータに対して、Ward法と最近隣法を用いた場合を比べると、図表1.の通り。

最近隣法(A.左)では、最も近いものを順次まとめていきます。Ward法(B.右)では、重心の移動距離が最も小さいものをまとめます。

最近隣法(A.左)では鎖効果(ひとつのクラスターに、順次、ひとつの対象が追加されていく)が起こっています。Ward法(B.右)では、それ(鎖効果)が起こっていません。

1図表1.デンドログラム(A:最近隣法/B:ward法)

以下では、Ward法についてのみ触れます。

クラスター分析(階層的)の計算手続

5人だけの小さなデータで例を示します(図表2.)。

2図表2.サンプルデータ

さきに(「デンドログラム」のところで)Ward法について「重心の移動距離が最も小さいものをまとめます」と書きました。急に「重心の移動距離」と言われても、ピンと来ないかもしれません。ですが、とりあえずサンプルデータ(図表2.)を使って見てみましょう。

サンプルデータでは、5人のデータがあります。変数は全部で2つです。この5人について、すべての2人の組み合わせについて、結合した場合を考えます。

2人を組み合わせると、クラスタ内の平方和は増えます(2つが同じであれば、増分は「0」(=増えない))。

さて、図表2.のデータについて、すべての2人の組み合わせにおけるクラスタ内平方和の増分を求めると、図表3.の通りです。

3図表3.5人の対象のうち2人を結合した場合の平方和の増分(2変数の場合。下側三角のみ)

それでは試しに、対象「1」と対象「2」を結合した場合の平方和の増分を示してみます。

各対象の値は図表2.から、対象「1」は「変数1」の値が「4」と「変数2」の値が「1」、対象「2」は「変数1」の値が「5」と「変数2」の値が「2」です。また、対象「1」と対象「2」について「変数1」と「変数2」の値の平均を計算すると、「変数1」が4.5、「変数2」が1.5です。

このとき、対象「1」と対象「2」を結合した場合の平方和の増分を計算すると、

( 4 – 4.5 )² + ( 5 – 4.5 )² + ( 1 – 1.5 )² + ( 2 – 1.5 )²

これは、0.25+0.25+0.25+0.25で、1です。これが図表3.の変数「1」と「2」のクロスするセルに入っている値、「1.000」です。

あらためて図表3.を見ると、増分が一番小さいのは、対象「2」と「4」です(結合時の平方和の増分「0」。つまり対象「2」と「4」は、「変数1」「変数2」とも値が同じ。図表2.参照)。そこで対象「2」と「4」を結合します。

「2」と「4」が結合されました(図表4.)。続いて再度、対象同士を結合した場合のクラスタ内平方和の増分を、すべての組み合わせについて計算すると、図表5.の通り。

4図表4.「2」と「4」が結合したサンプルデータ
5図表5.4つの対象のうち2つを結合した場合の平方和の増分(下側三角のみ)

次は対象「1」と「3」を結合すれば、最も平方和の増分は小さいようです(増分「0.5」)。

…と続けていくと、次は「2」・「4」・「5」が結合、最後は「1」・「3」と「2」・「4」・「5」が結合して、「1」・「2」・「3」・「4」・「5」、すべてが1つに結合、となって終わります。

解釈

図表3.や図表5.で示した数値例に基づいてデンドログラムを描くと、図表6.の通り。縦にサンプルNo.、横は平方和の増分(平方距離)です。

横軸を見ると、結合距離が青いラインの範囲内のところで2つのクラスター(1・3/2・4・5)に区切るくらいが適当そうです。

6図表6.デンドログラム

今回はクラスターをどう分けるか、あまり悩まずに済みました。ですが、デンドログラムがもっと複雑になってくると、どこで切る(クラスターを分ける)か、判断が難しくなってくることがあります。

本稿では特に説明もなく「平方距離」を使うと書きました。ここで、「距離」と「平方距離」を比較してみたいと思います(図表7.)。

7図表7.平方距離(上)と距離(下)

平方距離のほうでは、結合距離が極端になり、どこに線を入れるか(どこで分けるか)悩みにくいことがわかると思います(横軸は平方和の増分です。比較のため相対値になっているので、平方距離と距離でデンドログラムの長さが等しくなっています)。