最も似ている組み合わせから順番にまとまり(クラスター)にしていく方法で、途中過程が階層のように表せ、最終的に図10のような樹形図(デンドログラム)ができます。
以下に樹形図生成のステップを示します。
A~Eの点で最も距離の近い組み合わせはAとBです。そこで、まずはAとBをくくります。次にこの2点の代表点(例えば重心)を求め、(AB)の×とします。
(AB)の重心x、C、D、Eの4点で、最も距離の近い組み合わせを見つけます。ここではCとDが最も近いことが分かるので、CとDをくくります。この代表点を(CD)の×とします。
AB)、(CD)、Eの3点で最も距離の近い組み合わせを見つけます。ここでは(AB)と(CD)が最も近いことが分かるので、(AB)と(CD)をくくります。この代表値を(ABCD)の×とします。
最後にEをくくり樹形図にすると右図のようになります。この時、AとBの上にある直線が、AとBの距離を表し、CとDの上にある直線がCとDの距離を表します。
・2つのクラスターP,Qを結合したと仮定したとき、それにより移動したクラスターの重心とクラスター内の各サンプルとの距離の2乗和,L(P∪Q)と、元々の2つのクラスター内での重心とそれぞれのサンプルとの距離の2乗和,L(P),L(Q)の差
Δ= L(P∪Q)-L(P)-L(Q)
が最小となるようなクラスター同士を結合する手法。
Δの値を情報ロス量という。
→計算量は多いが分類感度がかなり良い。そのため、よく用いられる。
・各クラスター同士で、全ての組み合わせのサンプル間距離の平均をクラスター間距離とする手法。
→鎖効果や拡散現象を起こさないため、用いられることが多い。
・2つのクラスターのサンプル同士で最も小さいサンプル間距離をクラスター間の距離とする手法。
→鎖効果により、クラスターが帯状になってしまい、分類感度が低い。計算量が少ない。
・最短距離法の逆で各クラスター中、最大のサンプル間距離をクラスター間距離とする。
→分類感度は高いが、クラスター同士が離れてしまう拡散現象が生じる。計算量が少ない。
階層クラスター分析は、近いものから順番にくくるという方法をとるので、あらかじめクラスター数を決める必要がないことが最大の長所です。ただ分類するだけでなく、結果として出力される樹形図から、分類の過程でできるクラスターがどのように結合されていくかを一つひとつ確認できるので、クラスター数を後から決めることができます。例えば、3つに分けようと思えば、縦の線を3本横切るような線を引き、その線から下に繋がっている要素を1つのクラスターと考えれば、任意のクラスター数に分けることができます。最小は全体である1クラスター、最大は要素数(ここでは5)に等しくなります。
上図の場合
・AとBはかなり似ている
・CとDは似ている
・Eは孤立している
ということがわかります。クラスター分割(樹形図のスライス)は、上から横線を下ろしていきますが、分析は下から上に向かって進めているので、全体を先に2とか3つに分ける手法ではありません
階層型クラスターの短所は、分類の対象が非常に多い場合、計算量が多くなり実行が困難になったり、系統図が巨大になり結果が不明瞭になったりすることです。非常に多くのデータを対象とするクラスター分析では、次に述べる非階層型クラスター分析を用いるのが一般的です。対象数は数十個以下が目安といわれています。
階層クラスター分析を行なう上で、クラスター間の距離、サンプル間の距離は何を選択すべきか、これといった規則はありません。試行錯誤でよりよいクラスターにするには、どれを選択すべきかを決めているのが現状だと思います。そこで、都道府県のいくつかの特徴を表すデータを用いて、いくかの距離の組み合わせによって、結果がどう変わるかを示しました。