データ分析基礎知識

“分析力をコアとするデータソリューションカンパニー”
株式会社ALBERTが、データ分析にまつわる基礎知識をわかりやすく解説します。

クラスター分析の手法②(階層クラスター分析)

階層クラスター分析とは

最も似ている組み合わせから順番にまとまり(クラスター)にしていく方法で、途中過程が階層のように表せ、最終的に図10のような樹形図(デンドログラム)ができます。

階層クラスターのイメージ
図10.階層クラスターのイメージ

以下に樹形図生成のステップを示します。

ステップ1

A~Eの点で最も距離の近い組み合わせはAとBです。そこで、まずはAとBをくくります。次にこの2点の代表点(例えば重心)を求め、(AB)の×とします。

樹形図生成 ステップ1
図11.樹形図生成 ステップ1
ステップ2

(AB)の重心x、C、D、Eの4点で、最も距離の近い組み合わせを見つけます。ここではCとDが最も近いことが分かるので、CとDをくくります。この代表点を(CD)の×とします。

樹形図生成 ステップ2
図12.樹形図生成 ステップ2
ステップ3

AB)、(CD)、Eの3点で最も距離の近い組み合わせを見つけます。ここでは(AB)と(CD)が最も近いことが分かるので、(AB)と(CD)をくくります。この代表値を(ABCD)の×とします。

樹形図生成 ステップ3
図13.樹形図生成 ステップ3
ステップ4

最後にEをくくり樹形図にすると右図のようになります。この時、AとBの上にある直線が、AとBの距離を表し、CとDの上にある直線がCとDの距離を表します。

樹形図生成 ステップ4
図14.樹形図生成 ステップ4

クラスター間の距離測定方法

(1)ウォード法

・2つのクラスターP,Qを結合したと仮定したとき、それにより移動したクラスターの重心とクラスター内の各サンプルとの距離の2乗和,L(P∪Q)と、元々の2つのクラスター内での重心とそれぞれのサンプルとの距離の2乗和,L(P),L(Q)の差
Δ= L(P∪Q)-L(P)-L(Q)
が最小となるようなクラスター同士を結合する手法。
Δの値を情報ロス量という。
→計算量は多いが分類感度がかなり良い。そのため、よく用いられる。

ウォード法のイメージ
図15.ウォード法のイメージ
(2)群平均法

・各クラスター同士で、全ての組み合わせのサンプル間距離の平均をクラスター間距離とする手法。
→鎖効果や拡散現象を起こさないため、用いられることが多い。

群平均法のイメージ
図16.群平均法のイメージ
(3)最短距離法

・2つのクラスターのサンプル同士で最も小さいサンプル間距離をクラスター間の距離とする手法。
→鎖効果により、クラスターが帯状になってしまい、分類感度が低い。計算量が少ない。

最短距離法のイメージ
図17.最短距離法のイメージ
(4)最長距離法

・最短距離法の逆で各クラスター中、最大のサンプル間距離をクラスター間距離とする。
→分類感度は高いが、クラスター同士が離れてしまう拡散現象が生じる。計算量が少ない。

最長距離法のイメージ
図18.最長距離法のイメージ
階層クラスター分析の長所と短所

階層クラスター分析は、近いものから順番にくくるという方法をとるので、あらかじめクラスター数を決める必要がないことが最大の長所です。ただ分類するだけでなく、結果として出力される樹形図から、分類の過程でできるクラスターがどのように結合されていくかを一つひとつ確認できるので、クラスター数を後から決めることができます。例えば、3つに分けようと思えば、縦の線を3本横切るような線を引き、その線から下に繋がっている要素を1つのクラスターと考えれば、任意のクラスター数に分けることができます。最小は全体である1クラスター、最大は要素数(ここでは5)に等しくなります。

クラスター分割方法
図19.クラスター分割方法

上図の場合
・AとBはかなり似ている
・CとDは似ている
・Eは孤立している
ということがわかります。クラスター分割(樹形図のスライス)は、上から横線を下ろしていきますが、分析は下から上に向かって進めているので、全体を先に2とか3つに分ける手法ではありません

階層型クラスターの短所は、分類の対象が非常に多い場合、計算量が多くなり実行が困難になったり、系統図が巨大になり結果が不明瞭になったりすることです。非常に多くのデータを対象とするクラスター分析では、次に述べる非階層型クラスター分析を用いるのが一般的です。対象数は数十個以下が目安といわれています。

距離測定方法の組み合わせによる結果の違い

階層クラスター分析を行なう上で、クラスター間の距離、サンプル間の距離は何を選択すべきか、これといった規則はありません。試行錯誤でよりよいクラスターにするには、どれを選択すべきかを決めているのが現状だと思います。そこで、都道府県のいくつかの特徴を表すデータを用いて、いくかの距離の組み合わせによって、結果がどう変わるかを示しました。

都道府県の階層型クラスター分析結果
表1.都道府県の特徴データ
都道府県の特徴データ
サンプル間とクラスター間の距離測定方法による結果の違い

ユークリッド距離・ウォード法
ユークリッド距離・ウォード法
ユークリッド距離・群平均法
ユークリッド距離・群平均法
マハラノビス距離・ウォード法
マハラノビス距離・ウォード法
マハラノビス距離・群平均法
マハラノビス距離・群平均法
コサイン係数・ウォード法
コサイン係数・ウォード法
コサイン係数・群平均法
コサイン係数・群平均法
このページをシェアする

About

ALBERTについて