データ分析基礎知識

“分析力をコアとするデータソリューションカンパニー”
株式会社ALBERTが、データ分析にまつわる基礎知識をわかりやすく解説します。

多変量解析の手法

目的別2つの手法

多変量解析を行なう目的としては、大きく分けて「予測」と「要約」の2つがあります。たとえば広告クリエイティブの最適化は、複数のコンテンツの組み合わせパターンからクリック率を予測するモデルを使っています。購買データから顧客をいくつかのクラスターに分類するには、要約の手法を使っています。

①予測の手法

予測の手法は、複数の変数から何らかの結果を予測するものですが、因果関係明確化の手法ともいわれます。どういう原因を作れば、欲しい結果が得られるかということを知るためにも使われます。原因側のデータを「説明変数」、結果側の変数を「目的変数」といいます。結果は原因によって決まる、つまり結果は原因に従属しているという意味で、目的変数を「従属変数」、また原因は独立しているので、説明変数を「独立変数」ということもあります。
予測の手法で最も簡単なのは、直線回帰でしょう。身長から体重を予測するようなものですが、さらにここに腹囲や胸囲のデータが加われば、より精度が上がるでしょう。さらにその人の食生活や運動量などの変数を加えれば、体重が何によって決まるかの因果関係も明らかになりますし、予測の精度もさらに上がるわけです。

身長から体重を予測
図8.身長から体重を予測
身長と腹囲と胸囲から体重を予測
図9.身長と腹囲と胸囲から体重を予測

予測の手法では、変数を目的変数と説明変数に分けなくてはいけません。図9の例では、体重を目的変数として、身長と腹囲と胸囲を説明変数にすることもできますし、図10のように体重と腹囲を目的変数として、身長と食生活と運動を説明変数にすることできるわけです。つまり同じ変数でも、目的変数にも説明変数にもなり得るということです。

身長と食生活と運動から体重と腹囲を予測
図10.身長と食生活と運動から体重と腹囲を予測
②要約の手法

要約の手法は複数の変数を新しい変数に要約する、すなわち多くの変数を少ない変数で説明する手法です。類似関係明確化の手法ともいわれます。少ない変数が、変数の背後にある原因となっている要因であることもあります。例えば、算数、理科、国語、社会の4科目のテスト結果から、算数と理科は似ている、国語と社会は似ているということがわかればそれぞれをまとめ、その背後に理系の能力と文系の能力があるというように、4科目を2つの能力に要約したことになります。今まで4教科のテストをやっていたものを、理系のテストと文系のテストに集約することが可能になるわけです。

複数の変数の要約
図11.複数の変数の要約

予測の手法には目的変数があったのに対し、要約の手法には目的変数という概念はありませんが、因果関係が明らかになれば、説明変数と目的変数に分けられることもあります。

もう1つ例を挙げましょう。洋服(既製品)を作るときどのようなサイズを何種類作ればよいか考えるとしましょう。Yシャツを考えても、首回り、腕の長さ、胸囲、胴囲、腕の太さなど、非常にたくさんの変数があり、これらの組み合わせすべてを作ることはできません。そこで、何とか人の体型をなるべく少ない種類に分けようと考えます。
まずは、対象となる顧客の採寸をします。その結果を元に顧客を大きく3つのグループに分けたとします。結果として、首回り、腕の長さなどのたくさんの変数が、S、M、Lという一直線上に並ぶ1次元の変数に集約されたことになります。

腕の長さ、首回り、腹囲等の複雑な組合せを3サイズに要約
図12.腕の長さ、首回り、腹囲等の複雑な組合せを3サイズに要約

では、要約ではなく類似性を考えてみましょう。8つの要因は、それぞれの相関関係を見る(相関行列を作る)ことによって、どの要因とどの要因が関連が強いかということがわかります。

腕の長さ、首回り、腹囲等の関係性
図13.腕の長さ、首回り、腹囲等の関係性

この相関関係をもとに、以下のようなポジショニングマップを作ったり、クラスタリングをしたりすることができます。クラスタリングに関しては後で詳しく述べますが、これが類似関係化の明確化です。

各部位のポジショニングマップ
図14.各部位のポジショニングマップ
各部位類似性
図15.各部位類似性

手法の種類と選択

変数には質的変数と量的変数があり、多変量解析の目的には、予測と要約があるということを述べてきました。多変量解析には、様々な手法がありますが、この変数の種類と目的の組み合わせで、どの手法を使うかが決まります。具体的な例も示しました。

表1.予測の手法

予測の手法
表2.要約の手法

要約の手法

各手法の概要

単回帰分析

1つの目的変数を1つの説明変数で予測する最も簡単な分析手法です。例えば身長から体重を予測します。このとき、予測に使う身長を「説明変数」、予測される体重を「目的変数」といいます。相関係数は、この単回帰分析の予測の精度を表しています。

重回帰分析

1つの目的変数を複数の説明変数(数値)で予測する分析手法です。例えば身長と腹囲と胸囲から体重を予測します。世の中の事象は、複数の要因によって決まることがほとんどです。どの要因がどの程度影響しているのかが算出し、結果を予測することができます。また、その予測の精度を知ることもできます。

数量化Ⅰ類

基本的な目的や考え方は重回帰分析と同じですが、重回帰分析の説明変数が数値ではない場合に用いる手法です。質的変数を1/0データに変換することで、量的データを予測できます。例えば、お酒を飲む/飲まない、性別などを1/0で表し、肺がんになる「確率」を予測することができます。

判別分析

数量化Ⅰ類との逆で、量的変数から質的変数を予測します。たとえば、体重や血圧、肝臓の検査結果の数値から、脳卒中に「なる/ならない」を予測します。あるグループに境界線を引くことで、購入/非購入などの判別をします。判別関数を求めることで、結果への影響変数を見つけ、その対策を行うことができます。

ロジスティック回帰分析

判別分析と同様に、量的変数から質的変数を予測しますが、予測する変数の値(1か0かなど)を予測するのではなく、目的変数が1となる確率を予測します。目的変数として、DMに対して(反応する/反応しない)の1/0データがあり、それをいくつかの量的説明変数で予測をしようとする場合、どの顧客がどの程度の確率で反応するかという予測ができます。

数量化Ⅱ類

判別分析と同様にグループの境界線を求める手法ですが、質的なデータを説明変数にする場合に用いられます。男/女、年代、喫煙の有/無などから、肺がんに「なる/ならない」の予測をします。

主成分分析

多くの量的説明変数をより少ない指標(合成変数)に要約しようとする手法です。例えば、ある学校で20科目くらいあるテスト結果を分析したとすると、第1主成分に総合成績が得られ、第2主成分に理系科目/文系科目という軸が現れます。各学生を総合成績がどのくらいで、理系文系のどちらに偏っているかという2つの軸で表し、平面上にマッピングすることができます。科目のマッピングも可能です。

因子分析

複雑な現象を、背後に潜む原因を探って理解するための手法です。多くの説明変数に存在する共通因子を探り、特定します。具体的には潜在ニーズを探ったり、商品イメージを分析する際などに用いられる手法です。例えば、数学Ⅰ、Ⅱ、Ⅲ、物理、化学の成績がよいのは、理系の能力があるからだと理解するようなものです。主成分分析とは対極にあたる位置づけです。

クラスター分析

様々な特性をもつ対象を類似性の指標を元にグルーピングする手法で、大別すると階層的手法と非階層的手法の2種類があります。類似度の決定やグルーピングには様々な手法やパラメータがあり、どれを選択するかによって結果が異なります。非階層クラスターはあらかじめクラスタ数を決める必要があるので、クラスター数の決定には注意が必要です。階層クラスターはあらかじめクラスター数を決めておく必要がなく、好きな数に分けることができますが、対象が多い時には向いていません。

数量化Ⅲ類/コレスポンデンス分析

主成分分析と同じ目的で使う手法で、多くの変数を要約します。変数が1/0データの場合は数量化Ⅲ類と言われ、クロス集計表などの量的データの場合はコレスポンデンス分析、対応分析などといわれますが、基本的なロジックは同じです。各変数を1次元にマッピングし視覚化できるので、商品とユーザー属性を同時にプロットすることができます。

MDS(多次元尺度構成法)

評価の対象の類似性を距離とし、多次元空間の点として視覚的に配置します。例えば、全世界の都市間の飛行機での所要時間(距離が近いほど時間が短いとして)だけから世界地図を作ることができます。マーケティングではブランド間の類似性を質問するだけでポジショニングマップを作ることができます。

コンジョイント分析

最適な商品コンセプトを決定するための代表的な多変量解析を用いた分析方法で、個別の要素を評価するのではなく、商品全体の評価(全体効用値)することで、個々の要素の購買に影響する度合い(部分効用値)を算出する手法です。例えば、画面サイズが1インチ大きかったらいくら高く売れるかがわかります。

このページをシェアする

About

ALBERTについて