データ分析基礎知識

“分析力をコアとするデータソリューションカンパニー”
株式会社ALBERTが、データ分析にまつわる基礎知識をわかりやすく解説します。

2変量解析とは

単変量解析と2変量解析

多変量は単変量をたくさん集めたものですから、単変量解析を理解していないとよい結果が出ないことになります。まずは単変量、2変量解析を充分行なうことが重要です。では、単変量解析とはどのようなものなのでしょうか。 2変量というのは、身長と体重のように、1つの対象に2種類のデータがあることをいいます。小学校4年生の算数で「ともなって変わる量」を習います。ここでは比例関係を学ぶのですが、まさにこれが2変量解析です。それに対して単変量解析は、ひとつの対象にデータが1つしかないので、身長のデータしかないということです。身長のデータしかないということは、クラス全員の身長のデータがあるという場合と、ある人の身長の時系列データがあるという場合があります。後者は時間というもう一つの指標がありますので、正確には2変量なのかもしれませんが、時間の進み方は一定と考えれば単変量として考えてもよいのではないかと思います。

相関関係

2変量では、身長と体重、気温とアイスキャンディーの売り上げなど、2つの変数を扱います。以下のような散布図にすることで、2つの変数の関係性がよくわかります。身長と体重には関係がありそうですが、同じ身長でも太っている人も痩せている人もいるので、身長がわかったからといって、体重を知ることはできません。ただ、ある程度のばらつきの中には入っているだろうことは推測できますので、そのばらつきが少ないことを相関が高いといいます。また、相関の高さを相関係数といい、符号がプラスの場合は正の相関、マイナスの場合は負の相関といいます。相関係数は1から-1の値を取り、0の場合無相関といいます。相関係数がいくつだったら相関があるといえるかという質問を受けることがありますが、統計的にはデータの数によって異なるので、いくつということはできないのですが、一般的には0.7より大きいと高い相関、0.4〜0.7が比較的高い相関、0.2〜0.4が低い相関があり、0.2以下はほとんど相関がないといわれているようです。(相関係数についてはこちらで詳しく説明しています。)

図2.正の相関
図3.負の相関
図4.無相関

2変量の外れ値

外れ値に関しては、単変量でも分析をするのですが、2変量にして初めて明るみに出る外れデータもあります。PはX軸で見れば外れていませんが、Y軸から見れば外れています。
また、Qはどちらの軸から見ても外れていますが、右上に引いた相関直線的に見ればラインに乗っているように見えるので、外れ値かどうかを検討する必要があります。

2変量のはずれ値
図5.2変量のはずれ値

相関が高そうに見えて相関がないケース

一見相関がありそうに見えるけれど、実は相関がないということがあります。図6は、大学のクラスの女性比率とそのクラスの英語の平均点の関係を表したグラフですが、全体で見ると0.80という高い相関がありますが、学部別(赤が理学部、青が外国語学部)に相関係数を見ると、理学部も外国語学部も0.1程度なので学部内では相関がないことになります。つまり、外国語学部は女性比率が高く、理学部は女性比率が低い。英語の点数は、「学部が違う」という要因で差があるのであって、外国語学部の男性は英語の点数は高いし、理学部の女性は英語の点数が低いということだったのです。層別すると関係がないという現象は、実際の分析の時にも起きる可能性がありますので、クロス集計分析を行ない、データそのものへの理解を深めることが重要です。

層別の相関
図6.層別の相関

相関がなさそうに見えて高い関係があるケース

相関係数が0.2以下だからといって、相関がない、即ち二つの変数に関係がないとはいい切れません。図7は塩の量とおいしさの関係をプロットしたものです。塩は入れなければ美味しくないけれど、入れすぎても美味しくないもので、最適値というものがあります。このような場合、単純に相関係数だけを見て、塩の量とおいしさには関係がないとしてしまうのは誤りで、分布をよく見て適切に分析をする必要があります。

塩の量とおいしさの関係
図7.塩の量とおいしさの関係
このページをシェアする

About

ALBERTについて