データ分析基礎知識

“分析力をコアとするデータソリューションカンパニー”
株式会社ALBERTが、データ分析にまつわる基礎知識をわかりやすく解説します。

データの読み方

具体的なデータ分析の話に入る前に、身近な事例でデータの読み方の大切さについて述べようと思います。

平均の罠

質問)あなたは就職活動をしています。以下の2社が候補に挙がったとしたらどちらを希望しますか?ただし、以下の条件以外はあまり差がないとします。

A社 平均年齢 30.8歳、平均年収 807万円
B社 平均年齢 31.8歳、平均年収 620万円

ほとんどの人はA社がよいと答えるでしょう。社員も若いし給料も高いのだから。もちろん、業種や地理的条件など、他のパラメータが違えばB社がよいということもあるでしょう。しかし、ここではそのようなことは分からないとすれば、普通に考えればA社がよいと思うはずです。ところが、これは極端な例ですが、1人ひとりの年齢と年収が以下のようだったらどうでしょうか。A社は1人超高給の古参社員がいて、あとは新人ばかり。逆にB社は新人中堅ベテランがうまくバランスしている。しかも、同じ23歳の給与を見るとB社のほうが圧倒的に高い。

A社とB社の年齢別年収比較
図5.A社とB社の年齢別年収比較

データの分析結果を聞いて平均だけで判断するのは非常に危険だという例です。これは、中国の平均世帯年収などでも同じことがいえます。沿岸部の一部の富裕層が全体年収を引き上げているために、内陸部の実状が見えなくなっている可能性もあるということです。
ログデータの分析なども全く同じです。平均購買数が3個だとしても、ほとんどの人は1個しか購入しておらず、一部の業者と思われる人が何百個と購入している場合もあります。従って、このような分析を行なうときには、まずはヒストグラムを作り全体の分布を確認し、どの範囲のどのデータを分析対象にするかの方針を決めなくてはいけません。平均だけを聞いて納得したり対策を打ったりすることは、非常に危険を伴うのでデータ分析だけではなく一般生活においても注意をする必要があります。

シンプソンのパラドックス

次にクロス集計に関連する話をしたいと思います。一口に分析といっても、平均や偏差値による分析から多変量解析や人工知能を利用した分析まで多種多様です。しかし、「分析はクロス集計に始まりクロス集計に終わる」という名言があるように、クロス集計はすべての分析の基本ではないかと思います。なぜクロス集計が重要なのか、また一歩進んだシンプソンのパラドックスというトピックも取り上げてみました。

本題に入る前に、「パラドックス」とは何か?ということなのですが、パラドックスとは「逆説」の意味で、常識とは逆と説明されるのですが、少し分かりづらいと思います。もう少しくだいていうと、「あたかも正しそうな仮説に基づいて構築された説明なのに、どう考えても納得できないような結論が出ること」をいいます。

例えば足の速いアキレスは前を歩く亀を追い抜けないという有名な「アキレスと亀のパラドックス」があります。亀はアキレスより前を歩いています。アキレスが亀がいた位置に到達したときには亀は前に進んでいる。再度アキレスが亀の位置に到達したときには亀はさらに前に進んでいる。こうしていつまでたってもアキレスは亀に追いつけないというものです。

アキレスと亀
図6.アキレスと亀

結論は到底納得できないにもかかわらず、結論を導く論証過程自体は正しそうに見えるのでこれを正しく論破するのは難しいものです。本題のシンプソンのパラドックスですが、これはE.H.シンプソンによる統計学的なパラドックスで、母集団での相関と、母集団を分割した集団での相関は、異なっている場合があるというものです。アンケート調査で、クロス集計(層別)をすると全体集計(GT)では見られなかった傾向が現れることがありますが、それとは全く別物で、到底納得できない結果が出るのです。

あるメーカーが口内炎に効く新商品を開発したとしましょう。既存商品との違いを確かめるために、それぞれ口内炎を患う100人を抽出しテストを行ないました。その結果が以下の表です。

表1.既存商品と新商品のテスト結果
既存商品と新商品のテスト結果

この表を見ると、良いとした患者が既存商品では55%だったのに対し、新商品は58%と3ポイントアップしていました。「よし、新商品は開発に成功した!」と考えてよいのでしょうか。3ポイントに有意差があるかはここでは議論しないとして、ごくあたりまえの商品企画や開発担当者やリサーチャーであれば、いやもう少しブレークダウンして男女別に見るべきだとか、より詳細な分析をするでしょう。そこで男女別に見たのが以下の表です。

表2.既存商品と新商品の男女別テスト結果
既存商品と新商品の男女別テスト結果

この表を見ると、予想通り新商品は男性には効果があったようですが、女性には既存商品のほうが良さそうです。このまま発売していたら、女性には効き目の弱い商品を発売してしまうことになっていました。このように、全体集計の結果で判断するのではなく、属性別などでブレークダウンした分析がいかに大切かということがわかると思います。

ここまでは、ごく普通のクロス集計の考えで、よくある話です。パラドックスはここから始まります。念のために年代別にはどうなるかを見てみたのが次の表です。

表3.既存商品と新商品の年代別テスト結果
既存商品と新商品の年代別テスト結果

さて、この表を見て皆さんは何を発見するでしょうか。もちろんテストは今回行なったそれぞれ100名に対する結果です。先ほどは男女で効果がある、ないが分かれました。しかし年代別に見ると、20代は45%と既存商品のほうが3ポイント良い結果になっており、30代を見ても67%と1ポイント良い結果になっています。
合計すれば明らかに新商品のほうが3ポイント良かったものが、年代別に見たら、どちらも既存商品のほうが良くなってしまっています。これはどういうことなのでしょうか。まさに、「母集団での相関と、母集団を分割した集団での相関は、異なっている場合がある」の実例です。分割した集団の両方で悪いものが、合計すると良くなることがある。何となく狐につままれたような消化不良な話かと思いますが、なぜこのようなことが起きるのか、ぜひ考えてみてください。

このページをシェアする

About

ALBERTについて