One to oneマーケティング|分析力をコアとする情報最適化企業・株式会社ALBERT(アルベルト)データ分析


データとは、辞書的には「資料」「情報」などと訳されますが、あまり明快ではありません。「資料」とは、何かを行なう際に参考にする文献やデータであり、「情報」とはデータに人間が解釈を加えたものをいいます。ただのデータ羅列を情報とはいいません。ALBERTの前身であり、リサーチ会社であったインタースコープでは自社を「データを情報に昇華させるリサーチファーム」という言い方をしていたことがありますが、データとはまとまった数値や符号の集合体であり、これに何らかの解釈をし、意味を持たせたものを情報といいます。一般にデータといえば、数値だけではなく、画像も音声もデータですが、これから述べる「データ分析」という視点では主に数値データを意味します。一部テキストマイニングでは文字データも扱いますが、結局何らかの解釈をするときには、文字データを数値化して分析することが多いと思います。

データ分析とは

データ分析とは何らかの目的を持って表現された文字や符号、数値などを収集し、分類、整理、成型、取捨選択したうえで解釈して、価値のある意味を見出すことといえるでしょう。ITの進化により、膨大なアクセスデータや購買データなどが自動的に蓄積される時代になってきました。この膨大なデータには、企業活動に非常に有用な知識が潜んでいます。しかし、データはいくら蓄積しても、分析をしなくては全く意味がありません。昨今、BIを導入する企業は増えているといわれています。BIとは「業務システムや購買履歴などから蓄積される企業内の膨大なデータを、組織的かつ系統的に蓄積・分類・検索・分析・加工し、企業の意思決定に有用な知識や洞察を生み出すという概念や仕組み」ですが、この宝の山である膨大なデータを活用できていない企業は非常に多いようです。ALBERTは、コアである分析力を活かし、様々なデータを分析して有用な知見を導き出しています。

データ分析は、何らかの目的を持って行なわれます。従って、分析を始めるにあたっては、出てきた結果が目的的なものであるかどうかの正しい判断が求められます。そのために以下の3つを理解しておく必要があります。

(1)分析しようとする問題そのものについての理解
(2)分析手法についての理解
(3)分析結果に対する判断力

資料と情報
図1.資料と情報
分析しようとする問題そのものについての理解

分析者は、なぜ分析をするかという理由やその問題点について、正しい現状認識をしていなくては意味がありません。数学者や統計学者なら、データさえあれば何らかの手法や複雑な処理計算によって、それなりの結果を導くことができるでしょう。しかし、そもそもそのデータの意味やその背景にある状況などがわかっていなければ、分析方針を出すことができません。データをどのように取得し、データの前処理はどうするか、どんな分析をすればよいかなどの試行錯誤をしなくては、決して有益な結果を得ることはできません。企業の課題は、いかなる優秀な外部の分析者より、その企業の担当者が最もよく知っているということを忘れてはなりませんし、逆にいえば外部の分析者は、まずはその企業の課題整理をすることから始めるべきであり、コンサルタント的な立場でデータ分析に臨むべきだと思います。

分析手法についての理解

分析手法については、分析者なら当然のことながら熟知している必要があります。統計ソフトやデータマイニングのソフトを用いれば、どんなデータを入れてもそれなりの結果がクリックするだけで出ます。しかし、正しく分析手法を理解していないと、明らかに間違ったデータ処理をしていたり、相応しくない手法で分析をしたりしていても、その誤りに気づきません。後で述べるはずれ値や異常値の処理や、アンケートデータとログデータによる分析条件の違いなど、一切考慮しなくてもあたかもそれらしい結果が出てしまうために、重大な間違いに気づかないことがあるので注意が必要です。

分析結果に対する判断力

そもそも結果が出たときに、どのようなアクションを起こすかを想定しておく必要があります。概ね予想通りの結果が出る場合と、予想外の結果が出る場合があるわけですが、予想通りであればアクションを大きく変更する必要はありません。しかし、予想外の結果が出た場合は、それに対してどのようなアクションを取るべきかの判断が非常に重要になります。データの取得方法や処理方法が間違っていたのかもしれないし、分析手法が間違っていたのかもしれない。データも方法も間違っていないとすれば、そもそもの仮説が間違っていたということになり、そこでは方向転換を余儀なくされることもあるでしょう。想定外の結果が出たときこそ、柔軟に頭を働かせて様々な可能性を考えるべきだと思います。

データの読み方

具体的なデータ分析の話に入る前に、身近な事例でデータの読み方の大切さについて述べようと思います。

平均の罠

質問)あなたは就職活動をしています。以下の2社が候補に挙がったとしたらどちらを希望しますか?ただし、以下の条件以外はあまり差がないとします。

A社 平均年齢 30.8歳、平均年収 807万円
B社 平均年齢 31.8歳、平均年収 620万円

ほとんどの人はA社がよいと答えるでしょう。社員も若いし給料も高いのだから。もちろん、業種や地理的条件など、他のパラメータが違えばB社がよいということもあるでしょう。しかし、ここではそのようなことは分からないとすれば、普通に考えればA社がよいと思うはずです。ところが、これは極端な例ですが、一人ひとりの年齢と年収が以下のようだったらどうでしょうか。A社は1人超高給の古参社員がいて、あとは新人ばかり。逆にB社は新人中堅ベテランがうまくバランスしている。しかも、同じ23歳の給与を見るとB社のほうが圧倒的に高い。

A社とB社の年齢別年収比較
図2.A社とB社の年齢別年収比較

データの分析結果を聞いて平均だけで判断するのは非常に危険だという例です。これは、中国の平均世帯年収などでも同じことが言えます。沿岸部の一部の富裕層が全体年収を引き上げているために、内陸部の実状が見えなくなっている可能性もあるということです。
ログデータの分析なども全く同じです。平均購買数が3個だとしても、ほとんどの人は1個しか購入しておらず、一部の業者と思われる人が何百個と購入している場合もあります。従って、このような分析を行なうときには、まずはヒストグラムを作り全体の分布を確認し、どの範囲のどのデータを分析対象にするかの方針を決めなくてはいけません。平均だけを聞いて納得したり対策を打ったりすることは、非常に危険を伴うのでデータ分析だけではなく一般生活においても注意をする必要があります。

シンプソンのパラドックス

次にクロス集計に関連する話をしたいと思います。一口に分析といっても、平均や偏差値による分析から多変量解析や人工知能を利用した分析まで多種多様です。しかし、「分析はクロス集計に始まりクロス集計に終わる」という名言があるように、クロス集計はすべての分析の基本ではないかと思います。なぜクロス集計が重要なのか、また一歩進んだシンプソンのパラドックスというトピックも取り上げてみました。

本題に入る前に、「パラドックス」とは何か?ということなのですが、パラドックスとは「逆説」の意味で、常識とは逆と説明されるのですが、少し分かりづらいと思います。もう少しくだいていうと、「あたかも正しそうな仮説に基づいて構築された説明なのに、どう考えても納得できないような結論が出ること」をいいます。

例えば足の速いアキレスは前を歩く亀を追い抜けないという有名な「アキレスと亀のパラドックス」があります。亀はアキレスより前を歩いています。アキレスが亀がいた位置に到達したときには亀は前に進んでいる。再度アキレスが亀の位置に到達したときには亀はさらに前に進んでいる。こうしていつまでたってもアキレスは亀に追いつけないというものです。

アキレスと亀
図3.アキレスと亀

結論は到底納得できないにもかかわらず、結論を導く論証過程自体は正しそうに見えるのでこれを正しく論破するのは難しいものです。本題のシンプソンのパラドックスですが、これはE.H.シンプソンによる統計学的なパラドックスで、母集団での相関と、母集団を分割した集団での相関は、異なっている場合があるというものです。アンケート調査で、クロス集計(層別)をすると全体集計(GT)では見られなかった傾向が現れることがありますが、それとは全く別物で、到底納得できない結果が出るのです。

あるメーカーが口内炎に効く新商品を開発したとしましょう。既存商品との違いを確かめるために、それぞれ口内炎を患う100人を抽出しテストを行ないました。その結果が以下の表です。

既存商品と新商品のテスト結果
図4.既存商品と新商品のテスト結果

この表を見ると、良いとした患者が既存商品では55%だったのに対し、新商品は58%と3ポイントアップしていました。「よし、新商品は開発に成功した!」と考えてよいのでしょうか。3ポイントに有意差があるかはここでは議論しないとして、ごくあたりまえの商品企画や開発担当者やリサーチャーであれば、いやもう少しブレークダウンして男女別に見るべきだとか、より詳細な分析をするでしょう。そこで男女別に見たのが以下の表です。 既存商品と新商品の男女別テスト結果

図5.既存商品と新商品の男女別テスト結果

この表を見ると、予想通り新商品は男性には効果があったようですが、女性には既存商品のほうが良さそうです。このまま発売していたら、女性には効き目の弱い商品を発売してしまうことになっていました。このように、全体集計の結果で判断するのではなく、属性別などでブレークダウンした分析がいかに大切かということがわかると思います。

ここまでは、ごく普通のクロス集計の考えで、よくある話です。パラドックスはここから始まります。念のために年代別にはどうなるかを見てみたのが次の表です。

既存商品と新商品の年代別テスト結果
図6.既存商品と新商品の年代別テスト結果

さて、この表を見て皆さんは何を発見するでしょうか。もちろんテストは今回行なったそれぞれ100名に対する結果です。先ほどは男女で効果がある、ないが分れました。しかし年代別に見ると、20代は45%と既存商品のほうが3ポイント良い結果になっており、30代を見ても67%と1ポイント良い結果になっています。
合計すれば明らかに新商品のほうが3ポイント良かったものが、年代別に見たら、どちらも既存商品のほうが良くなってしまっています。これはどういうことなのでしょうか。まさに、「母集団での相関と、母集団を分割した集団での相関は、異なっている場合がある」の実例です。分割した集団の両方で悪いものが、合計すると良くなることがある。何となく狐につままれたような消化不良な話かと思いますが、なぜこのようなことが起きるのか、ぜひ考えてみてください。

正規分布とは

正規分布とはどんな形かと質問すると、左右対称だとか、平均がまん中にあって1番高く両側に行くほど低くなるなどという回答が返ってきます。間違ってはいませんが、そのように答える人には「じゃあ二等辺三角形も正規分布なのか?」と聞き返します。正規分布の形をもう少し正確にことばで表すと、「左右対称で平均を中心に左右に裾野を持つ、釣鐘や富士山のような形をしているカーブ」ということになるでしょうか。

釣鐘と富士山
図7..釣鐘と富士山

なぜ、ここで正規分布の話をするかというと、ビジネスに限らず、我々の生活のなかでも正規分布を利用しているものがたくさんあり、また自然界においても正規分布にあてはまる現象がたくさんあるからです。例えば、降ってくる雨粒の大きさの分布や動物の身長や体重の分布なども正規分布に近い挙動を示します。「誤差を伴う事象に関しては正規分布になりやすい」と考えれば分かりやすいでしょう。

雨粒の大きさや身長の分布
図8.雨粒の大きさや身長の分布

正規分布の形は数式で表せば、簡単に正しい曲線を導くことはできるわけですが、ここでは極力数式を使わずに正規分布がどのようにしてでき、どんな性質があり、どんな使われ方をするのかを説明したいと思います。例えば、図3ように細かく区切られた水槽があったとして、この水槽を正規分布に近い形になるように水を満たすにはどのようにすればよいでしょうか。

細かく区切られた水槽
図9.細かく区切られた水槽
正規分布の作り方

これを実現するのが図10の装置です。蛇口から出た水は、まん中のセパレーターで必ず半分ずつに分けられるようになっており、次々に半分ずつに分けられていきます。1番目の筒に入った水は、1段落ちるとセパレータで2分されるので、2番目の筒を通過する水は左右どちらも同じ量になります。同様に3番目の筒にも半々で水が落ちるわけですが、中央の筒は両方の筒から水が入るので両端の筒に比べて2倍の水が通過することになります。このようなパーツを17段までどんどんつなげていったのがこの図ですが、途中の段階は省略しています。実は、これを無限に段数を増やし、水槽を細かくしていくと正規分布の形になるのです。では、17番目のそれぞれの筒にはどのくらいの比率で水が入るでしょうか。

正規分布の形をつくる装置
図10.正規分布の形をつくる装置

左右対称なので左半分だけ正解を挙げるとこうなります。

1:16:120:560:1820:4368:8008:11440:12870・・・

これは有名なパスカルの3角形と同じ理屈で、(x+y)をn乗したときの右辺の係数(2項係数)とも一致します。この数字には様々な意味があり、例えば頂点から各交点に行く最短経路が何種類あるかという解答にもなっています。この3角形を17段まで計算すれば、上記の解答は出るので、小学生でもできる問題なのです。

パスカルの3角形
図11.パスカルの3角形
正規分布と偏差値

実際の正規分布は図12のような形なのですが、平均0で標準偏差といわれる指標σが1の正規分布を標準正規分布といいます。標準偏差の2乗を分散sというのですが、これは簡単にいえばとがり具合で、分散が大きいと平らな山になり分散が小さいと急峻な山になります。このグラフの裾野は無限に伸びており、このグラフの下側の面積は1となります。

標準正規分布
図12.標準正規分布

全く同じ形で、平均が50、標準偏差が10の正規分布は偏差値を表す曲線として知られています。「平均点だと偏差値が50」、「偏差値が70の大学はかなり難しい」などという知識や感覚は、多くの方がお持ちだと思います。では、もし1000人の受験生がいたとしたら、偏差値70の学生は何番くらいなのでしょうか。この順位はこのグラフの面積で計算できます。つまり、偏差値70以上の部分(図13の水色)の面積は、全体の2.28%となります。従って、偏差値70の学生は1000人中23番くらいだと考えればよいでしょう。同様に計算すると偏差値60の学生は、60以上の面積が15.9%になることから、1000人中159番くらいだということになります。

偏差値のグラフ
図13.偏差値のグラフ
マーケティングにおける正規分布の活用

正規分布は様々なビジネスシーンでも使われます。スタンフォード大学のロジャース教授が提唱した「イノベーター理論」というのは、商品の普及を説明するので、消費者商品が発売されてから購入に到るまでの特徴を5つのタイプに分類したものです。新しい商品に対する購入の早い順から、1.イノベーター=革新者(2.5%)、2.アーリーアダプター)=初期採用者(13.5%)、3.アーリーマジョリティ=前期追従者(34%)、4.レイトマジョリティ=後期追従者(34%)、5.ラガード=採用遅滞者(16%)の5つに分けられるといわれています。この数字は何なのでしょうか。まさにこれは先ほど述べた偏差値と同じなのです。正確には、2.28%、13.59%、34.13%なのだと思いますが、四捨五入の関係でイノベーターが2.5%となっているのだと思います。イノベーターというのは偏差値でいえば70以上ということであり、1000人いれば23~25人くらいの確率で出現すると考えると分かりやすいでしょう。

ロジャースのイノベーター理論
図14..ロジャースのイノベーター理論

また、ジェフリー・ムーアの「キャズムの理論」というものがあります。キャズムというのは深い裂け目という意味で、初期市場と主流市場の間には深い裂け目があり、特にハイテク商品において顕著で、多くの企業がこの裂け目を超えられずに失敗しているというものです。このキャズムがどこに存在するかといえば、偏差値60のところなのです。つまり、新商品採用に対する偏差値が60までの人には採用されるが、60未満の人には採用されないという意味なのです。このように、マーケティングの世界でも正規分布の考え方が非常によく使われているということがおわかりいただけると思います。

ジェフリー・ムーアのキャズム理論
図15.ジェフリー・ムーアのキャズム理論
このページのトップへ