データ分析基礎知識

“分析力をコアとするデータソリューションカンパニー”
株式会社ALBERTが、データ分析にまつわる基礎知識をわかりやすく解説します。

正規分布とは

分布のなかで、最もよく使われるのが正規分布です。正規分布とはどんな形かと質問すると、左右対称だとか、平均がまん中にあって1番高く両側に行くほど低くなるなどという回答が返ってきます。間違ってはいませんが、そのように答える人には「じゃあ二等辺三角形も正規分布なのか?」と聞き返します。正規分布の形をもう少し正確に言葉で表すと、「左右対称で平均を中心に左右に裾野を持つ、釣鐘や富士山のような形をしているカーブ」ということになるでしょうか。

釣鐘と富士山
図1.釣鐘と富士山

なぜ、ここで正規分布の話をするかというと、ビジネスに限らず、我々の生活のなかでも正規分布を利用しているものがたくさんあり、また自然界においても正規分布にあてはまる現象がたくさんあるからです。例えば、降ってくる雨粒の大きさの分布や動物の身長や体重の分布なども正規分布に近い挙動を示します。「誤差を伴う事象に関しては正規分布になりやすい」と考えれば分かりやすいでしょう。

雨粒の大きさや身長の分布
図2.雨粒の大きさや身長の分布

正規分布の形は数式で表せば、簡単に正しい曲線を導くことはできるわけですが、ここでは極力数式を使わずに正規分布がどのようにしてでき、どんな性質があり、どんな使われ方をするのかを説明したいと思います。例えば、図3ように細かく区切られた水槽があったとして、この水槽を正規分布に近い形になるように水を満たすにはどのようにすればよいでしょうか。

細かく区切られた水槽
図3.細かく区切られた水槽

正規分布の作り方

これを実現するのが図4の装置です。蛇口から出た水は、まん中のセパレーターで必ず半分ずつに分けられるようになっており、次々に半分ずつに分けられていきます。1番目の筒に入った水は、1段落ちるとセパレータで2分されるので、2番目の筒を通過する水は左右どちらも同じ量になります。同様に3番目の筒にも半々で水が落ちるわけですが、中央の筒は両方の筒から水が入るので両端の筒に比べて2倍の水が通過することになります。このようなパーツを17段までどんどんつなげていったのがこの図ですが、途中の段階は省略しています。実は、これを無限に段数を増やし、水槽を細かくしていくと正規分布の形になるのです。では、17番目のそれぞれの筒にはどのくらいの比率で水が入るでしょうか。

正規分布の形をつくる装置
図4.正規分布の形をつくる装置

左右対称なので左半分だけ正解を挙げるとこうなります。

1:16:120:560:1820:4368:8008:11440:12870・・・

これは有名なパスカルの3角形と同じ理屈で、(x+y)をn乗したときの右辺の係数(2項係数)とも一致します。この数字には様々な意味があり、例えば頂点から各交点に行く最短経路が何種類あるかという解答にもなっています。この3角形を17段まで計算すれば、上記の解答は出るので、小学生でもできる問題なのです。

パスカルの3角形
図5.パスカルの3角形

正規分布と偏差値

実際の正規分布は図6のような形なのですが、平均0で標準偏差といわれる指標σが1の正規分布を標準正規分布といいます。標準偏差の2乗を分散sというのですが、これは簡単にいえばとがり具合で、分散が大きいと平らな山になり分散が小さいと急峻な山になります。このグラフの裾野は無限に伸びており、このグラフの下側の面積は1となります。

標準正規分布
図6.標準正規分布

全く同じ形で、平均が50、標準偏差が10の正規分布は偏差値を表す曲線として知られています。「平均点だと偏差値が50」、「偏差値が70の大学はかなり難しい」などという知識や感覚は、多くの方がお持ちだと思います。では、もし1000人の受験生がいたとしたら、偏差値70の学生は何番くらいなのでしょうか。この順位はこのグラフの面積で計算できます。つまり、偏差値70以上の部分(図7の水色)の面積は、全体の2.28%となります。従って、偏差値70の学生は1000人中23番くらいだと考えればよいでしょう。同様に計算すると偏差値60の学生は、60以上の面積が15.9%になることから、1000人中159番くらいだということになります。

偏差値のグラフ
図7.偏差値のグラフ

マーケティングにおける正規分布の活用

正規分布は様々なビジネスシーンでも使われます。スタンフォード大学のロジャース教授が提唱した「イノベーター理論」というのは、商品の普及を説明する上で、消費者商品が発売されてから購入に到るまでの特徴を5つのタイプに分類したものです。新しい商品に対する購入の早い順から、1.イノベーター=革新者(2.5%)、2.アーリーアダプター=初期採用者(13.5%)、3.アーリーマジョリティ=前期追従者(34%)、4.レイトマジョリティ=後期追従者(34%)、5.ラガード=採用遅滞者(16%)の5つに分けられるといわれています。この数字は何なのでしょうか。まさにこれは先ほど述べた偏差値と同じなのです。正確には、2.28%、13.59%、34.13%なのだと思いますが、四捨五入の関係でイノベーターが2.5%となっているのだと思います。イノベーターというのは偏差値でいえば70以上ということであり、1000人いれば23〜25人くらいの確率で出現すると考えると分かりやすいでしょう。

ロジャースのイノベーター理論
図8.ロジャースのイノベーター理論

また、ジェフリー・ムーアの「キャズムの理論」というものがあります。キャズムというのは深い裂け目という意味で、初期市場と主流市場の間には深い裂け目があり、特にハイテク商品において顕著で、多くの企業がこの裂け目を超えられずに失敗しているというものです。このキャズムがどこに存在するかといえば、偏差値60のところなのです。つまり、新商品採用に対する偏差値が60までの人には採用されるが、60未満の人には採用されないという意味なのです。このように、マーケティングの世界でも正規分布の考え方が非常によく使われているということがおわかりいただけると思います。

ジェフリー・ムーアのキャズム理論
図9.ジェフリー・ムーアのキャズム理論
このページをシェアする

About

ALBERTについて