データ分析基礎知識

“分析力をコアとするデータソリューションカンパニー”
株式会社ALBERTが、データ分析にまつわる基礎知識をわかりやすく解説します。

いろいろな代表値

平均値、最頻値、中央値

基本統計量の中に、平均値、中央値、最頻値という3つの指標がありますが、左右対称の分布ではこれらの値は3つとも等しくなり、Bのような歪んだ分布だと等しくなりません。以下のグラフはそれらのイメージを表したものです。単変量解析を行なう場合は、必ずこのようなヒストグラムを作り、取得したデータがどのような分布なのかをチェックする必要があります。平均に意味がないことがある事例はこちらをご覧ください。

図3.きれいな分布(正規分布)
図4.歪んだ分布
 

※分布の中心(代表値)を表す値
①平均値
 全ての個別データを足しあげて、その合計をデータの個数で割り算した値
 例:クラス全員の身長を足しあげて、人数で割った数値。
②最頻値
 対象者がもっとも集中しているデータ値
 例:生徒の身長を5センチメートル刻みで分割し、1番たくさんの生徒が入った範囲。
③中央値
 データを大きさの順に並べて、ちょうど真ん中にくる値。
 例:生徒を背の低い順に並ばせ、ちょうど真ん中にきた生徒の身長。
   41人の生徒のうち背が21番目に高い生徒の身長。

3種の平均

一般に平均といえば、テストの点数の平均のように、全員の点数を足して人数で割る「相加平均」のことを指しますが、実は平均には以下の3種類があります。場合によって使い分けることが必要です。

相加平均 相乗平均 調和平均
① 相加平均(算術平均)

一般的に平均といえばこれのことを指します。全てのデータを足して、データ数で割った値です。

EXCELの式は =AVERAGE()

② 相乗平均(幾何平均)

全てのデータの値を掛け合わせて、データ数の累乗根を求めた値です。物価の上昇率など、率の平均を求めるような場合に使われます。

EXCELの式は =GEOMEAN()

具体的な使いかたはなかなかイメージできないと思います。そこで、ここではうな重の価格決定に応用する方法について紹介したいと思います。

うな重のおしながき

図5.うな重のおしながき

さて、上記のようなメニューがあったら、あなたはどれを食べたいでしょうか。この価格設定は選びやすいでしょうか。超グルメの人はいつも松かもしれませんし、節約している人は迷わず梅かもしれません。しかし、日本人の多くにある中流意識から考えると、竹を頼みたいところですけれど、さすがに梅の2倍の価値があるのかどうか、心配になりませんか?

実は、このような価格設定は、生活者の価格感覚から見るとあまりよいとはいえないのです。なぜなら、価格と効用の度合いとの関係はリニアではなく、指数的になっていると考えられるからです。

松が3,000円、梅が1,000円だとしたら、竹はいくらに設定するのがよいでしょうか。相加平均を用いれば2000円になるわけですが、相乗平均の1,730円程度にしたほうが、しっくりくるのではないでしょうか。ある老舗の鰻屋さんの価格を調べてみると、

金額と差分

以上のように価格はリニアではなく、高級になるほど差分が大きくなっています。実際にうな重(イ)と、うな重(ハ)の相乗平均を計算してみると、3723円となり、ほぼ実際の値段に等しくなります。

うな重の最適価格

このように、相乗平均は率を平均する時などに使うと、意外によい結果が得られることがあるのです。ちなみにきく川は(イ)で充分満足できます。

③ 調和平均

ランニングコースを2周したときの平均速度などを求める場合に使われます。
例えば1kmのコースを、1周目は10km/hで2周目は8km/hで走ったときの平均速度は、
相加平均で、(10+8)/2=9km/hとするのではなく、
1周目は1/10=0.1時間、2周目は1/8=0.125時間、合計で0.225時間かかったのだから、
(1+1)/0.225=8.89km/hとなります。

EXCELの式は =HARMEAN()

平均速度
このページをシェアする

About

ALBERTについて