« 2010年04月 | メイン | 2010年06月 »
2010年05月20日
第1回データ分析勉強会(山川義介)
posted by Yoshisuke Yamakawa
新しいスタッフが増えて、分析力を武器とするALBERTとしては「スタッフ全員にデータ分析のセンスを持ってもらいたい」という気持ちを込めて、1回60分の勉強会を12回に渡って毎週行なうことにした。初回はデータ分析がなぜ必要かというお話。
野村監督がID野球で万年Bクラスの球団を優勝に導いた大きな要因がデータ分析であった。同様に企業においては、BI(Business Inteligence)という概念に注目が集まっている。アクセスログをはじめ、データは山のように取得できる時代になったが、本当に活用している企業はそれほど多くないと言われる。そのあたりの話は別の機会にするとして、まずは非常に基礎的な「平均の罠」という話から。
質問)あなたは就職活動をしています。以下の2社が候補に挙がったとしたらどちらを希望しますか?
A社 平均年齢 30.8歳、平均年収 807万円
B社 平均年齢 31.8歳、平均年収 620万円
今日の生徒は全員A社がいいと答えた。当然だろう。社員も若いし給料も高いのだから。もちろん、業種や地理的条件など、他のパラメータが違えばB社がいいということもあるだろう。しかし、ここではそういうことは分からないとすれば、普通に考えればA社がいいはずだ。
ところが、極端な例だが、一人ひとりの年齢と年収が以下のようだったらどうだろうか。
A社は1人超高給の古参社員がいて、あとは新人ばかり。逆にB社は新人中堅ベテランがうまくバランスしている。しかも、同じ23歳の給与を見るとB社のほうが圧倒的に高い。
データを見る時に、平均で語るのは非常に危険だという例である。これは、中国の平均世帯年収などでも同じことが言える。沿岸部の一部の富裕層が全体年収を引き上げているために、内陸部の実状が見えなくなっている可能性もあるということだ。
ログデータの分析なども全く同じだ。平均購買数が3個だとしても、ほとんどの人は1個しか購入しておらず、一部の業者と思われる人が何百個と購入している場合もある。従って、このような分析を行なう時には、まずはヒストグラムを作り、どの範囲のデータで分析をするかの方針を決めなくてはいけない。平均だけを聞いて納得したり対策を打ったりすることには、非常に危険を伴う。
