データ分析基礎知識

“分析力をコアとするデータソリューションカンパニー”
株式会社ALBERTが、データ分析にまつわる基礎知識をわかりやすく解説します。

データマイニングの実際

データマイニングに用いるデータの種類

通販会社などがデータマイニングに用いるデータには、以下の5種類があります。データマイニングを行なう上で必要なデータが、今現在どのような形でどこに蓄積されているのか、また不足しているデータはどのように収集すればいいのかを検討する必要があります。

データマイニングに用いるデータの種類

顧客理解に用いるデータの変化

90年代のマーケティングでは、顧客を理解し分類する手法として、さかんにデモグラフィック属性やサイコグラフィック属性を用いた価値観分析が行われました。ところが、最近のマーケティングでは、ニーズの多様化によりデモグラフィック属性によるセグメントは崩壊したといわれています。以下は顧客を理解するための4つのデータですが、下にいくほど難易度が高く新しいといえ、現在データマイニングが最もよく用いられるのは行動履歴データです。

顧客理解に用いるデータの変化

デモグラフィック属性は、ハードな属性ともいわれますが、変わらない、または比較的変わることの少ない性別、年代、居住地、年収などですので、例えば会員登録時に取得したデータは、しばらく活用することができます。もちろん、興味関心などをあらかじめチェックしておき、そのチェックに基づきメールを配信するなどの手法もありますが、興味関心は移り変わることと、チェックする項目が例えば「ファッション」であったとしたら、全てのアパレルやアクセサリーなどの情報を送らなくてはならず、絞り込みができません。

一方、サイコグラフィック属性によるセグメントは、例えば「先進的で新しい情報に敏感な層はこの様な雑誌を読んでいる傾向が高いので、彼ら向けに企画した商品は、その雑誌に広告を出すと有効である」といったマーケティング戦略には有効ですが、個別にその顧客がそのセグメントに入るかどうかを判定することは非常に難しく、どのようにリーチすればよいかという方法論が見当たらないのです。

アンケートをベースにした統計解析は、一部の顧客を抽出して調べることで、全体を推し量ろうというものです。従って、一部の顧客のことを深く理解できたとしても、抽出していないほとんどの顧客には、アプローチができないのです。

ところがビッグデータ時代といわれる現在は、ほとんどの購買データが収集、分析できるようになりました。このことにより、一部の生活者を抽出して、性年代や居住地、ライフスタイルや価値観を聞き、商品の購入履歴や購入意向と関連付けるという手法を採らなくても、その顧客がどの商品を購入したかというデータが収集できるようになったことで、購入金額や購入した商品から、その顧客がどれくらい自社にとってLTVが高いのか、また顧客の価値観やライフスタイルがどのようなものであるかさえも知ることができるようになったのです。このことは、ビッグデータ時代におけるマーケティング戦略の大きなパラダイムシフトと言えるのではないでしょうか。

商品データの重要性

最適な商品やサービスを最適な顧客に届けるにあたっては、商品と顧客の理解が重要であることはいうまでもありません。前節で述べたように、顧客理解に関する研究はさかんに行われてきましたが、商品理解については、意外とおざなりにされているケースが多いようです。

顧客が回答するアンケート結果から推し量るのではなく、顧客がどんな商品を買ったかで顧客理解を図ろうとすると、顧客が購入した商品がどのような商品であったのかを把握することが、極めて重要になっているのです。

一般に、販売データにはSKUが含まれていますので、どの顧客がどの商品を購入したかは必ず把握できています。従って、そのSKUをたどれば、その商品の商品名も特徴もスペックもすべて分かるはずです。ところが、SKUの分析からその顧客がどのようなカテゴリのどのような色やテイスト、サイズ、ブランド、キャラクターが好みなのかはまず分かりません。SKU単位での分析というものは、極端な話でいえば、色違いのソックスもソックスと椅子も同じように異なった商品という見方をすることになってしまい、ほとんど意味をなさないのです。

従って、まずはSKU単位の商品を、適切なカテゴリで分類整理し、かつ顧客を理解する視点での色、テイスト、サイズ、ブランド、キャラクターなどのCTB分析を行ない、顧客がどのような商品を購入したかの認識を正しくできるような商品データベースを構築しなくてはならないのです。

SKUレベルの分析だと、左の3つも右の3つも、同じように異なった商品という認識になります。

SKUレベルの分析

顧客理解のために知りたいことは、個々のSKUレベルの商品IDではなく、商品のカテゴリーや特徴です

商品のカテゴリーや特徴

例えば、1年前に購入したセーターの商品IDが分かっても、その商品が廃番になってしまえば、何の意味もないデータになってしまいます。しかし、その商品のカテゴリーや特徴がデータとして蓄積されていれば、翌年の購買予測に非常に有用な情報になるわけです。

ALBERTではCTB分析を提唱していますが、CTB分析ができるデータベースを構築するには、商品カテゴリーや特徴であるテイストやブランドなど、データマイニングを前提としたデータの持ち方を検討し、商品マスターを作成しなくてはなりません。多くの企業が決定的にこの視点が不足しているように思われます。購入した商品で顧客を理解する時代において、商品データの重要性が極めて大きくなっているのです。

データ管理とデータの構造

日々更新される販売データや商品データなどのデータベースは、このままでは分析することができないので、統合したデータを過去から現在までまとめてデータウエアハウス(巨大なデータの倉庫)に格納します。さらに、分析する目的によって、例えば一定期間、特定の地域などのデータを抽出したデータマートを活用し、データマイニングを行ないます。

データ管理とデータの構造
図2.データ管理の例

データマイニングで用いるデータの種類で述べたデータベースのうち、販売データベース、商品データベース、顧客データベースは以下のような構造になっています。

表4.販売データベースの例
販売データベースの例

販売データベースは、「いつ」「どこで」「何が(SKU)」「いくらで」「いくつ」売れたかというデータで、通販会社などでは、「誰が」買ったデータかという顧客IDもひもづいています。コンビニなど販売店のデータは、レシートのデータともいえるので、何と何が一緒に買われたのかというバスケット分析もこのデータを用いて行なうことができます。

表5.商品データベースの例
商品データベースの例

商品データベースは、各SKUについてのカテゴリ(大分類、中分類、小分類)や価格、メーカーやスペック、特徴などが記述されたもので、この中のカテゴリの設定の仕方や特徴などのメタデータの持ち方が、データマイニングの成否に、とても大きな影響力を持っています。顧客を理解するための商品データベースである必要があり、販売側の管理の都合によって作られた商品データベースは、そのままではほとんど役に立たないことが多いと思われます。

表6.顧客データベースの例
顧客データベースの例

コンビニなどで誰が購入したかが分からないような場合は、この顧客データベースがない場合もあります。昨今では、ポイントカードなどの利用によって、ID付POSデータを取得する例も増えています。代表的な手法としてFSP(Frequent Shoppers Program)が挙げられます。

これらの3つのデータベースは、顧客IDとSKUをキーとして統合することで、データウエアハウスに格納することができます。データウエアハウスは、過去から現在までの統合されたデータベースなので、そのままではデータが大きすぎて分析ができません。そこで、一般的には目的に応じて必要なデータだけを抽出したデータマートを作成します。

データマイニングの手順

データマイニングの手順
1.目的の明確化

データマイニングを行なう上で、何の目的もないけれど、とりあえずそこにあるデータを放り込んで何らかの知識を得ようということはほとんどないでしょう。知識発見(探索)的データマイニングといっても、目的がない訳ではないのです。まず初めに解決すべき課題を理解し、目的を明確化します。

2.分析方針の決定

目的を達成するには、まずはデータをよく見て内容を理解し、どのデータを用い、どのような分析手法やツールを使って分析するかの方針を立てなくてはなりません。また分析方針は1回で最適なものが見つかるわけではなく、分析した結果が思わしくない場合は方針を立て直し、何回もこのサイクルを回すこともあります。

3.データクレンジング、データ加工/整形

冒頭にも述べた通り、収集したデータにはかならず不要なデータが混じっていると考えたほうがよいでしょう。データの重複や欠損、本来扱うべきでないデータの混入、異常値や外れ値、このようなゴミデータを抽出し、除外しなくてはなりません。また、どんなデータなのかを把握し、データを標準化したり、分析ソフトが扱える形に整形することも必要です。

4.基本集計

本格的な分析に入る前に、データを俯瞰する必要があります。基本統計量を算出したり、クロス集計を行なうなどして、解決する課題のベースとなる数値を抑える必要があります。分析を行なう上で、分析しようとする問題の理解が重要ですが、基本集計をすることでより正しい現状理解ができます。

5.多変量解析

分析方針の結果に基づき、回帰分析、クラスター分析、アソシエーション分析などの手法の選択をします。同じ回帰分析でも、単回帰分析なのか重回帰分析なのか、数量化Ⅰ類なのかという選択も必要ですし、クラスター分析であれば距離はどの定義を使うのか、アソシエーション分析においても、どの連関分析ロジックを使うかなどを決めなくてはなりません。その上で、抽出や分類をしたり、有用な知見を見つけ出したりします。

6.モデル作成

多変量解析の結果をもとに、ルールを一般化し新たなデータが取得されたときに、ある一定のアルゴリズムで課題解決ができるモデルを作成します。このモデルが適切であるかどうかを、実際のデータに当てはめてみて結果を検証します。不適切であったり予測精度が低い場合は、モデルのチューニングをしたり、モデルそのものの見直しを余儀なくされることもあり、データマイニングは試行錯誤の連続であるといわれる所以です。

このページをシェアする

About

ALBERTについて