データマイニングの手法は複雑で難しいと思われがちですが、その工程を分解して見ると基本処理は
の5つかまたはその組合せに過ぎません。
■ データクレンジング
取得したデータから、ゴミデータ(ノイズ)を除去し、分析対象データを抽出することをいいます。
■ 特定商品の抽出
商品の中から、売れてる商品、売れそうな商品などを抽出する。
■ 特定顧客の抽出
顧客の中から、特定商品の購入経験顧客、優良顧客などを抽出する。
■ 商品を並べ替える
商品を売れてる順に並べ替える(ランキング)、商品を売れそうな順に並べ替える(予測)。
■ 顧客を並べ替える
顧客をたくさん買っている順に並べ替える、顧客を最近買った順に並べ替える。
■ 商品をグループ化する
商品をカテゴリーで分ける。
■ 顧客をグループ化する
顧客を属性で分ける。
■ グループ化された商品の性質を知る
商品カテゴリー毎の月間販売個数、平均単価などのグループ代表値を算出する。
■ グループ化された顧客の性質を知る
性年代別に購入金額を知る(クロス集計)。
■ 商品Aの販売総数量と気温の関係を知る ⇒ 気温が何度ならどれくらい売れるかの予測をする
■ グループ化された顧客がどんな商品を購入しているかを知る
このように見てくると、データマイニングに用いられる様々な手法は、どんなに複雑で難解なアルゴリズムであっても、
の基本処理やその組合せであったり、その処理をするための方法論であることがわかります。
例えば、アンケートデータの基本の基本であるクロス集計は、顧客を属性や何らかの特徴でグループ化し、
各グループのデータの性質を調べる集計方法だといえます。 CRMでよく出てくるRFM分析は、顧客をよく買う順、頻繁に買う順、
たくさん買う順に並べ替えて組み合わせ、 グループ化する分析であり、どのような順番で並べ替えたデータを用いるかによって、
様々な分析のバリエーションがでてきます。
エリアや店舗形態別の需要予測は、売上をエリアや店舗別にグループ分けし、その販売データと時間データ、
様々な説明変数データとの関係性を知ることで、予測をするモデルといえます。その関係性を知る方法として、
様々な回帰分析や後に述べる決定木、ニューラルネットワークなどが用いられるわけです。
これら分析の手法への理解はとても重要ですが、データマイニングが解決する課題で述べた様々なマーケティング課題の解決のためのデータマイニングの種類には、
どの基本処理をどの様に組み合わせるか、抽出や並べ替え、関係性を知るのに、どのような統計的手法を用いるべきなのか、
このあたりを理解した上で分析戦略を立案できることが、実は非常に大切なことであり、
ここがデータ分析の本質であるといっても過言ではないでしょう。
データ基本処理とデータマイニングの種類の関係について以下に示しました。