データ分析基礎知識

“分析力をコアとするデータソリューションカンパニー”
株式会社ALBERTが、データ分析にまつわる基礎知識をわかりやすく解説します。

データマイニングにおけるデータの基本処理

データマイニングの手法は複雑で難しいと思われがちですが、その工程を分解して見ると基本処理は

の5つかまたはその組合せに過ぎません。

データを抽出する データを抽出する

■ データクレンジング
取得したデータから、ゴミデータ(ノイズ)を除去し、分析対象データを抽出することをいいます。

データクレンジング

■ 特定商品の抽出
商品の中から、売れてる商品、売れそうな商品などを抽出する。

特定商品の抽出

■ 特定顧客の抽出
顧客の中から、特定商品の購入経験顧客、優良顧客などを抽出する。

特定顧客の抽出

データを並べ替える データを並べ替える

■ 商品を並べ替える
商品を売れてる順に並べ替える(ランキング)、商品を売れそうな順に並べ替える(予測)。

商品を並べ替える

■ 顧客を並べ替える
顧客をたくさん買っている順に並べ替える、顧客を最近買った順に並べ替える。

顧客を並べ替える

データをグループ化する データをグループ化する

■ 商品をグループ化する
商品をカテゴリーで分ける。

商品をグループ化する

■ 顧客をグループ化する
顧客を属性で分ける。

顧客をグループ化する

データの性質を知る データの性質を知る

■ グループ化された商品の性質を知る
商品カテゴリー毎の月間販売個数、平均単価などのグループ代表値を算出する。

グループ化された商品の性質を知る

■ グループ化された顧客の性質を知る
性年代別に購入金額を知る(クロス集計)。

グループ化された顧客の性質を知る

データとデータの関係性を知る データとデータの関係性を知る

■ 商品Aの販売総数量と気温の関係を知る ⇒ 気温が何度ならどれくらい売れるかの予測をする

商品Aの販売総数量と気温の関係を知る

■ グループ化された顧客がどんな商品を購入しているかを知る

グループ化された顧客がどんな商品を購入しているかを知る

データ基本処理から見るデータ分析の本質

このように見てくると、データマイニングに用いられる様々な手法は、どんなに複雑で難解なアルゴリズムであっても、

の基本処理やその組合せであったり、その処理をするための方法論であることがわかります。

例えば、アンケートデータの基本の基本であるクロス集計は、顧客を属性や何らかの特徴でグループ化し、 各グループのデータの性質を調べる集計方法だといえます。 CRMでよく出てくるRFM分析は、顧客をよく買う順、頻繁に買う順、 たくさん買う順に並べ替え組み合わせグループ化する分析であり、どのような順番で並べ替えたデータを用いるかによって、 様々な分析のバリエーションがでてきます。

エリアや店舗形態別の需要予測は、売上をエリアや店舗別にグループ分けし、その販売データと時間データ、 様々な説明変数データとの関係性を知ることで、予測をするモデルといえます。その関係性を知る方法として、 様々な回帰分析や後に述べる決定木、ニューラルネットワークなどが用いられるわけです。

これら分析の手法への理解はとても重要ですが、データマイニングが解決する課題で述べた様々なマーケティング課題の解決のためのデータマイニングの種類には、 どの基本処理をどの様に組み合わせるか、抽出や並べ替え、関係性を知るのに、どのような統計的手法を用いるべきなのか、 このあたりを理解した上で分析戦略を立案できることが、実は非常に大切なことであり、 ここがデータ分析の本質であるといっても過言ではないでしょう。

データ基本処理とデータマイニングの種類の関係について以下に示しました。

表3.データ基本処理とデータマイニングの種類の関係
データ基本処理とデータマイニングの種類の関係
このページをシェアする

About

ALBERTについて