データ分析基礎知識

“分析力をコアとするデータソリューションカンパニー”
株式会社ALBERTが、データ分析にまつわる基礎知識をわかりやすく解説します。

データマイニングとは

データマイニングとは

データマイニングとは、CRMすなわち『顧客1人ひとりの深い理解に基づく企業と顧客の長期的かつ良好な関係を形成する手法、 戦略』を強力にサポートするテクノロジーです。より具体的には、企業が収集する大量のデータを分析し、 有用なパターンやルールを発見し、マーケティング活動を支援する統計的手法やツールの集合体ともいえるでしょう。
データマイニングといえば、必ずといっていいくらい、おむつとビールが併売されていたというルールが発見できるというような話が出てきますが、 今ではこの話は、「伝説だ」とか「根拠のない単なる逸話に過ぎない」という認識を持っている人がほとんどです。 実際にこの2つを同じ売り場に置いて売上が上がったという確かな証拠はどこにもありません。 それどころか、たまたま消費サイクルが同じだったのであって、梱包個数を変えたら全く併売されなくなったという、 これまた怪しげな話をする人もいるくらいです。

データマイニングでは、「なぜおむつとビールが一緒に買われたか」については言及しなくてもよいという立場を取ることもあります。 因果関係が分からなくても、結果さえ出ればよいという考えです。しかし、顧客の理解に基づく戦略であれば、 結果を出すための原因を追求すべきだと思います。

ここでは、データマイニングの中でもマーケティング分野、とりわけ購買行動に関しての説明をメインとしたいと思います。 様々な切り口でデータマイニングの分類、整理、体系化をした上で、よく用いる手法はより詳しく触れますが、 粒度が揃った網羅的な教科書にするつもりはなく、されど俯瞰的、体系的でより分かりやすいコンテンツを目指します。

データマイニングの現実

冒頭でも述べたように、データマイニングは広大な鉱山から金脈を見つけるというよりは、 『荒涼としたゴミだらけの草原から美味しい果実を収穫する』というイメージではないでしょうか。 金脈はあるかどうか分かりませんが、草原には確実に果実はあるのです。しかし、実際のデータには、 何とも不可思議な使えないデータが混じっていたり、本当に食べられる実がなっている樹なのかもよく分からないデータがたくさんあります。 まずは、草原を掃除しなくてはならないのですが、この広大な草原の掃除にはかなりの時間がかかります。 実際に果実を収穫できるまでに、全体の80%の時間を費やしてしまうことも多いのです。

ようやくデータが綺麗になったとしても、効率良く価値のあるルールという果実を収穫するには、 色々な工夫をしなくてはなりません。このデータをデータマイニングソフトに入れれば、 打ち出の小槌のように宝物が出てくるというわけではないのです。

2種類のデータマイニング

よく、データマイニングと統計解析の違いを比較することがあります。 データマイニングは知識発見で統計解析は仮説検証であると言われます。はたして本当にそうなのでしょうか。

確かに、統計解析が扱うデータ量は比較的少なく、データマイニングのほうが多いでしょう。 また、データマイニングには知識発見の要素もありますが、データを入れれば何らかの知識が自動的に発見できるものではありません。 データマイニングには2種類ある、すなわち知識発見だけではなく、統計解析と同じように、仮説検証もあることを認識しておく必要があります。

  • 仮説検証(目的志向)的データマイニング
  • 知識発見(探索)的データマイニング

仮説検証(目的志向)的データマイニングは、目的変数があり、購買量や顧客の反応を予測したり、 そのために顧客を分類したりするものです。回帰分析、決定木、ニューラルネットワークなどの多くの手法は、 目的を持ってモデルを作るために使われます。 一方の知識発見(探索)的データマイニングには目的変数がなく、得られたデータから有用なルールやパターン、 類似性などを見つけ出そうというもので、代表的な手法としてマーケットバスケット分析に用いられるアソシエーション分析があります。

2種類のデータマイニングをもう少しブレイクすると、以下の様な分類ができます。

仮説検証(目的志向)的データマイニング

  • 推定、把握(量的変数)
  • 分類、抽出(質的変数)
  • 将来の予測

知識発見(探索)的データマイニング

  • アソシエーションルール策定
  • クラスタリング

両者で用いられるデータマイニング

  • グループの特徴を推測する(プロファイリング)

ここで、量的変数と質的変数というものが出てきますが、こちらについては多変量解析のページで詳しく説明しています。 データマイニングで収集するデータには、売上高や売上個数のように、連続した数値で表せる量的データと、 この顧客は何を買ったのかというように、買ったか、買わないかが1/0のデータで表せる質的データ(アイテムカテゴリー型)があります。 多変量解析においても、扱う変数が量的か質的かによって用いることのできる手法が決まるように、データマイニングでも扱う変数の種類によって、 様々な手法を使い分ける必要があります。

仮説検証的データマイニングの中で、「推定、把握」というのは、例えばどのエリアでどのような商品がどの程度売れているのかといった、 量的な数値を推定したり把握したりするものです。「分類、抽出」というのは、そのエリア別に売れている商品や商品カテゴリーを抽出し、 分類、整理して分析するものです。この2つは正しい現状認識をするという目的で使うものですが、「予測」は現状ではなく、 将来の売上高や売れ筋商品などを何らかのモデルを作って予測することをいいます。

一方の知識発見的データマイニングの「アソシエーションルール策定」は、同時に何と何が買われているかなどを探索的に知ることで、 例えば、この商品を買った人にはこの商品をお薦めしようというレコメンデーションに活用します。「クラスタリング」は、 購買動向などから似たような人をグループ化し、グループ毎に最適な施策を打とうというものです。この2つは、目的変数がないので、 多変量解析でいうところの要約の手法に当たりますが、分析の目的がないわけではありません。

クラスタリングと分類の違いは、グループ分けする根拠が、あらかじめ定義された属性や購買金額などによって分けるのか、 または事後に定義された探索的根拠によってグループ化されるかです。デシル分析やRFM分析などは、同じように顧客をグループ化する方法ですが、 購買金額や頻度の大小というあらかじめ定義された根拠によって行われています。クラスター分析は、グループ化は何らかの根拠で勝手にされ、 事後にそのグループの特徴を知るプロファイリングを行なうので、全くアプローチが違います。


仮説検証でも知識発見でも用いられる「グループの特徴を知る」の代表的データマイニングが「テキストマイニング」でしょう。 テキストマイニングは、目的を持って語られている内容を定性的、定量的に知ることもありますし、 探索的に何が語られているかを発見することもあります。

このように、データマイニングには目的を持ってあらかじめ定義された根拠に基づいて行なう、仮説検証(目的志向)的データマイニングと、 知識発見(探索)的データマイニングの2つがあります。

データマイニングが解決する課題

データマイニングで何をしたいかという事を考えた時に、RFM分析をしたいとか、顧客のクラスタリングをしたいとかいう回答もあるのですが、 これは最終目的ではなく、マーケティング課題を解決するための手段に過ぎません。 では、企業が持っているマーケティング課題にはどのようなものがあるでしょうか。

課題を、商品についてと、顧客についてに分けてみました。

1.商品について知りたいこと

どこでどの商品がどれくらい売れているのだろうか。
→推定、把握
自社の商品はどのように分類すればよいのだろうか。
→分類、抽出
今後力を入れるべき重点商品はどの商品なのだろうか。
→分類、抽出
この商品は将来どの程度売れるのだろうか。
→将来の予測
どの商品とどの商品が一緒に買われているのだろうか。
→アソシエーションルール策定
新商品の評判はどうだったのだろうか。
→グループの特徴を知る

2.顧客について知りたいこと

この顧客はどんな商品を買ってくれているのだろうか。
→推定、把握
優良な顧客、離反しかけている顧客は誰なんだろうか。
→分類、抽出
この商品は将来どの顧客が買ってくれるのだろうか。
→将来の予測
どの顧客クラスターにはどの商品をお薦めすればよいだろうか。
→クラスタリング
自社の顧客は性年代別、地域別にどんな人なのだろうか。
→グループの特徴を推測する

どの課題も、2つのデータマイニング分類のどれかに当てはまることがわかります。 これらのマーケティング課題を解決するのが、データマイニングの究極の目的です。また、データマイニングには、 それぞれの課題を解決するのに相応しい手法があります。(これについては、後で詳しく述べます)。

また、上記の課題は、まさにマーケティングの基本戦略であるSTP(セグメンテーション、ターゲティング、ポジショニング)に直結しており、 4Pの施策を実現する上で不可欠な価値のある知識やルールの発見をすることで解決されます。これがデータマイニングの本質でもあります。

データマイニングとデータサイエンス

1990年に野村監督が「ID野球」(IDは、Important Dataを意味する造語)を掲げチームの改革をし、1992年にはリーグ優勝を果たしました。 ID野球というのは、データを重視した野球という意味で、徹底的なデータ分析によって戦略を考えたというものです。データサイエンスとは、 まさにこのデータを重視した野球ではなく「科学」という意味で、とりわけ大量のデータをコンピュータを駆使して、 データの取得から課題解決までを一貫して科学するものといってよいでしょう。科学とは、混沌としたものを分類、整理、体系化することで、 特にマーケティング領域で興味があるのは、自然科学ではなく社会科学といえるでしょう。

データマイニングとは何かで述べたように、扱うデータは整形されておらずノイズも多い、混沌としたものです。 これらのデータをいかに科学的アプローチによって、課題解決につなげるかが重要です。データサイエンスは、データの取得、蓄積、解析、 モデル構築、検証、課題解決までを一気通貫で科学することが求められ、データマイニングでは、 主にこのステップの中のモデル構築までを主な守備範囲としています。

図1.データマイニングとデータサイエンスの関係
このページをシェアする

About

ALBERTについて