データマイニングで扱うデータは、データ量が統計解析で扱うものより大きいということがひとつの特徴ですが、その他にも統計解析が扱うデータとの決定的違いがあります。統計解析で扱うデータは、ゴミが少なく綺麗だということもあるのですが、きちんと区画整理された果樹園と同じで、樹は密に並んでおり、そこにはほぼ確実に果実が熟しているのです。
アンケートデータでは、数百人の質問に対する回答データが、5段階評点または1/0データなどでほぼ全て埋まっており、NULL(値が何もない)のデータ比率はそれほど高くありません。
それに対して、データマイニングで扱うデータは、数百万人以上の顧客が、数万点の商品の中からいくつかの商品を購入したデータなので、ほとんどがNULLだと言っても過言ではありません。
この様にデータがNULLだらけで疎な様子をスパースといいます。データマイニングにおいて、このデータのスパース性というのは、 大きな問題です。商品分析、顧客分析の両面から、スパース性を解決する必要があります。商品分析においては、数万の商品をSKU ※ (Stock Keeping Unit)で分析することは、まさにデータをスパースにしている要因に他なりません。このことから、CTB分析の中でも、カテゴリー分析が特に重要になってきます。また、顧客の類似性を評価する場合の類似度の定義なども、従来のクラスター分析で用いられるものでは対応できないことがあり、工夫をする必要があります。
※SKU:商品の最小管理単位。同じ商品でも色やサイズによって商品番号は異なる。
昨今、ビッグデータという言葉がバズワードのように巷に溢れています。では、このビッグデータとデータマイニングはどのような関係にあるのでしょうか。その前に、ビッグデータとは何かをおさらいしておきたいと思います。 鈴木良介著「ビッグデータビジネスの時代」(平成23年11月)によれば、『ビッグデータは「事業に役立つ知見を導出するためのデータ」とし、ビッグデータビジネスについて、「ビッグデータを用いて社会・経済の問題解決や、業務の付加価値向上を行う、あるいは支援する事業」』と目的志向的かつ定性的な説明をしています。一方、ビッグデータの特徴としては、3Vや4Vなどが取り上げられることがあります。
3V=Volume/Variety/Velocity
4V=Volume/Variety/Velocity/Veracity
4V=Volume/Variety/Velocity/Value
他にも、ビッグデータの特徴として、以下が挙げられることもあります。
■ 容量は大きいが明確な量の定義はない
■ データの種類は色々あって、非定型で多様性がある
■ 速度が速く、リアルタイム性がある
■ データ量が指数関数的に増える
さらに加えて、従来のマーケティング分析に用いるデータとの違いとしては、以下が挙げられます。
■ 整形データではない
■ スパース(疎)である
■ ノイズが多い
では、ビッグデータには具体的にはどのようなものがあるのでしょうか。我々がマーケティングデータとして取り扱うビッグデータとしては、 以下のようなものがあります。
■ 検索履歴データ
■ Web行動履歴データ
■ ECサイトの購買履歴データ
■ POSデータ、ID付POSデータ
■ 生活者のSNSなどへの書き込みデータ
■ コールセンターへの問い合わせデータ
■ クレジットカード決済履歴データ
■ 広告配信データ
ビッグデータは、マーケティング領域以外でも温度、振動、雨量などのセンサーデータがあり、例えば建造物に無数に設置されたセンサーデータから、 構造物の振動や劣化状況を把握したり、大量のワイパーに稼働センサーを装着することで、リアルタイム天気予報を実現させるというアイデアもあります。
他にもビッグデータは専門領域での活用事例は数多くあり、必ずしも整形データではない、スパース(疎)である、 ノイズが多いというマーケティング系のデータの特徴を有しているわけではありません。従って、 一般的なビッグデータが直ちにデータマイニングに直結しているのではなく、 ビッグデータの中の一部においてデータマイニングが適用されると考えるべきでしょう。いずれにしても、ビッグデータの価値は、 そのデータの大きさにあるのではなく、そこから得られる価値の大きさがビッグでなくてはならず、 そのために最も重要なのが分析であることはいうまでもありません。