データ分析基礎知識

“分析力をコアとするデータソリューションカンパニー”
株式会社ALBERTが、データ分析にまつわる基礎知識をわかりやすく解説します。

データマイニングで扱うデータ

データマイニングで扱うデータの特徴

図6.層別の相関

データマイニングで扱うデータは、データ量が統計解析で扱うものより大きいということがひとつの特徴ですが、その他にも統計解析が扱うデータとの決定的違いがあります。統計解析で扱うデータは、ゴミが少なく綺麗だということもあるのですが、きちんと区画整理された果樹園と同じで、樹は密に並んでおり、そこにはほぼ確実に果実が熟しているのです。

アンケートデータでは、数百人の質問に対する回答データが、5段階評点または1/0データなどでほぼ全て埋まっており、NULL(値が何もない)のデータ比率はそれほど高くありません。

表1.アンケートデータの例

それに対して、データマイニングで扱うデータは、数百万人以上の顧客が、数万点の商品の中からいくつかの商品を購入したデータなので、ほとんどがNULLだと言っても過言ではありません。

表2.データマイニングで扱うデータの例

この様にデータがNULLだらけで疎な様子をスパースといいます。データマイニングにおいて、このデータのスパース性というのは、 大きな問題です。商品分析、顧客分析の両面から、スパース性を解決する必要があります。商品分析においては、数万の商品をSKU ※ (Stock Keeping Unit)で分析することは、まさにデータをスパースにしている要因に他なりません。このことから、CTB分析の中でも、カテゴリー分析が特に重要になってきます。また、顧客の類似性を評価する場合の類似度の定義なども、従来のクラスター分析で用いられるものでは対応できないことがあり、工夫をする必要があります。
※SKU:商品の最小管理単位。同じ商品でも色やサイズによって商品番号は異なる。

データマイニングとビッグデータ

昨今、ビッグデータという言葉がバズワードのように巷に溢れています。では、このビッグデータとデータマイニングはどのような関係にあるのでしょうか。その前に、ビッグデータとは何かをおさらいしておきたいと思います。 鈴木良介著「ビッグデータビジネスの時代」(平成23年11月)によれば、『ビッグデータは「事業に役立つ知見を導出するためのデータ」とし、ビッグデータビジネスについて、「ビッグデータを用いて社会・経済の問題解決や、業務の付加価値向上を行う、あるいは支援する事業」』と目的志向的かつ定性的な説明をしています。一方、ビッグデータの特徴としては、3Vや4Vなどが取り上げられることがあります。

3V=Volume/Variety/Velocity

4V=Volume/Variety/Velocity/Veracity

4V=Volume/Variety/Velocity/Value

Volume(容量の大きさ)
ビッグデータの第一の特徴は、その名前の通り容量が大きいことです。企業に限らず、情報技術の進化により、黙っていてもどんどんデータが集まるようになり、データ量はテラバイトからペタバイトオーダーにもなっています。データ量が大きいことだけがビッグデータの特徴だと思われがちですが、他にも以下のようなポイントがあります。
Variety(多様性、種類)
ビッグデータは、通常表計算などで扱っているように、数値化され関連づけをされたデータ(構造化データ)であるとは限りません。テキスト、音声、画像、動画などのさまざまな構造化されていないデータ(非構造化データ)もあり、これらのデータをテキストマイニングや音声、画像解析などを行ない構造化し、ビジネスに活用する動きが広まっています。
Velocity(スピード、頻度)
サーバーのアクセスログや、東京ゲートブリッジ橋梁モニタリングシステムなど、ものすごい頻度、スピードでインターネット上やセンサーからデータが生成され、取得、蓄積されています。変化の著しい現代社会では、これらのデータをリアルタイムに処理し、対応することが求められています。
Veracity(正確さ)
従来は、サンプリングによって一部のデータで全体を推測する方法が主流でした。それに対し、ビッグデータは全てのデータを取得することも不可能ではないので、正確であり推測による曖昧さや不正確さなどを排除して、本当に信頼できるデータによる意思決定が可能になります。
Value(価値)
ビッグデータは、容量の大きさや多様性、スピードに価値があるのではありません。得られたデータを分析し有用な知識や知恵を導出し、モデル構築、検証し、課題解決をすることが本質的なビッグデータの価値です。

他にも、ビッグデータの特徴として、以下が挙げられることもあります。

■ 容量は大きいが明確な量の定義はない

■ データの種類は色々あって、非定型で多様性がある

■ 速度が速く、リアルタイム性がある

■ データ量が指数関数的に増える

さらに加えて、従来のマーケティング分析に用いるデータとの違いとしては、以下が挙げられます。

■ 整形データではない

■ スパース(疎)である

■ ノイズが多い

では、ビッグデータには具体的にはどのようなものがあるのでしょうか。我々がマーケティングデータとして取り扱うビッグデータとしては、 以下のようなものがあります。

■ 検索履歴データ

■ Web行動履歴データ

■ ECサイトの購買履歴データ

■ POSデータ、ID付POSデータ

■ 生活者のSNSなどへの書き込みデータ

■ コールセンターへの問い合わせデータ

■ クレジットカード決済履歴データ

■ 広告配信データ

ビッグデータは、マーケティング領域以外でも温度、振動、雨量などのセンサーデータがあり、例えば建造物に無数に設置されたセンサーデータから、 構造物の振動や劣化状況を把握したり、大量のワイパーに稼働センサーを装着することで、リアルタイム天気予報を実現させるというアイデアもあります。

他にもビッグデータは専門領域での活用事例は数多くあり、必ずしも整形データではない、スパース(疎)である、 ノイズが多いというマーケティング系のデータの特徴を有しているわけではありません。従って、 一般的なビッグデータが直ちにデータマイニングに直結しているのではなく、 ビッグデータの中の一部においてデータマイニングが適用されると考えるべきでしょう。いずれにしても、ビッグデータの価値は、 そのデータの大きさにあるのではなく、そこから得られる価値の大きさがビッグでなくてはならず、 そのために最も重要なのが分析であることはいうまでもありません。

このページをシェアする

About

ALBERTについて