多変量解析とは、多くの情報(変数に関するデータ)を、分析者の仮説に基づいて関連性を明確にする統計的方法のことですが、もっと簡単にいえば、「複雑なことをわかりやすくすること」です。例えば、ある商品に対して様々な評価や結果があります。売上高や利益率もそうですが、顧客満足度や商品特性など、その商品に関する評価データは、すべて何らかの原因があって作り上げられるものです。では、それぞれの評価データは何によってどのように決まるのでしょうか。
売上は商品力や価格、販売促進、販売チャネルなどマーケティングの4Pすべてが関わってきます。利益率は原価や一般管理費、商品特性は原材料や製造方法など原因は多岐にわたります。また商品力が何で決まるかを考えると、ブランドやデザイン、スペック、信頼性などによって総合的に決まるわけですから、売れて儲かる商品を作ろうという課題がどれほど複雑で難易度が高いかはすぐ理解できるでしょう。
企業においては、研究開発や生産工程、市場調査や売上予測など、あらゆる場面で複雑な事象にぶつかり、多変量解析を用いて、その問題を解決しようとしています。ALBERTでは、レコメンドエンジンやCRMソリューション等を提供していますが、消費者の購買データ等の行動データや商品データをもとに、その顧客が何を購買するかを予測し、最適な商品や情報を、最適な顧客に届けるための施策運用を行なっています。従って、多変量解析は当社の分析力を支える大きな道具であり武器でもあります。しかし、多変量解析はデータをソフトに入れれば何らかの結果が必ず出るものだけに、間違った結論を出してしまう可能性もあります。また、ビッグデータの解析においては従来の手法ではうまく分析できない場合もあり、既存のソフトや理論だけでは解決できない問題もあるのです。
多変量解析やデータマイニングを行なう上で、事前のデータ処理やデータ解析は非常に重要です。実際の購買データなどの事前のデータ処理についてはデータマイニングで述べますが、ここではアンケートデータなど、比較的データが目的的に取得されている場合について説明します。
収集したデータは、必要に応じて対数変換、1/0変換等をすることがあります。また、ゴミ・ノイズデータがないか等を確認しクリーニングや加工などをして整えます。その後、単変量解析、2変量解析を経て、多変量解析に進みます。多変量解析の結果が思わしくない場合、単変量解析に戻って、再度2変量解析、多変量解析に進むこともあります。
尺度とは物事を評価したり判断したりする時のものさし、基準のことです。例えば、好き嫌いも尺度の1つですし、100円、500円も尺度です。多変量解析を行なう上で、データがどんな尺度であるかを理解しておくことがとても重要です。なぜなら、様々な手法を選択するときに、この尺度のデータはこの手法では使えないという制限があるからです。
間隔尺度と比尺度をまとめて量的データということがあります。それに対し、名義尺度と順序尺度は質的データといわれます。量的データは距離が測れますが、質的データは測れません。アンケートで「よい」-「ややよい」-「どちらともいえない」-「やや悪い」-「悪い」などの評定尺度法と呼ばれる5段階評価でデータをよく取りますが、これは「よい」と「ややよい」の差と「ややよい」と「どちらろもいえない」の差が等しい保証は全くないので順序尺度です。ただ、実務的には5点から1点までの間隔尺度として分析をする場合が多いわけですが、正確にはその差に関しても検証をすべきでしょう。