データ分析基礎知識

“分析力をコアとするデータソリューションカンパニー”
株式会社ALBERTが、データ分析にまつわる基礎知識をわかりやすく解説します。

多変量解析のための基礎知識

多変量解析の目的

多変量解析とは、多くの情報(変数に関するデータ)を、分析者の仮説に基づいて関連性を明確にする統計的方法のことですが、もっと簡単にいえば、「複雑なことをわかりやすくすること」です。例えば、ある商品に対して様々な評価や結果があります。売上高や利益率もそうですが、顧客満足度や商品特性など、その商品に関する評価データは、すべて何らかの原因があって作り上げられるものです。では、それぞれの評価データは何によってどのように決まるのでしょうか。

売上は商品力や価格、販売促進、販売チャネルなどマーケティングの4Pすべてが関わってきます。利益率は原価や一般管理費、商品特性は原材料や製造方法など原因は多岐にわたります。また商品力が何で決まるかを考えると、ブランドやデザイン、スペック、信頼性などによって総合的に決まるわけですから、売れて儲かる商品を作ろうという課題がどれほど複雑で難易度が高いかはすぐ理解できるでしょう。

企業においては、研究開発や生産工程、市場調査や売上予測など、あらゆる場面で複雑な事象にぶつかり、多変量解析を用いて、その問題を解決しようとしています。ALBERTでは、レコメンドエンジンやCRMソリューション等を提供していますが、消費者の購買データ等の行動データや商品データをもとに、その顧客が何を購買するかを予測し、最適な商品や情報を、最適な顧客に届けるための施策運用を行なっています。従って、多変量解析は当社の分析力を支える大きな道具であり武器でもあります。しかし、多変量解析はデータをソフトに入れれば何らかの結果が必ず出るものだけに、間違った結論を出してしまう可能性もあります。また、ビッグデータの解析においては従来の手法ではうまく分析できない場合もあり、既存のソフトや理論だけでは解決できない問題もあるのです。

多変量解析の手順

多変量解析やデータマイニングを行なう上で、事前のデータ処理やデータ解析は非常に重要です。実際の購買データなどの事前のデータ処理についてはデータマイニングで述べますが、ここではアンケートデータなど、比較的データが目的的に取得されている場合について説明します。

多変量解析の手順
図1.多変量解析の手順

収集したデータは、必要に応じて対数変換、1/0変換等をすることがあります。また、ゴミ・ノイズデータがないか等を確認しクリーニングや加工などをして整えます。その後、単変量解析、2変量解析を経て、多変量解析に進みます。多変量解析の結果が思わしくない場合、単変量解析に戻って、再度2変量解析、多変量解析に進むこともあります。

データの尺度

尺度とは物事を評価したり判断したりする時のものさし、基準のことです。例えば、好き嫌いも尺度の1つですし、100円、500円も尺度です。多変量解析を行なう上で、データがどんな尺度であるかを理解しておくことがとても重要です。なぜなら、様々な手法を選択するときに、この尺度のデータはこの手法では使えないという制限があるからです。

①名義尺度
男女、都道府県などの物事を識別するための尺度で、等しいものには同じ番号を与え、異なるものには異なる番号を与えるというルールが適用されています。1.男、2.女とした場合、1.女、2男としても全く問題がありません。クレジットカードの番号など数値データであっても、この数字の大小には意味がないので名義尺度となります。

クレジットカード
②順序尺度
兄弟、1位-2位-3位など、より上位のものには大きな数字(または小さな数字)を与えるというルールが適用されるので、順序を変えることはできず、かつ兄弟の年齢差や各順位間の間隔は議論しません。競馬では一馬身とか鼻の差などといいますが、順序尺度にはこの概念はありません。

競馬
③間隔尺度
順序だけではなく、その差も定量化したもので、代表的なものでは温度があります。間隔尺度は差に意味があるので、20℃は10℃の2倍暑いわけではなく、また0℃だからといって温度がないわけではありません。西暦や偏差値なども間隔尺度の1つです。

温度計
④比尺度
間隔尺度であって、かつゼロに意味があるものをいいます。お金や人数など多くの数値は比尺度です。比率にも意味があるので、20円は10円の2倍多く、0円はお金がないことを意味します。比尺度は間隔尺度でもあり順序尺度でもあるので、最もエライ尺度だともいわれることがあります。

お金

間隔尺度と比尺度をまとめて量的データということがあります。それに対し、名義尺度と順序尺度は質的データといわれます。量的データは距離が測れますが、質的データは測れません。アンケートで「よい」-「ややよい」-「どちらともいえない」-「やや悪い」-「悪い」などの評定尺度法と呼ばれる5段階評価でデータをよく取りますが、これは「よい」と「ややよい」の差と「ややよい」と「どちらろもいえない」の差が等しい保証は全くないので順序尺度です。ただ、実務的には5点から1点までの間隔尺度として分析をする場合が多いわけですが、正確にはその差に関しても検証をすべきでしょう。

量的データと質的データ
このページをシェアする

About

ALBERTについて