データマイニングの大きな目的は、購買予測です。どの顧客が買ってくれそうかを予測し、効率的にその顧客にアプローチすることが求められます。そのためには、顧客を何らかの基準で絞り込んで抽出する必要があります。ここでご紹介する手法は、顧客が何を買ったかという情報がなくても機能するものです。
個人を特定することができるデータとして、あらかじめ登録してもらった会員データがあります。最も単純で簡単な絞り込みは属性を手がかりにした顧客の抽出です。カタログをメンズカタログとレディースカタログに分けて、男性にはメンズカタログ、女性にはレディースカタログを送るなどがこれに該当します。男性は男性が好む商品を、女性は女性が好む商品を購入するであろうという仮説のもとに、購買予測をしているわけです。年齢が分かっていれば、ヤングカタログ、ミドルカタログ、シニアカタログなどを送り分けることもできます。この手法は、購買履歴がなくて登録データだけあれば用いることができます。
購買履歴がないと、その顧客がどれくらい買ってくれそうなのかはわかりません。購買金額がわかれば、いくら以上購入した人には、 立派なカタログを送るというような、顧客を区別して施策を打つことができます。 過去にたくさん買ってくれた人は、今後も買ってくれるだろうという仮説のもとに、特定の顧客を抽出してアプローチをする非常に簡単な手法です。
購買金額でもう少しだけ高度に分析する手法に、「デシル分析」があります。「デシル」とは語源はラテン語で、「10等分」という意味です。 Deciliter(デシリットル)は、10分の1リットルですし、Decibel(デシベル)は、10分の1のレベルという意味で、デシ(Deci)で始まる単語は、 10等分に関係があります。デシル分析とは、全顧客を10等分してそこから有益な情報を得ようとする分析法と理解しておけばよいでしょう。
方法は非常に簡単です。以下の手順で行なえばエクセルでも簡単にできます。1,000人の顧客がいたとすれば、ある一定期間の顧客別購入金額の表を作成し、 以下の手順で100人ずつに等分します。(10で割り切れない場合があると思いますが、そこはあまり厳密ではないので、購入金額が少ないグループで調整すればよいでしょう。)
この事例では、上位200人(20%)で、過半数の売上を上げており、80%の売上を上位400人(40%)で上げていることになります。 どのグループにどのような施策を打つかは、マーケティング的な課題となりますが、このような簡単なデシル分析でも、それなりに有用な情報を得ることができます。
ただし、あまり長い期間の売上データを用いると、過去に高額商品を一度だけ購入し、その後一度も購入していない顧客も上位グループに入る可能性があり、分析対象とする売上データの期間を考える必要があります。 この問題を解消する顧客分析手法として、次にもう少し高度な「RFM分析」をご紹介します。
RFM分析とは、Recency (直近いつ)、Frequency (頻度)、Monetary (購入金額)の3つの指標で顧客を並べ替え段階的に分け、顧客をグループ化した上で、それぞれのグループの性質を知り、マーケティング施策を講じる手法です。「直近いつ」という概念が入っているので、デシル分析のように過去に一度だけ高額商品を購入した顧客と、最近少額だがたくさん購入してくれている顧客が同一グループに入るようなことはなく、明確に分けて分析することができます。
RFM分析については、以下のような一般的解釈がされます。
参考:奥瀬喜之 久保山哲二(2012)『経済・経営・商学のための「実践データ分析」』講談社
RFM分析は有用な分析方法ですが、欠点もあります。RFM分析の限界に関しては、こちらをご覧ください。
RFM分析は3次元であるためイメージしにくいところがありますが、以下のようなイメージでとらえていただければよいと思います。
ただ、このままでは用いることができないので、通常はRFMをそれぞれ3〜5つくらいのグループに分けます。5つに分けた場合、全体では5×5×5=125のグループに分かれるわけですが、実際の運用では125のグループに別々の施策を打つことは現実的ではないので、さらにこれらのグループをRFMスコアを用いていくつかに集約したり、RFだけ、FMだけというように2つの要素だけを用い、2次元で分析することもあります。RFMを5つのランクに分ける例を以下に示します。
ランクをどこで区切るかは重要な問題で、業種、業界、商品や分析を行なう時期や、用いるデータの期間などによって、分けかたを慎重に検討する必要があります。またデータの分布は一様であるほうがまれであり、かなり偏った分布になっている場合が多いと思われます。次にランク分けの方法について詳しく説明します。
まず、RFMそれぞれのヒストグラムを作成します。
以下は各要素の分布イメージを表したものです。 Recencyは一般に「最近」ほど頻度が高くなる傾向にあります。
ヒストグラムを見ると、オレンジの部分のように落ち込んでいる時期がある場合があります。これが年末年始であったとすると、正月にはあまり購入する人がいない、またその直前はクリスマス商戦で購入者が多かった等の個別の要因が考えられます。また震災後に落ち込むような現象があったとすれば、その前後では消費者の購買行動に変化があるかもしれないので、その時期を区切りにしたほうがよいでしょう。データをどこで区切るかについては、各クラスの人数を均等にするという考え方もありますが、定性的要因を加味したほうがより意味のある分析になります。
業種や商材にもよりますが、Frequencyは「ほとんどが1〜2回しか買っていない顧客だが、頻度の多い人は極めて多い」という指数関数的な分布を示すことがあります。このようなデータを取り扱う場合は、x軸の区間を等間隔で取るのではなく、指数的に取ったほうが視覚的にもわかりやすくなります。
次のグラフは実際に5万人の購買データのFrequencyのヒストグラムです。「最大で150回程度購入している顧客もいるがほとんどが1〜3回しか購入していない」というような場合、区間を1にしてしまうと横長になりすぎて見づらいし、区間を10にしてしまうと図5のようにほとんどが10回以下になってしまい、ヒストグラムの意味がありません。図6のように、区間を指数的に設定することで、どこで区切るのがよいかが検討しやすくなります。
次の表は指数的な区間の取り方の目安です。まずは最大値を確認しいくつくらいの区間にしたいかを決めれば、切り方がわかります。たとえば、最大値が800の分布の場合、Aを用いれば18分割のヒストグラムができますし、Bを用いれば16分割、Cを用いれば13分割となります。図7では最大値が145程度だったので、Aを用い13分割のヒストグラムにしてあります。
Monetaryも比較的指数関数的な分布になります。
ただし、上記のように途中にピークができることがあります。これは通販会社なので送料が無料になるポイントがあるような場合で、送料が無料になる金額まで商品を買うので、上記のようなヒストグラムになります。これも1つの購買行動なので、送料無料になる金額を境に、顧客を分けるというのも1つの考え方です。
以上のようなことに注意し、R、F、Mをそれぞれ5つのランクに分けると、顧客にはそれぞれ1〜5までの3つの値が割り振られることになり、顧客が125に分類されます。 今回の区切り方の場合、R、F、Mのそれぞれのランクには、以下のように顧客が割り振られました。
この時に、極端に少ないセルができてしまった時などは、区切りの位置を見直すことも必要でしょう。
次にRFMの指標から総合指標を算出することで、1次元での分析をすることを考えてみましょう。RFMを組み合わせたグループに何人くらいの顧客がいるのかを集計します。125グループに分けたとしても、実際にはほとんど顧客のいないグループは意味を持ちません。以下のような表を作るとわかりやすくなるでしょう。 RFが高くMが低いことはあまりないので、実際にそのグループの顧客数は非常に少なくなっています。またこの表では、各RFMのランクの合計値をもとに、総合ランクを出すことも可能です。総合ランクを出すことで、3次元のRFM分析を1次元で分析することも可能です。
ランク1を5点、ランク2を4点・・・というように点数化をすると、合計15点の超優良顧客は右上に配置され、最も重要度の低い顧客は左下に配置されます。また、例えば13点以上を優良顧客に位置づけることができ、全ての顧客をより少ないグループに集約することも可能となります。
次に、2次元のRF分析事例をご紹介します。この事例は、比較的単価の低い実用品の事例です。どのランクの顧客をどう優良顧客に育てるかを検討し、それぞれのグループに最適な施策を講じることで、売上を向上させることができます。2次元で分析する場合の注意点としては、例えばカーディーラが車と部品を販売したとすると、1年以上前に車を購入した顧客が、完全離反かといえば、そうではないことは明白であり、商材の性質や商品単価の分布などを考慮し、RFMのどの要素を使うのがよいかを検討しなくてはなりません。
125のグループをいくつかに集約する場合、表5のように3次元のRFMのランク合計の総合ランクから1次元で顧客を分類したり、図9のように2次元のRF分析やFM分析をする方法もありますが、表6のように、すべての顧客は、R、F、Mのランクを持っていることから、顧客間の距離を測り、クラスター分析を行なうことで、任意のクラスター数に分けることができます。クラスター毎の特性を知ることで、効率的に施策を打つことが可能です。
今回は非階層クラスター分析(k-means法)を用い、顧客を3つと5つに分けた事例をご紹介します。
今回は非階層クラスター分析(k-means法)を用い、顧客を3つと5つに分けた事例をご紹介します。 3つに分けた場合のクラスタープロファイルを見ると、優良顧客と新規顧客と非優良顧客に分かれていることがわかります。もし顧客を3つに分けて、3種類の施策を打つとすれば、この3つに分けるのが最適だということになります。もう少し、細かく顧客を分けて緻密な施策を打ちたい場合は、クラスター数を増やします。図11はクラスターを5つにした場合ですが、図10と比較すると、安定顧客、離反顧客が出現していることが分かり、より有効な施策を打つことが可能になります。 このように具体的施策に合ったクラスター数を選択することで、より効率的なマーケティングアクションを打つことが可能となります。