データ分析基礎知識

“分析力をコアとするデータソリューションカンパニー”
株式会社ALBERTが、データ分析にまつわる基礎知識をわかりやすく解説します。

トピックモデルとは

ECサイトで、あるユーザーに商品をレコメンドする際に、「同じような商品を同じような頻度で買っている他のユーザーのデータをもとにレコメンドする」というようなアルゴリズムがよく用いられます。では、多くのレポートや記事などを集めたサイトで、ある記事を見た人に他の記事のレコメンドを行なう場合は、どのようなアルゴリズムが用いられるでしょうか?文章内の単語の出現頻度が同じような文章をすすめる、というアルゴリズムはすぐに思い浮かびます。このようなアルゴリズムの代表格として潜在意味解析がありますが、これにはいくつか問題も見受けられます。

潜在意味解析

たくさんの文書が与えられたとき、それらをいくつかのカテゴリに分類したいとします。単語の並び方は無視して、単語の出現数にのみに注目し、文書に出てくる単語の集合(bag-of-words)を解析し、文書を統計的にいくつかのカテゴリに分類することを潜在意味解析(LSA)といいます。

表1.文書における単語の出現頻度
文書における単語の出現頻度

LSAでは、表1のように文書における単語の出現頻度を文書-単語行列にまとめたものを分析します。表1の例では文書1,2はITのカテゴリ、文書3は科学のカテゴリの記事であることがわかります。ALBERTという単語に注目すると、文書2では『分析力をコアとするデータソリューションカンパニー』である企業としてのALBERT、文書3では相対性理論を作り上げた物理学者ALBERT EinsteinのALBERTといったように、文書のカテゴリによって単語の持つ意味も変わってきます。これまでは、この行列を特異値分解(※)することで文書をクラスタリングする方法が知られていました。しかし、特異値分解を利用した方法ではトピックの意味が人間にはわかりにくいことや、似たようなトピックを扱うことができないという問題点がありました。

(※)特異値分解とは、どのようなデータ行列でも3つの行列の組み合わせから成り立っていることを利用して、次数を下げた行列で元の行列の近似を得ようとする方法です。良く知られた特異値分解のひとつに主成分分析があります。これは分散が最大となる2つの直交行列と特異値(固有値)にデータを分解する方法で、2つの直交行列で元のデータの情報量をある程度近似できることから、元データの特徴抽出や次元圧縮によく用いられます。この2つの直交行列の値をそれぞれ主成分得点、主成分負荷量と呼び、それらの値によってデータを分類(クラスタリング)することが一般的に行なわれます。

トピックモデルとは

トピックモデルイメージ図
図1.トピックモデルイメージ図

上記の潜在意味解析の問題点を解決する方法の代表格として、近年トピックモデルが注目を集めています。
トピックモデルとは、文書が複数の潜在的なトピックから確率的に生成されると仮定したモデルです。また、文書内の各単語はあるトピックが持つ確率分布に従って出現すると仮定します。
トピックモデルでは、トピックごとに単語の出現頻度分布を想定することで、トピック間の類似性やその意味を解析できます。“サッカー男子のリオデジャネイロ五輪最終予選が行なわれ、日本はサウジアラビアを2-1で下した。”という文書があったときに、LSAでは1つの文章が複数の似たトピックを持つことはできないので、この文書を「オリンピック」と「スポーツ」両方のトピックに関連付けることは難しいですが、トピックモデルではこれを可能とします。
例えば、大量のニュース記事をもとに記事のタグ付けを自動化させるケースを想定した場合、一つの記事に複数のタグを付与できるトピックモデルの方が、より多くのユーザーに興味ある記事を届けることができるでしょう。

トピックモデルの応用

次のようなケースでトピックモデルは有効です。

1.スポーツトピックに出てくる“play”(スポーツをプレイする)と音楽トピックに出てくる“play”(楽器を弾く)等、文脈で意味の異なる言葉にトピックの情報を加えることで翻訳の精度を向上させたい場合

2.トピックモデルにおける文書を顧客、単語を購入した商品と置き換えれば、顧客のトピックは潜在的な嗜好と捉えることができるため、潜在嗜好にもとづくレコメンドシステムを導入したい場合

3.トピックの分布が時間変化するようなモデルを考え、そのトピックの中での単語の出現率の時間変化を追跡することで、トピックの中での話題の流行を捉えたい場合

テキストマイニングは画像認識と並んで、現在最も注目を集めているデータ分析のテーマです。トピックモデルはテキストマイニングにおいて主流になる手法の候補と言われており、今後ますます研究が進んでいくと考えられます。

このページをシェアする

About

ALBERTについて