« 役員合宿@箱根(山川義介) | メイン | 「法令遵守」が日本を滅ぼす(山川義介) »
2007年11月12日
テキストマイニングと検索エンジン(上村崇)
posted by Takashi Uemura
プロフィールにもあるように、2001年に学生としてインタースコープ(現ヤフーバリューインサイト)で働いていたころは、テキストマイニングの研究とソフト開発をかじっていた。
とはいってもプログラムができたわけではないので、はじめは中学校の現代文の教科書から勉強し始め、文型的視点から、自然言語をいかに機械に処理させるかということをひたすら考える毎日を送っていた。
日本語のような膠着言語の場合、英語のように単語と単語の区切れが明確でないため、「どこで区切るか」がまず問題になる。
この悩ましい言語の「適切な区切り方」として当時は、形態素解析というアプローチと、いわゆる全文検索、最長一致法的なアプローチの二つが主流であったと思う。
また、テキストマイニングの主なゴールは、文章を意味レベルで分類することを目指すものか、大量の文章の中からマーケティング的に有用なものを効率的にピックアップしようとするもののいずれかであった。
当時我々(といっても私と山川・・)は、形態素解析とかかり受けを使ったアプローチで、アンケートの自由記述回答やコールセンターに溜まっている顧客の声を、意味レベルに分類することを試みていた。
このアプローチで最終的に課題となったのは「形態素解析の精度」であった。
自然言語を自動解析しようとする場合、各界の専門用語や、次から次に出てくる新語への対応が必要になり、この辞書登録の量が、最大の資産となり、差別性となると考えていた。
「誰にも作れない量と精度の辞書を誰よりも早く作った者が、テキストマイニングを制す」と。
この考え方は間違ってはいないと今でも思う。
もしそのような辞書が本当に作れれば。
と思い出話は適当にして、当時このテキスト解析の技術が、今をときめく【検索】の分野で大活躍するとは夢にも思わなかった。
当時調査という池の中ではなく、ウェブのコア技術としてテキストマイニング技術を捕らえ、検索エンジンの開発に挑戦していたら、今頃googleやyahooも羨むほどのムフフフフ・・・(と考えるのは、完全なタラレバだ。笑)
こんな昔話を書いているのは、最近このテキスト解析技術で素晴らしい検索エンジンを作っているイケテル会社にであったからだ。
弊社の持っているレコメンド技術と、彼らのもつテキスト解析&検索の技術を組み合わせれば、素晴らしいサービスができると考えている。
今から楽しみである。
2007年11月12日 18:34
