ALBERTRECRUITING
SITE

ENTRY
  1. TOP
  2. MEMBER ALBERTの人々
  3. 座談会
  4. データサイエンティスト座談会02

CROSS TALK
データサイエンティスト座談会02

CROSS TALK

「専門分野は異なっても、優秀なら能力を発揮できる環境があります。」

ALBERTの分析力を支えるデータサイエンティスト。その役割は、理数系の理論体系について専門知識を活かし、新しい分析手法の開発や高度な分析を行なったり、数理的な知識に加えてマーケティングの知識を活かし、お客様のマーケティング寄りの課題を解決したりなど様々です。異なる経歴を持つたくさんのデータサイエンティストがそれぞれ経歴を活かしてどのように活躍しているのか、ALBERTのビジネスの実際を語ります。

座談会メンバープロフィール

  • 行方

    不動産価格の推定、センサーデータを用いた異常検知などを担当。深層学習を用いた画像分類、音声認識等の研究も行なう。

  • 中村

    機械学習の導入支援などを担当。メーカーのインフラ故障検知、ディープラーニングを用いた画像解析などにも従事。

  • 安達

    1995年にデータマイニング専門企業を設立、以来ALBERTも含め約20年に渡り企業のデータ分析による意思決定の効率化に寄与。

01.専門分野はさまざま、共通するのは理論と実装の両方に長けていること

安達
ALBERTのデータサイエンティストは数理統計やコンピューターサイエンスに限らず、物理、数学、天文学など、さまざまな専門分野から集まっています。ユニークな経歴の持ち主も多いですよ。
中村
脳科学や宇宙物理の研究を長くやって、ALBERTでディープラーニングを研究している人とか、イギリスやアメリカの大学で修士や博士号をとった人もいますね。
行方
アラスカ大学を卒業して、アラスカの天文学研究所でオーロラの発生時間を予測するモデルを研究していた人が、ALBERTでは自作のモデルを基にしたサービスを開発しているケースもあります。
安達
中村は化学出身で化学反応の数理モデルのシミュレーションを研究していたし、行方はALBERTのデータサイエンティストの中では珍しい経済学部の出身で、金融の与信モデルを研究していました。専門はさまざまですが、共通しているのは理論と実装の両方に長けていることです。最先端の研究をするにはツールもすべて自分でプログラムする必要があるので。
行方
私は他社の経験もありますが、ALBERTのデータサイエンティストは原理を追究することにこだわる傾向がありますね。パッケージ製品を使う時も、内部の動作や結果を導出するための理論を理解してから応用する生真面目さがあります。
中村
大学院、ポスドクの経験を経て、自分で1から考え突き詰める経験を積んでいる人が多いのだと思います。真面目で、勤勉で、向上心があるというのがALBERTのデータサイエンティストの特徴ですね。

02.技術の限界を見極めるのも分析の役割

安達
分析プロジェクトは、3ヶ月から半年のタームで進めます。テーマはほぼ9割がAIで、最近はマーケティングに加えてハードウェアやセンサーのデータを分析したいという依頼が増えました。クライアントの業種は、自動車や電機などの製造業、通信キャリア、情報産業の基礎研究部門など様々です。いわゆるPoC(概念実証)のフェーズで「実際にできるかどうかをALBERTさんなら判断できるでしょう」というご依頼もいただきます。
行方
私は現在、“UNIXのコマンドログ履歴からの不正アクセスやなりすましによる情報流出を防ぐために、コマンドの羅列から異常を検知する“というプロジェクトに取り組んでいます。お客様はサーバーを製造しているメーカーで、これもPoCですね。
中村
私はテキストの解析に取り組んでいます。テキストに出現する固有の単語を抽出するロジックは既に存在しますが、そのロジックが通用しない特殊なケースで、大量の単語の中から1%ぐらいの低い出現率の単語をうまく抽出してレコメンドに使うためのアルゴリズムを開発するというものです。また、画像解析の分野では、建物の外壁の写真から劣化状況を判定するというアルゴリズムの開発を担当しました。

03.「ディープラーニングの次」の方法を開発する

行方
画像の分類についてはディープラーニングが全盛ですよね。その中でも多いのは、CNN(畳みこみニューラルネットワーク)です。先ほど紹介した外壁診断も、CNNを使って画像の分類を行ないました。
中村
テキスト系はトピックモデルをベースに、word2vecとかdoc2vecといわれる、単語や文章をベクトル化する手法を用います。
安達
ディープラーニングにせよ他の手法にせよ、高い頻度で出現するものの特徴を捉えることには長けているのですが、推論エンジンとしては100回出てくる単語より1回だけ出てくる重要な単語を1000倍のウェイトにして学習したいというニーズがあります。言葉の裏にある真意を読み解こうとすると、ディープラーニングだけでは解決できない部分がある。
行方
加えて、ディープラーニングは大量のデータと正解のセット、いわゆるラベル付きデータが必要で、チューニングにも時間がかかることがあるし、モデリングが不安定なこともあります。もう少し手堅く、安定的にかつ収束させられるような方法を選択するほうが実用的な場合もあります。
中村
ディープラーニングや先端技術も使いますが、現実的な時間内で実装も学習もできる範囲で、ビジネス的にこれまでなかった観点を持ち込み、サービス化するということにも興味があります。
安達
既にさまざまなライブラリが出て、誰でも使えるようになってきたのだから、そこには優位性はありません。具体的に何とは言えませんが、いくつか領域はあるのでそこで勝負していきたいですね。ベンチャーはベンチャーらしく、大企業が目をつけないところで大企業以上のものを作るのが重要だと思っています。

04.未知の情報に触れることが脳の刺激になり、機動力を上げる

安達
案件とR&Dのバランスは、7:3ぐらいですね。R&Dといっても、基礎研究よりも製品開発やサービス開発に直結したものです。
中村
入社時に上司から「稼働の2割はR&Dに割くように」と言われて驚きました。短期的に数字を作るために仕事を詰め込むのではなく、最先端情報を取り入れるためにも時間を割くようにという方針です。未知の情報に常に触れているということは脳への刺激となります。データサイエンティストにとってはとても良い環境です。
行方
目の前の案件に必要なことだけを勉強していると、他の案件で必要な知識を蓄えられません。最先端を追求するだけではなく、新しいツールやパッケージを使いこなし、機動力を高めるためにも、この時間は重要ですね。

05.良い人材が集まる循環ができている

行方
周囲の環境は、英語の論文を読むのが普通なので、自分もキャッチアップしなくてはというプレッシャーが刺激になりますね。「趣味は研究、休日にアーカイブをチェックするのが楽しい」という人は本当にいますから。
安達
ブログや学会、講演会などで技術発表をする人も多いです。外部の勉強会に参加して発表する人もいます。そこで知り合った優秀な方を採用したこともあります。
中村
ALBERTの強みは、人材不足といわれるデータサイエンティスト業界において、ベンチャーであるにもかかわらずこれだけの優れた人材が揃っていることだと思います。各々が得意分野を持ち、補完し合える環境があります。
安達
良い環境が作れているのは、採用意欲があるのと、お客様がきちんと我々の付加価値を認めてくださるからだと思います。チャレンジングなプロジェクトが常にありますからね。
待遇も良いと思います。それは、人が一番の資本だと思っているからです。だから良い人材が集まり、さらに働きやすくなるという良い循環が生まれています。データサイエンティストにとっては、成長できて働きやすい、良い会社だと思います。
MEMBER