CROSS TALK

実践的演習がカギ。東京海上が取り組む
日本最高レベルのデータサイエンティスト育成

「安心・安全」の領域において、お客様と社会のあらゆる「いざ」を支える存在であり続けるという強い目的意識をもって、最先端のデジタル技術の活用に取り組む東京海上ホールディングス株式会社。東京海上グループのデジタルトランスフォーメーションを担うデータサイエンティストの育成を目的として、グループ専用の育成プログラム「Data Science Hill Climb」の運用を開始しています。「Data Science Hill Climb」は、保険引受効率化や事故予防・軽減などを目的として、保険業務を理解した上で独自の最適なアルゴリズムを適用できるデータサイエンティストを社内で育成するプログラムです。
今回は、東京海上ホールディングス 事業戦略部 デジタル戦略室 データサイエンティストの佐藤様(左から2番目)と川村様(左)に、「Data Science Hill Climb」のデータサイエンス演習を担当したALBERTの巣山(右)と羽山(右から2番目)がお話を伺いました。

東京海上グループ創立140周年を記念して建てられた研修所「東京海上キャリアディベロップメントセンター」で撮影
東京海上グループ創立140周年を記念して建てられた研修所
「東京海上キャリアディベロップメントセンター」で撮影

250時間以上の充実した育成プログラム

東京海上ホールディングス株式会社 事業戦略部 デジタル戦略室 マネージャー(データサイエンティスト) 佐藤様
東京海上ホールディングス株式会社 事業戦略部 デジタル戦略室
マネージャー(データサイエンティスト) 佐藤様

佐藤私と川村は、東京海上グループのデジタルトランスフォーメーションを推進するデジタル戦略室に所属しています。データ分析やAI・機械学習を用いた保険業務の効率化を推進したり新しいサービスを生み出したりすることが主な業務で、現在は、データサイエンティストの育成も担当しています。
もともと保険業務は保険料率算出時など統計データを扱うことが多く、AIやデータサイエンスとの相性はよいので、様々な場面での活用が期待できます。ただ、それをうまく取り扱える人材やノウハウが不足していました。この不足を補うために、私や川村といった実務経験をもつ分析者が中途入社し、AIやデータサイエンス活用を推進しています。
一方で、社内にはすでに高い数理的素養がある優秀なアクチュアリー(保険数理業務の専門職)が多く在籍していました。彼らにAIの根幹技術である機械学習を習得してもらえば、データサイエンティストとして活躍してもらえるのではないかと考え、この育成プログラムを企画しました。

川村佐藤と私はどちらも約1年半前に入社しました。現在は増えましたが、当初はデータサイエンティストチームが2人だけだったため、コンビのような形で業務を推進してきました。

佐藤育成プログラムの内容については、せっかく作るのであれば日本最高レベルの充実したプログラムを作りたいと思い、企画を始めました。

川村社内でデータサイエンティストのみを育成しても、現場にデータリテラシーが根付いていないとビジネスの場では上手く機能しません。そこで、データサイエンティストだけではなく、3つのレベルから成る階層別育成プログラムを策定し、AIが使えるビジネスパーソンの育成も並行して推進しています。初級編はAIとは何か、どのように使うことができるのか、使うとき注意すべきことは何かなどを学ぶ研修、中級編は手を動かし、実際にデータ分析をしながらインサイトを得て意思決定に活かすための研修、そして上級編が、社内のアクチュアリーなどをAI・機械学習の活用に向けた専門人材に育成するプログラム「Data Science Hill Climb」です。

佐藤「Data Science Hill Climb」は、さまざまなパートナーに協力してもらいながら、2019年度より正式なプログラムとして運用を開始しています。延べ250時間以上のプログラムとなり、監修の東京大学大学院 松尾豊教授からは、企業の研修としてここまで充実した統合的プログラムは初めてだとのお言葉を頂いています。

ビジネスに即したデータ分析は実践的演習で身につく

巣山「Data Science Hill Climb」を企画する上でこだわったことはありますか。

川村eラーニング形式とせず、対面形式としたことはこだわった部分の一つです。受講生が自由に講師に質問したり、その場で他の受講生も巻き込んで議論したりできることで内容への理解がより深まったと感じています。座学形式だけでなく演習形式の講義を実施することにもこだわりました。極端に言えば基礎数学などの座学は独学でも習得可能ですが、ビジネスに即したデータ分析は実践的演習でのみ身につくと考えていたからです。

佐藤実際のビジネスでは、データを扱う際に例えば異常値除去などを行う必要がありますが、そうしたことは本当のビジネスに近い形で演習をしないと身につかないのではという思いがありました。

羽山私は演習講義の講師を担当しましたが、「Data Science Hill Climb」の受講生は皆さんとても積極性があることが印象的でした。2019年度の演習は、17日間で実ビジネスで想定されるようなデータを用いて顧客の離反予測モデルの構築を実施するという内容でした。受講生の皆さんにはデータと課題だけお伝えし、個々に一連の業務(データハンドリング・基礎集計・可視化・モデリング・報告書の作成・プレゼンテーション)を行っていただいたのですが、毎日9割近くの方が講師との個別面談を希望されて、受講生おひとりずつと対面する形で面談をしていました。具体的な質問をたくさん頂き、時には疑問について一緒に議論する非常に有意義な時間となりました。

東京海上ホールディングス株式会社 事業戦略部 デジタル戦略室 アシスタントマネージャー(データサイエンティスト) 川村様
東京海上ホールディングス株式会社 事業戦略部 デジタル戦略室
アシスタントマネージャー(データサイエンティスト) 川村様

川村同じ対面形式でも座学講義ではあまり質問が出なかったと聞いているので、演習講義ならではですね。

巣山存分に私たち講師を活用いただけてありがたかったです。

羽山はい。また、同じ内容の演習にも関わらず、考え方やアプローチに似通ったものがほぼなかったということも印象的でした。毎日のように個別面談を実施していたからこそかもしれません。

巣山課題に対するアプローチのアイデアがとても豊富でしたね。また、分類・整理・体系化の能力が高く、課題に対する情報整理が皆さんとても優れていると感じました。

川村今回は最後のプレゼンテーションを2会場にわけて開催しましたが、他の受講生の取り組み内容にも興味を持ち、他会場のプレゼンテーションも見たかったという声が受講生から多く寄せられました。演習開始前は内容が均一化してしまわないかという懸念があったのですが、多様性がある結果となり嬉しかったです。

データサイエンティスト育成の本質を理解した講義

川村演習は、座学で扱っていたデータに比べてデータの量が膨大だったので、そこに苦労したという声も多くありました。

巣山実際のデータ分析プロジェクトだと、最も苦労するのがデータハンドリングだということもあります。今回の講義は社内の新卒研修でも行っているものですが、当社のデータ分析プロジェクトの実績をもとに講義内容を作成しており、演習用のデータは実ビジネスに近いものを用意しているので、受講生からそのような反応をいただけて良かったです。

佐藤はい。本講義は外部向けに作られたのではなく実際に社内でも使われているとのことで、データサイエンティスト育成の本質を理解した講義であると感じました。これに取り組めば実力がつくだろうと考えて講師をお願いしたという経緯があります。

川村「Data Science Hill Climb」の設計段階ではさまざまなベンダーにお話を聞きましたが、座学のみやモデル構築までといった提案が多いなかで、唯一、実ビジネスに即した演習であるということに魅力を感じてお願いしました。

佐藤演習に関してはただ教えれば良いという訳ではないので、実務経験があるデータサイエンティストでないと講師が務まらないですよね。自由度が高い内容で対応ができるのは、実際にビジネスとして取り組まれているからこそと感じています。

巣山ありがとうございます。

コンペティションと実ビジネスの違いを感じることができた

羽山今回の講義では、17日間の演習のなかで、データを理解することの重要さに後半になってから気が付くという受講生もいました。特徴量を作る段階になってから最初の時点でもっとしっかり基礎集計をしておけば良かったと気づき、少し戻ってやり直したり追加で対応したりしていましたね。演習でなくてもコンペティションなどに参加することでデータを扱うことはできますが、多くのコンペティションは初めから評価データ(モデルの評価を行うためのデータ)が定められており、その評価データに対する精度の高さが良いモデルの基準であるという前提があります。一方で、「Data Science Hill Climb」の演習講義は、評価データも評価基準も決められていません。それにより試行錯誤が必要となり、実ビジネスに近い状態をじっくり体感いただけたと思っています。

川村受講生からも、コンペティションとは異なり目的変数(予測したい変数)が決められていないので、この演習を通じて初めて、単なるコンペティションと実ビジネスにおけるデータ分析の違いを感じることができたという声がありました。実際に、受講生によって目的変数の定義が異なっていたことも印象的でした。

巣山実ビジネスは試行錯誤の繰り返しですが、こうしたことに気が付くことができるのは演習ならではだと思います。大変ではありますが、ポジティブに楽しんで下さる受講生が多く、終了後のアンケートでも特に演習の満足度が高かったと聞き、嬉しかったです。

羽山ご自身の業務で培ってきた強みに今回学んだことを掛け合わせながら、最後まで主体的に取り組んでいただけたと感じています。

2020年、さらに進化したプログラムへ

巣山「Data Science Hill Climb」は、確率統計や線形代数といった基礎数学から、AI・機械学習モデルの理論的背景の理解、それらのプログラミングによる実装、実践的演習までを一貫して習得するプログラムとなっていますよね。このプログラムはどのように設計されたのですか。各講義の順番や繋がりなどは意識されましたか。

佐藤過去に独学でデータサイエンススキルを身につけてきた立場として、自身が受講したかったと思えるプログラムになるように設計しました。データサイエンスは数学、プログラミング、機械学習と複数の分野の知識が必要ですが、当然ながら各分野の中でデータサイエンスに必要な領域は限定的です。この重点領域を特定し、分野をまたいで理解がつながるように効率的に設計したのが「Data Science Hill Climb」です。独学の時は、この体系的な理解と、実践的な分析の勘所を知るのにとても苦労しました。この部分を克服できるように設計したつもりです。

川村各講義の順番については、繋がりを意識し、2019年度は土台である数学を先に学び、その後機械学習やプログラミング実装を学ぶ流れとしました。そして、各講義では講師からその後のことを意識した説明をしていただくことを心がけました。例えば数学を学ぶ際は、これはその後の機械学習でこのように役に立ちます、と説明することで、それぞれが細切れでなく繋がりを意識した学習がしやすくなったのではと思っています。

羽山特に線形代数などは学ぶ目的がわかっていないと何のためにこれを学んでいるのだろうと思ってしまいがちだと思うので、ただひとつひとつを教えるのではなく、全体として繋がりがある学びとなるよう、こうした心がけは非常に重要ですね。

川村受講生からのフィードバックにより改善すべき点も見つかったので、そうした声をもとに、2020年度以降はより充実したプログラムとなるよう見直しを行う予定です。

佐藤2020年度は、最初に少しだけ機械学習に触れてから数学を学び、その後きちんと機械学習やプログラミング実装を学ぶという流れを予定しています。また今後は、プログラム終了後の受講生のレベルを定期的に評価し管理していきたいという構想があるので、その部分についてもぜひ知見をお借りしながら評価設計を進めていきたいです。
現在、アクチュアリーは日本アクチュアリー会が定める試験を受け、1次試験5科目、2次試験2科目をクリアしないと正会員になれないのですが、データサイエンティストについても同じように試験での評価にするのか、それとも実績での評価にするのか、何かしら良い方法を考えていきたいです。

巣山例えば定期的に新しい課題を用意してそれにチャレンジしてもらうという方法だと、連続的な成長を見込むことができそうですね。2020年度は受講生の人数が増えるとも聞いておりますので、たくさんの受講生にお会いできることがいまから楽しみです。引き続き、講義はもちろん、評価設計などさまざまな取り組みをこれからもご一緒できれば嬉しいです。