RESEARCH & DEVELOPMENT

動画像分析

物体追跡とシーン理解と表現学習

#物体追跡 #境界検出 #シーン理解 #表現学習 #複数カメラの複数物体追跡

動画投稿サイト・サブスクリプションサービスの隆盛によって動画コンテンツに触れる機会はますます増えています。また監視カメラ・車載カメラが普及したことにより日々大量の動画が記録されています。これら膨大な動画データを人間が処理することはもはや不可能であり、機械による高度かつ高速な動画像分析技術が待望されています。

しかしながら、動画像分析には未だ多くの課題が残されています。 特に困難なのはコンテクスト(文脈)を理解することで、例えば人物がどこから来てどこへ向かおうとしているのかを推定したり、人物の動作の始まりと終わりを認識したり、あるいは車の運転中に行うブレーキやハンドル操作の目的を特定したりなど様々なものが含まれます。 コンテクストには単純なものから複雑なものまでありますが、共通しているのは動画の1フレームを見るだけでは分からない、前後のフレームの情報や動画全体の情報をいかに活用するかということです。

先進技術部ではこれまでに培った画像認識技術を発展させ、次の3つの技術の開発に取り組んでいます。

物体追跡

物体追跡とは動画に映った人・車・荷物などの対象物体を自動で認識し、時間経過と共にその位置を特定し続けるタスクです。物体追跡、特に複数のカメラを用いた追跡の応用先は広く、商業施設への来店者の行動履歴を得たり、試合中のスポーツ選手のリアルタイムな3次元追跡を行ったり、あるいは複数の車載カメラによる死角のない状況把握に使われたりすることが期待されています。

対象物体がカメラに写り続けている場合は容易に追跡が可能ですが、物体が一時的に物陰に隠れた場合や複数のカメラをまたぐ移動を行った場合に追跡を継続することは簡単ではありません。また追跡を行う時間が長い場合や追跡対象が多い場合には、大量の候補の中から同一物体を高速に検索することが必要となります。

そこで先進技術部ではロバストかつ高速な追跡を実現するために、追跡対象へのコンテクストの付加、軽量なマッチング処理などの開発に取り組んでいます。

複数のカメラを用いた追跡(画像は論文[1]より抜粋)

動画のシーン理解

映像編集における編集箇所の提案、動画ハイライトシーンの自動提示、類似シーンの検索などは、動画コンテンツサービスにおける重要な技術です。 これらの技術を実現するのに必要な要素技術として、シーンの切り替わりを自動で検出することが挙げられ、動画におけるシーン理解は最も重要な技術の一つとなります。 しかしながら、動画はアクションや背景、人物や物体、またこれらのコンテクストなど様々な構成要素で成り立っており、シーンの理解は複雑なタスクです。 先進技術部では画像や音声に含まれる重要な要素やコンテクストを抽出することで、より精緻なシーンの理解を目指しています。

(画像は論文[2]より抜粋)

動画理解のための表現獲得

シーンの理解や追跡を行うためには、物体や人物が現在どのような状態にあるか、あるいはどのように移り変わってきたかという情報を、映像や音から適切に抽出することが重要です。この問題に対する取り組みとして、表現学習と呼ばれる研究分野が注目を集めており、多くの応用研究が発表されています。 表現学習とは画像や音声などの冗長な生データから、重要な情報のみを含むコンパクトなデータ(”表現”)を抽出するための学習方法を指します。得られた表現は単体で使われることはなく、他のデータの表現との比較に使用されたり、別の後段タスクの入力として使用されたりします。

しかしながら、後段のタスクに必要な情報を抽出した表現を獲得することは簡単ではありません。例えば物体追跡ではカメラの撮影環境の変化に左右されない汎用性の高い表現を得る必要があり、シーン境界検出では、背景・場所の特徴だけでなく物体や人物に関する特徴など多様な情報を含んでいる必要があります。後段のタスクに応じてその学習方法を適切に設計することが重要となります。

先進技術部では物体追跡や動画境界検出といったタスクに応じた適切な表現を獲得するための学習方法、そして得られた表現を活用する方法の研究開発に取り組んでいます。

[1] 田中駿祐, 松林達史, 「動的な Tree 形成によるオンライン複数カメラ物体追跡手法」, Symposium on sensing via image information, IS3-21/SO3-21(2021) [2] Mike Zheng Shou, et al. Generic event boundary detection: A benchmark for event segmentation. pp. 8075–8084, ICCV 2021.