コンピュータ・ビジョン分野の著名な学会CVPRの中で開催される”Multi-Camera People Tracking(MCPT)”(和訳:「複数カメラ間人物追跡」)のコンペについて執筆者が興味を持ったので、この記事ではそこで成果をあげた研究の特徴をまとめています。
CVPRについて
CVPR(IEEE Conference on Computer Vision and Pattern Recognition)とは、IEEE(Institute of Electrical and Electronics Engineers:米国電気電子学会)が主催するコンピュータビジョン分野の著名な学会です。2024年に関して6月17日~6月21日の期間中にアメリカ合衆国ワシントン州シアトルのシアトルコンベンションセンターで開催されました。
CVPRは、メインカンファレンスといくつかのワークショップ(コンペティション)で構成されています。本記事で着目するのはその1つである「AI City Challenge」であり、コンピュータービジョン、自然言語処理、ディープラーニングなどを用いた、多様な環境内での安全性とインテリジェンスを強化する最先端の技術に関係しています。今年で8回目の開催となり、47の国と地域から726チームが参加しています。
AI City Challengeの主要な目的として、カメラ画像などセンサーデータから情報を導き出し、それを交通安全の強化や輸送効率の最適化に利用することが挙げられます。2024年は特に、小売環境や倉庫環境、インテリジェント交通システム (ITS) などにおいて、業務効率を向上させる人工知能の技術にフォーカスを当てています。
そして、AI City Challengeは、コンピュータービジョンを小売・物流・交通など、都市の課題解決に適用する5つのテーマ(Track)が設定されています。Trackごとにデータと評価指標が定められています。
5つのTrackとは、複数カメラ間人物追跡(multi-camera people tracking)、交通安全分析(traffic safety analysis)、自然主義的運転行動の認識(naturalistic driving action recognition)、魚眼カメラ分析を用いた道路物体検出(fish-eye camera road object detection)、オートバイヘルメットの規則強化 (motorcycle helmet rule compliance)です。
このように、交通安全を目指した技術が多く着目されていることがわかります。
そのうち、Track1のテーマである「Multi-camera people tracking」 (複数カメラ間人物追跡))は一番規模が大きく、全726チームのうち421チームを占めました。複数台のカメラに映った同一人物を追跡する精度を競うコンペです。
Multi-Camera People Tracking(MCPT)について
Multi-Camera People Tracking(MCPT)は、人間の動く軌跡をトラッキングし、複数のカメラに現れる同一人物を認識することを目指します。複合的な物体認識タスクであり、Object Detection(物体検出)、Multiple Object Tracking(複数物体の追跡)やPerson Re-identification(同一人物の再識別)など、同時にいくつものコンピュタービジョン・タスクを実行することが求められています。
MCPTを通じて人物の動く軌跡を定量化することによって、デジタルツイン、スマートシティなどの応用を実現してくれることが期待されています。
コンペの参加者には多様な屋内環境の合成動画データが提供されており、複数台のカメラのビューに渡って個人を追跡することを狙いとします。一からアルゴリズムを開発することなく、オンライン上で公開された追跡アルゴリズムの使用が推奨され、これらを利用しているチームにはボーナス点数が与えられました。
(用語定義)
●デジタルツインとは、IoT技術などを用いてリアル空間(物理空間)の情報を収集・送信し、そのデータに基づいてサイバー空間(仮想空間)の中でリアル空間の環境をコピーし再現する技術です。
●スマートシティとは、ICT(情報通信技術)やIoT技術(センサー、カメラなど)などを用いて収集したデータをAIで分析し、都市インフラや様々な施設の機能を最適化し、持続可能な都市を構築する取り組みです。
代表的な研究
このコンペでは日本国内からも複数の顕著な研究結果が発表されました。
コンペで高いランクを達成した研究のうち、以下の2つの論文が例として挙げられます。
論文1:”Overlap Suppression Clustering for Offline Multi-Camera People Tracking”
オフライン環境で複数のカメラからのデータを用いた人の追跡を行う際、認識力を高めるために明瞭な画像を選び、類似した軌跡のクラスタリング、困難な状況下での個体認識などから構成された手法でう。特に、単一カメラによる人物追跡に基づく重なりを抑制するクラスタリング手法「Overlap Suppression Clustering」という技術が独特です。
2024年の AI City ChallengeのTrack 1(Multi-Camera People Tracking; 複数カメラ間人物追跡)で2位を受賞し、Higher Order Tracking Accuracy (HOTA) という評価指標において最高位の 71.9446 を達成しました。
論文2:”A Robust Online Multi-Camera People Tracking System With Geometric Consistency and State-aware Re-ID Correction”
人物の見た目の特徴と幾何学的な特徴に基づいて、追跡の誤差に合わせて認識用の特徴量を調整するというRe-ID(人物再識別)機能を利用して異なるカメラ間で同じ人物を追跡します。コンペのオンライン手法での精度は1位で、コンペ全体では2位の精度を達しています。
■論文:https://openaccess.thecvf.com/content/CVPR2024W/AICity/papers/Xie_A_Robust_Online_Multi-Camera_People_Tracking_System_With_Geometric_Consistency_CVPRW_2024_paper.pdf
以下では、論文1についてもう少し詳しく解説します。
論文1の研究の概要
本研究はコンペにおいて、画像特徴量をクラスタリングすることで、高精度に同一人物の追跡を行う当社独自のMulti-Camera People Tracking(マルチカメラによる人物追跡)の手法を提案しました。
大きく分けてMCPT は「Single Camera People Tracking (SCPT)」 と「Re-ID」の2つのタスクから構成されると考えることができます。より具体的には以下の4つの過程を特徴とします。
1)単一カメラ内における、同一人物が同じフレームに重複登場しないように制約を加えたクラスタリング(Overlap Suppression Clustering)
2)代表画像再識別のための姿勢推定を使用した抽出
representative image extraction using pose estimation for re-identification
3)階層的クラスタリングを使用した再識別平均的なリンケージ
re-identification using hierarchical clustering with average linkage
4)識別可能性の低いトラックレット割り当て
low-identifiability tracklets assignment.
3)と4)に関していうと、複数カメラ間における、カメラ毎の人物識別性評価に基づく、Re-IDの2段階処理(高識別性画像:Hierarchical Clustering with Average Linkage+低識別性画像:Tracklet Assignment)を行なっています。
Re-IDは一般的に困難な課題です。識別性の高い特徴を持つ画像が提供された場合、個人を正確に特定できます。MCPT の精度に低下が見られる場合は、Re-IDモデルへの入力データの特徴量のばらつきが大きい、あるいは、SCPTの性能不足が要因として考えられる。逆にいうと、MCPTの性能を改善するためには、SCPTの精度を改善し、そして識別性の高い画像をRe-IDモデルに入力することが推奨されています。本研究では高識別性画像の抽出、平均連鎖(average linkage)を伴う階層型クラスタリングによるRe-ID、低識別性画像の割り当てといった工夫が行われています。
従来使われていたオンライン SCPT は、動きまたは外観の特徴量に基づいて、現在のフレームのデータを前のフレームで測定されたトラックレットと関連付けています。このように過去の情報にのみ依存するため、オンライン追跡では経路が交差するといった複雑な状態においてに追跡をよく間違います。一方で、複雑な状態の前後のシンプルな状態の情報を追跡に利用できれば、精度の向上が期待できることがわかっています。本研究では、単一カメラ内における、同一人物が同じフレームに重複登場しない制約を加えたクラスタリング(Overlap Suppression Clustering)はSCPTの性能を大きく向上させています。
執筆担当:ヤン ジャクリン(GRI分析官・講師)