ニュース

富士通とカーネギーメロン大学、単眼カメラの2次元画像から人や物体を3次元化する技術を開発

 富士通株式会社と米Carnegie Mellon University(以下、カーネギーメロン大学)は7日、2022年2月に開始したソーシャルデジタルツインの共同研究の一環で、固定設置の1台の単眼カメラから得られる画像に映る物体を、AIによって3次元に変換しデジタル化することで、人や物体の3次元形状や位置を高精度かつ動的に再構築する技術を2024年2月に開発したと発表した。

 富士通とカーネギーメロン大学は2022年2月から、人、モノ、経済、社会の間の複雑な相互作用を3次元上に動的に再現する、ソーシャルデジタルツインの共同研究を開始しており、複数角度から撮影された動画を高速高精細に画像生成する高速3次元シーン復元技術の開発などの取り組みを進めてきた。

 しかし、共同研究を進める中で、撮影画像を3次元に動的に復元するためには、映像の解析精度が技術的に不十分な部分や、3次元上で正確に物体の位置や形状を再現するために複数のカメラが必要となり、作業負荷、コストなどに課題があり社会実装の障壁となっていたという。

 両者は、こうした課題を解決するため、複数のカメラで同時撮影した映像を組み合わせることなく、1台の単眼カメラで物体を固定の位置のみから撮影する場合でも、動的3次元シーンモデルを再構築する技術を開発した。

開発技術の取り組み概要

 開発した技術は、深層学習によって人や物体の形状を学習したAIを用いて、カメラに映る2次元の各物体の3次元形状を推定可能にする3次元形状推定技術と、建物や地形などを含む3次元モデル上で人や物体を高精度に位置推定し復元する3次元プロジェクション技術の2つのコア技術により構成される。

 3次元形状推定技術は、さまざまな角度から撮影した市街の複数の画像を、画像に映り込む建物や人などの物体の種別を判別させた上で、深層学習を用いて学習させたモデルを活用する。これにより、単眼カメラの1枚の市街の画像からでも、3次元空間上のVoxelの集合体として、建物や人といったカテゴリも含めて表現することが可能になる。また、事前の機械学習により、建物の裏側などの画像では隠れて映っていない部分についても、正確な3次元形状の推定を可能にする。

 3次元プロジェクション技術は、3次元形状推定技術の出力結果に基づいて3次元化されたデジタルツイン上で、既に学習済みの社会人文科学的な人間の行動分析のノウハウを組み込むことで、例えば人が物体をすり抜けるなど、現実世界では起こり得ない人間の動きを除外しつつ、進行方向や速度情報などとともに3次元上に高精度に配置可能にする。これにより、人や車の動きをより現実世界に即した形で復元可能となるほか、物体の特定の部分が障害物によって隠されている場合でも、正確な位置推定を可能にする。

 これらの技術を活用することで、例えば交差点など人や車が密集する場面で撮影された画像を、匿名化した上で3次元上へ動的に復元し、監視カメラでは捉えきれなかった交通事故の原因などの、潜在的な課題の可視化を実現する。

 富士通株式会社とカーネギーメロン大学は今後、適用シーン拡大に向けて、交通だけでなくスマートシティなどにおける有用性も検証し、2025年度までに技術の実用化を目指すとしている。