ニュース

NEC、複数のカメラ映像から人間の作業行動を事前学習不要でデータ化できるAI技術を開発

 日本電気株式会社(以下、NEC)は27日、事前学習不要で、複数のカメラ映像から広域の現場の作業行動をデータ化できるAI技術を開発したと発表した。同社では、2026年度までに同技術の実用化を目指すとしている。

 NECが今回開発したのは、複数のカメラでなければカバーできないような物流倉庫・工場や建設現場などの広い作業エリアにおいて、視覚言語モデル(VLM)を活用し、事前の現場映像データの学習なしで、多種多様な作業行動を認識できるAI技術。例えば、ピッキング作業に対しては「棚から荷物を取り出している」、台車運搬作業に対しては「台車を押して運んでいる」といった作業行動の説明テキストを入力するだけで認識可能になるという。

 作業を認識させるためには、従来、映像データの収集・正解付け(アノテーション)・AIモデル学習などに数週間程度の時間を要していたほか、人が触れたり操作したりする物体の特定が難しく、雑多な物体が混在している作業現場では、映像から作業行動を認識することは困難だったとのこと。

 これに対して新技術では、「各作業行動を説明するテキストをあらかじめVLMで解析し特徴量化」(A)するとともに、「カメラ映像から人とモノとの関係性をとらえる独自AIモデルにより、人が触れたり操作したりする物体を特定し、人と特定した物体の映像領域をVLMで特徴量化」(B)し、(A)と(B)を比較・照合することで、テキスト入力のみでの作業行動の認識を実現している。

 また、複数のカメラをまたいで移動する作業員を、服装など外観の特徴に頼ることなく識別し、現場全体で長時間にわたって作業員ごとの作業行動実績をデータ化できるため、広域の現場全体の最適化に貢献できるとした。なお、各カメラ画像に映る人物の位置(2次元座標)から、デジタルツイン空間における人物の位置(3次元座標)を推定し、デジタルツイン上での人物の位置や移動パターンの近さを測ることで、複数カメラ間でも同一人物を高精度に同定可能になっているとのこと。さらに、人物の位置推定に必要となるカメラパラメータ(カメラの位置や姿勢)を自動で推定するため、現場導入時の手間を軽減できるとしている。