ニュース

パナソニックHD、大規模言語モデルで階層的な画像認識を実現するマルチモーダル基盤モデルを開発

 パナソニック ホールディングス株式会社(以下、パナソニックHD)は21日、大規模言語モデルの事前知識を活用することで、任意のテキスト入力に応じたセグメンテーション(画像中の物体を見つけ出し、画素単位で映っているものを識別すること)タスクを遂行できる画像認識向けマルチモーダル基盤モデルを、カリフォルニア大学バークレー校と共同開発したと発表した。

 パナソニックHDでは、これまで無視されてきた「階層的な関係性」が、AIによる高度な画像理解に必要であることに着目。異なる粒度の階層的な表現を学習する技術を開発し、従来、階層に応じて複数のモデルを用意する必要があったセグメンテーションや画像認識を、一つのモデルで実現できるようになった。これにより、車載センサーにおける危険検知や、ロボットにおける操作対象の認識、ドローンの地形分析、医療画像など、階層的な画像理解が必要とされるさまざまな場面で、現場でのアノテーションの負担削減が期待できるとしている。

 近年、自然言語処理技術の急速な発展を受け、大規模言語モデルの事前知識を活用して、所望のタスクごとに少量の追加学習データでファインチューニングするという手法が、コンピュータビジョン分野でも数多く提案されている。従来必要であった大量の学習データを準備することなく精度の高いAIを実現できるため、ここ数年で研究開発が急速に発展しているという。

 しかし、大規模言語モデルを使って画像やテキストを自在に扱うには、まだ課題があり、例えばセグメンテーションや画像認識において、画像中に人物が写っている例を考えると、その人物領域には通常であれば「人」ラベルが割り当てられ、タスクによってはその領域に「顔」や「鼻」といった粒度の異なるラベルが割り当てられる必要がある。

 こうした粒度の異なるラベルを同時に学習する場合、“person nose”“dog nose”のようにラベル名をつなげて学習させるのが一般的だが、この方法で学習したAIは、“giraffe nose”のように未知のテキストが現れると途端にうまく扱えなくなる問題がある。

 これに対して、今回開発したHIPIE(Hierarchical Open-vocabulary Universal Image Segmentation)は、階層別にラベルを学習させ、粒度の異なるラベルを包括的に扱える技術で、さまざまなスケールを包括することで、所望の画像分割と高度な画像理解ができるようになる。モデルの表現能力が格段に向上したことで、課題として挙げたような未知の組み合わせラベルに対応できるとしている。

画像とテキストの入力に応じて階層的な画像セグメンテーションを行うHIPIEの出力結果

 HIPIEは、セグメンテーションと物体検出、合わせて8種類のタスクを1つのモデルで実行できる技術となり、40以上の公開データセットを対象とした評価実験において、世界最高性能を達成したと説明。

 パナソニックHDでは、HIPIEはオープンボキャブラリー(任意の言語で扱える)、ユニバーサル(任意の画像を扱える)、階層的(シーンに含まれる情報を階層的に捉えられる)という特徴を備えたセグメンテーションモデルで、画像に映ったシーンを詳細に理解でき、特にモビリティ、製造、ロボティクスをはじめとする、高度な画像理解が求められる場面での活用が見込まれると説明。また、昨今、需要が高まっている、基盤モデルの構築とトレーニングのハードルを下げる技術になることも期待されるとしている。