ニュース

パナソニックHD、テキスト/画像/音を相互に変換できるマルチモーダル生成AI「OmniFlow」を開発

 パナソニック ホールディングス株式会社(以下、パナソニックHD)およびパナソニックR&Dカンパニーオブアメリカ(以下、PRDCA)は4日、カリフォルニア大学ロサンゼルス校(以下、UCLA)の研究者らと共同で、テキスト/画像/音といった異なるデータ形式を自由に相互変換できる(以下、Any-to-Any)マルチモーダル生成AI「OmniFlow」を開発したと発表した。

 パナソニックHDとPRDCAでは、マルチモーダル生成AIに関する研究に取り組んでいる。テキスト、画像に加えて音声も取り入れたマルチモーダル生成AIが注目されているが、テキスト、画像、音声が全てそろったデータは入手方法が限られ、バリエーションを増やすにはコストがかかることが課題だった。

 開発したOmniFlowは、テキスト/画像/音の各データ形式に特化した生成AIを柔軟に組み合わせることで、3組全てのモーダルから成るデータの枚数が少なくても、高精度なAny-to-Anyモデルを学習でき、学習データの作成コストを大きく削減することに成功した。

OmniFlowによる生成例

 評価実験では、「テキスト→画像」「テキスト→音」生成タスクの性能を、既存手法と比較した。結果として、OmniFlowはAny-to-Any手法(Generalist)、各タスクに特化したスペシャリスト手法の中で、最良の性能を獲得することが確認された。また、OmniFlowの学習に必要なデータサイズは、他のAny-to-Any手法と比べて最大60分の1程度まで削減できることも分かった。

 パナソニックHDでは、この技術を工場やくらし領域などさまざまな現場で学習することで、その現場に特化したさまざまな種類のデータを生成することが可能になり、マルチモーダルAIの活用領域を広げることが期待できるとしている。また、同技術は、先進性が国際的に認められ、AI・Computer VisionのトップカンファレンスであるCVPR 2025に採択され、6月11日~15日に米国ナッシュビルで開催される本会議で発表する。