Infostand海外ITトピックス
次の「ChatGPTモーメント」狙う NVIDIAの世界基盤モデル「Cosmos」
2025年1月14日 11:37
年始に米ラスベガスで開催される「CES」は、その年の技術動向を占う場とされる。その基調講演に、一挙一動が注目されるNVIDIAのCEO、Jensen Huang氏が登壇した。Huang氏は個人向け超小型スパコン「Project DIGITS」など印象的な発表の中、「世界基盤モデル」の「NVIDIA Cosmos」を披露した。同社の次の一手を打ち出したものだ。
(岡田 陽子=Infostand)
「ロボット分野でChatGPTの瞬間を」
「世界基盤モデル」(WFM:World Foundation Model)とはどういうものか――。NVIDIAのWebサイトでは「実世界の環境をシミュレーションし、テキスト、画像、ビデオの入力に基づき正確な結果を予測するニューラルネットワーク」と説明している。物理世界で働く「物理AI」の一種と言い換えてもよいだろう。
Cosmosは2000万時間を超える動画データで訓練されているという。現実世界の物理法則に基づいたシミュレーション動画を生成し、現実世界に参加できるAIモデルを開発できるようにする。自律型のロボットや自動運転車につながる技術で、さまざまなタスクに対応するシナリオを作成できる。
プレスリリースでは活用例として、雪道の条件や倉庫混雑など特定のシナリオに向けた動画検索と理解を挙げている。またリアルな合成データの生成、カスタムモデルの開発・評価、さらには“マルチバース”のシミュレーションによる未来予測などもあるという。
CosmosはLLM(大規模言語モデル)のほか、高度なトークナイザーや加速動画処理パイプラインで構成されており、低遅延・リアルタイムアプリケーション向けの「Nano」、高性能なベースラインモデル向けの「Super」、最上位の「Ultra」の3種類を用意する。パラメーター数は4億から140億だ。
Huang氏は生成AIブームに火をつけた「ChatGPT」を引き合いに出し、「ロボット分野での“ChatGPT(リリースの)モーメント”がやってくる」と述べた。