Infostand海外ITトピックス

画像から音声や動画へ 急速に進化するAIコンテンツ生成

動画生成で発表ラッシュ

 そして動画生成だ。この1カ月ほどの間に、AIによる動画生成の重要な研究が相次いで発表されている。

 動画生成は、中国の清華大学と北京智源人工智能研究院(BAAI)のグループが5月に「CogVideo」を発表したあたりから始まった。テキストからショートクリップを生成するが、デモではフレームレートが毎秒8フレームとカクカクで、昔のmotion JPEGの動画のような印象だ。

 その後、9月にはMeta Platformsが、もっとリアルな動画を生成できる「Make-A-Video」を発表した。アノテーションなし動画映像で学習したモデルで、テキストと動画のデータセットが少ないという問題に対応したものだ。

 そして10月5日にはGoogle Researchが「Imagen Video」を発表した。5月に発表した画像生成モデル「Imagen」がベースで、他のモデルが苦手だった文字のレンダリングに対応したほか、毎秒24フレームで1280×768ピクセルという高精細の動画を生成して注目を集めた。

 一方、Imagen Videoも含めて、従来のモデルには短時間の動画生成しかできないという弱点がある。これを克服したのが、Google Researchの別のチームが9月に発表した「phenaki」というモデルだ。最大の特徴は長文のプロンプトから、より長時間の動画を生成できることだ。

 デモでは、205語のプロンプトから2分間の動画を生成している。文章内容を動画化して、シナリオを映像にしたような仕上がりになっている。

 AIプロンプト生成には「短時間で大量のコンテンツを作成できる」「スキル不要で誰でも簡単に使える」という異次元のメリットがある。そしてクオリティは猛烈な勢いで進化している。

 まだ、人の手によるものには見劣りがするが、遠からず追いつきそうだ。そうなれば、AI生成コンテンツで十分という分野も少なくないだろう。世界は、超安価に大量生産できる「コンテンツの産業革命」を迎えているのかもしれない。