Infostand海外ITトピックス

画像から音声や動画へ 急速に進化するAIコンテンツ生成

 テキストから画像を生成するAIが大流行だ。大規模言語モデル(LLM)を利用した技術で、元になるテキストを「プロンプト」と呼ぶ。言葉による説明から、絵画タッチや、写真のようなリアルな画像をつくりだせる。魔法になぞらえて、“呪文”と呼ぶ者もいる。そしてプロンプトによるコンテンツ生成は、画像から、音声、動画へ拡大し、めまぐるしく進化している。直近の動きを紹介する。

Steve Jobs氏の新しいインタビュー

 podcast.aiというポッドキャストのサービスが、Steve Jobs氏の新しいインタビューを公開した。著名なポッドキャスターのJoe Rogan氏のインタビューに答えるというものだ。19分のインタビューは、東洋の神秘主義からAppleの製品、会社組織のあり方まで、Jobs氏が質問に答えながら展開する。

 もちろんJobs氏は10年以上前の2011年に死去しており、Rogan氏と会話することはできない。インタビューは“フェイク”で、ドバイの音声技術会社Play.htが、AIで生成したものだ。音声合成では、話者の音声データがあれば、その声を再現してテキスト読み上げをさせることができる。しかし、このインタビューはRogan氏とのやり取り全体をAIで生成したという。

 Ars Technicaは「おそらくGPT-3に似た大規模言語モデルから生成されたものだろう」と推測する。Jobs氏の過去のインタビューや伝記などで学習した言語モデルにプロンプトを与えてつくったものと考えられる。

 笑い声が不自然だったり、声が途切れたりする部分はあるものの、2人はしっかり対談している。Jobs氏は製品について熱っぽく語っている。Microsoftについて「彼らは賢い人たちで、いい仕事をしてきたが、決してセンスがあったわけではない。美的センスがないんだ」というJobs節にはニヤリとさせられる。

 podcast.aiは、架空のインタビューや対談のアイデアも募集中だ。そこには、「Putin、Biden両大統領が紛争や核戦争をネタに、ばか話をして最後に和平に至る」「Jimi Hendrixがバッハに会う」「イエスが神に質問する」といった案が寄せられている。

 プロンプト生成は、テキストや画像だけでなく、音声生成にも応用されている。