Infostand海外ITトピックス

画像から音声や動画へ 急速に進化するAIコンテンツ生成

3秒の音声をプロンプトに続きを生成

 Goggle Researchが9月に発表した「AudioLM」は、音声をプロンプトとして、より長い音声を生成する。人間の発話でも、音楽でも対応し、初見の数秒のサンプル音声から続きをつくり出せる。「話者のアクセントやリズムを保持し、構文的に正しく意味が一貫した音声ができる」という。

 デモとして、3秒のプロンプトに続けて生成された10秒間の生成例が数十種類公開されている。たとえば、「some images like some sensations feel very familiar, while others feel strange」(あるイメージは、ある種の感覚と同じように身近に感じられる、その一方で他のものは奇妙に感じられる)という読み上げ文から3秒分(冒頭5単語)をプロンプトとして与える。

 すると、「some images, like some sensations which produced by the light of nature in all creatures are subject to various conditions,」(ある種のイメージは、自然の光によってすべての生き物に生じる感覚のように、さまざまな条件に左右される)といった全く違う内容を生成する。デモには、いまひとつ意味が分からないもの少なくないが、音声としては滑らかで違和感がない。

 また、ピアノ演奏のワンフレーズを与えて続きの演奏を生成することもできる。比較に挙げている従来方式の生成例は、和音もリズムも無視して音楽的にはでたらめのように聞こえる。これに対して、AudioLMが生成した音楽は、滑らかに続いて音楽として違和感もない。AIがテーマを与えられて即興演奏をしているようだ。

 このAudioLMの最大の特徴は、学習データのアノテーション(注釈、情報タグ)が不要なことだという。「アノテーション注釈のない音声に対して学習を行った場合、AudioLMは構文的・意味的に妥当な音声の連続を生成し、韻律を維持しながら同一話者が話しているように聞こえる」(発表論文)という。

 アノテーションは非常に手間のかかかる面倒な作業で、機械学習のネックになっている。これを不要にすることは最近の重要な研究テーマだ。Google Researchのチームは、AudioLMによって「AIが音声を生成の訓練のプロセスを加速し、ビデオに付ける音楽の自動生成も可能になる」と説明している。