Infostand海外ITトピックス

画像から音声や動画へ　急速に進化するAIコンテンツ生成

行宮翔太＝Infostand

2022年10月24日 11:24

3秒の音声をプロンプトに続きを生成

　Goggle Researchが9月に発表した「AudioLM」は、音声をプロンプトとして、より長い音声を生成する。人間の発話でも、音楽でも対応し、初見の数秒のサンプル音声から続きをつくり出せる。「話者のアクセントやリズムを保持し、構文的に正しく意味が一貫した音声ができる」という。

　デモとして、3秒のプロンプトに続けて生成された10秒間の生成例が数十種類公開されている。たとえば、「some images like some sensations feel very familiar, while others feel strange」（あるイメージは、ある種の感覚と同じように身近に感じられる、その一方で他のものは奇妙に感じられる）という読み上げ文から3秒分（冒頭5単語）をプロンプトとして与える。

　すると、「some images, like some sensations which produced by the light of nature in all creatures are subject to various conditions,」（ある種のイメージは、自然の光によってすべての生き物に生じる感覚のように、さまざまな条件に左右される）といった全く違う内容を生成する。デモには、いまひとつ意味が分からないもの少なくないが、音声としては滑らかで違和感がない。

　また、ピアノ演奏のワンフレーズを与えて続きの演奏を生成することもできる。比較に挙げている従来方式の生成例は、和音もリズムも無視して音楽的にはでたらめのように聞こえる。これに対して、AudioLMが生成した音楽は、滑らかに続いて音楽として違和感もない。AIがテーマを与えられて即興演奏をしているようだ。

　このAudioLMの最大の特徴は、学習データのアノテーション（注釈、情報タグ）が不要なことだという。「アノテーション注釈のない音声に対して学習を行った場合、AudioLMは構文的・意味的に妥当な音声の連続を生成し、韻律を維持しながら同一話者が話しているように聞こえる」（発表論文）という。

　アノテーションは非常に手間のかかかる面倒な作業で、機械学習のネックになっている。これを不要にすることは最近の重要な研究テーマだ。Google Researchのチームは、AudioLMによって「AIが音声を生成の訓練のプロセスを加速し、ビデオに付ける音楽の自動生成も可能になる」と説明している。

画像から音声や動画へ 急速に進化するAIコンテンツ生成

3秒の音声をプロンプトに続きを生成

画像から音声や動画へ　急速に進化するAIコンテンツ生成