Infostand海外ITトピックス

「Stable Diffusion」の“破壊力” AI画像生成の隆盛

 テキストからAIによって画像を生成するツールが爆発的に人気を集めている。高度な画像生成ツールが続々と登場する中、オープンソースで商利用にも制限を設けない「Stable Diffusion」は、その可能性と、影響の大きさで飛び抜けている。「パンドラの箱」が開いたのかもしれない――。

潜在拡散モデルによるブレークスルー

 「text to image」画像生成の熱狂ぶりは、もはや説明の必要がないだろう。Open AIが2021年1月に発表した「DALL-E」以降、その技術は急速に進化している。今年7月に一般公開された「DALL-E2」と「Midjourney」、そして8月に安定版が公開された「Stable Diffusion」のビッグ3が、いま熱狂的に迎えられている。人間並み、あるいはそれ以上の絵が、数十秒から数分で作成でき、何百万、何千万枚のAI生成画像が、SNSにも大量に投稿されるようになった。

 こうした深層学習のモデル構築には大きな計算パワー、すなわち資金を要する。またこれまでは、フェイクニュースなど悪用の恐れがあることから、利用には制限を設けるのが通例だった。しかし、Stable Diffusionは膨大なデータで学習したモデルをオープンソースで公開し、誰でも使える形で提供した。これは画期的なことだ。

 Stable Diffusionを開発したStability.Aiは2020年にロンドンで創業された。バングラデシュ出身・英国育ちの元ヘッジファンド・マネージャーEmad Mostaque氏が創設者でCEOを務めている。同社は「人々による、人々のためのAI」をモットーに、AIの民主化を掲げ、「すべての人に創造性の贈り物をもたらす」と説明している。

 テクノロジー面ではアルゴリズムに、高効率の「潜在拡散モデル」(Latent Diffusion Model)を採用している。DALL-E2もMidjourneyもこのモデルを利用しているといい、今回の画像生成AIブームは潜在拡散モデルによるところが大きいだろう。

 Stable Diffusionは、まず小さなサイズで“雑な絵”を生成し、目的の画像に向かって高画質化する手法をとっている。これによってGANにみられる「大きくなると破たんしがち」という弱点も克服している。

 Stable Diffusionのモデルの学習に使用された画像データベースは、関連の非営利団体Common CrawlがWebスクレイピングによって収集したものだ。このうち「LAION-Aesthetics」と呼ばれるデータがコアデータセットの訓練に使用された。このデータは「aesthetic score」(美的予測スコア)を持ち、人の審美眼に合う画像を生成できるという。このあたりも、生成された画像がすごいと思わせる要因なのだろう。