Infostand海外ITトピックス

「Stable Diffusion」の“破壊力” AI画像生成の隆盛

オープンソースで開発も活発

 Stable Diffusionの訓練済みモデルや関連リソースは、データセットや機械学習モデルの共有プラットフォームのHuggingFaceを通じて誰でも利用できるようになっている。

 モデルのライセンスはオープンソースの「Creative ML OpenRAIL-M」で、「営利、非営利を問わず使用できる寛容なライセンス」という。また「モデルを使用して生成した出力についていかなる権利も主張しない」と説明している。Stability.Aiが提供しているWebサービス「DreamStudio」では、生成物のライセンスは「CC0 1.0 Universal」、いわゆるパブリックドメインが適用される。

 準拠法は、ユーザーの居住地に関係なく英国法が適用される。英国の著作権法(CDPA)では、情報解析(text and data analysis)が「非商業的な目的の研究のみが目的」であれば、著作物の利用は権利侵害にあたらない。また、その成果を営利目的で公開する、あるいは商業利用することもなんら問題ない。米国の場合は訴訟になって個別に「フェアユース」であるかが問われる可能性が高いが、英国法では明解だ。

 Stable Diffusionの開発コミュニティには2万人超の開発者がいるといい、非常に速く動いている。HuggingFaceは9月12日、Stable Diffusion関連ライブラリ「diffusers version 0.3」を公開した。最初のバージョンのリリースから1カ月半。Stable Diffusion安定版の公開から3週間足らずだ。

 diffusersの新機能には、「image to image生成」、サンプルのタッチ(コンセプト)で画像を作成する「Textual Inversion」、画像内のオブジェクトや背景を置き換える「Experimental inpainting pipeline」などが含まれている。また、3.2GBのVRAMで動く省ビデオメモリ最適化版や、M1/M2搭載Macで使えるバージョンも登場。高価なGPU不要で、手元のパソコンにダウンロードして生成ができるようになった。

 さらに開発コミュニティからも続々と成果が発表されている。モーフィングしてビデオを作成する「Stable Diffusion Videos」、説明可能ツール(explainability tool)の「Diffusers Interpret」(拡散過程の全ての画像が見られ、元テキストがどう影響するかを分析できる)。そして、「Japanese Stable Diffusion」は、日本語キャプション付きの1億枚の画像で学習した日本語特化モデルで、MicrosoftからスピンアウトしたAI企業rinnaが開発した。