Infostand海外ITトピックス

画像を生成するOpen AIの「DALL-E」 活用広がる「Transformer」

 2020年のAI分野のニューストップ3に間違いなく入るのが「GPT-3」だ。深層学習で、まるで人間の書いたような文章を生成して見せた。開発したOpenAIは新年早々、新たにテキストの説明から画像を生成する機械学習モデル「DALL-E」を発表した。AI業界はこれに沸き立っている。DALL-Eとは一体、何なのだろう。

キャプションから画像を生成

 Open AIの公式ブログによると、DALL-Eは「テキストの説明から画像を生成するために訓練されたGPT-3の120億パラメータ版」(GPT-3は1750億パラメータなので、その縮小版とも言える)だ。インターネット上の120億の画像とテキストのデータセットで訓練され、内容に合った画像を生成することができる。スペインの画家サルバドール・ダリとピクサーのアニメーション映画「WALL-E」から命名したという。

 GPT-3が、テキストから長文の説明テキストを生成するのに対し、DALL-Eはキャプション(短いテキスト)から、その説明に沿った画像を生成できる。「五角形の緑の時計」や「ヤマアラシの質感の立法体」などのデモ画像が公開されれおり、なかなか機械が自動で使ったとは思えないほどの出来映えだ。

 実在しないような「お題」に対しても、かなり的確な画像を返すことができる。例えば、「アボカドの形をしたひじ掛け椅子」「チュチュを着て犬の散歩をさせる大根の赤ちゃん」といった画像デモも、DALL-Eが作り出したものだ。

 「現実世界には存在しないであろう、異なる概念を組み合わせてオブジェクトを合成する能力があり、抽象的な説明からでも画像を生成できる」(Open AI)という。

 弱点としては、キャプションの文字列が長いほど成功率が低下するという。これはGPT-3に長文を生成させると、次第に一貫しない支離滅裂な文章を生成してしまうのに似ている。一方、内容の一部分をキャプションで繰り返すことで成功率は向上すると説明している。