Infostand海外ITトピックス

画像を生成するOpen AIの「DALL-E」 活用広がる「Transformer」

広がる可能性

 DALL-Eの成果には、同時に発表された「CLIP」というモデルも寄与している。CLIPは画像の中に何があるかを読み取るモデルで、与えられた未知の画像に適切なキャプションを選ぶことができるという。

 具体的には、DALL-Eが生成した512個の画像から、CLIPが上位32個を取り出し、質の高いものを自動で選んでいる。人の手を借りずに精度を上げる手法だ。

 こうして生まれたDALL-Eだが、いったい何ができるのだろうか――。すぐにも使えそうなのがデザイン素材だ。例えば、欲しいPowerPointのイラストを作成すれば便利そうだ。OpenAIは、Microsoftから10億ドルの資金援助を受け、同社にGPT-3を独占ライセンスする契約も結んでいる。画像技術にも及ぶ可能性はありそうだ。

 だが、専門家はもっと先を見ている。

 ジョージア工科大学のMark Riedl准教授(インタラクティブ・コンピューティング)は、DALL-Eについて「従来のシステムと比べ、はるかに一貫して分かりやすいイラストを生成するのは注目に値する」とCNBCにコメントしている。

 元Amazonの機械学習のディレクターで、ケンブリッジ大学のNeil Lawrence教授は「非常に印象的」と評価。人間に自然に感じさせる能力を示したものであり、「あらゆる種類の応用があると期待しているが、私には想像すらできない」とその大きな可能性を指摘する。

 「AIが視覚的な情報と合わせて言語を“理解”できれば、人間に一歩近づく」と多くの研究者は考えている。OpenAIのチーフサイエンティストIlya Sutskever氏は「未来は、そのようなシステムで構成されるものになってゆくだろう」とMIT Technology Reviewに語っている。