Infostand海外ITトピックス

画像を生成するOpen AIの「DALL-E」 活用広がる「Transformer」

AI業界を変えた「Transformer」

 GPTやDALL-Eの基盤になっている技術は「Transformer」と呼ばれ、2017年末に最初の論文が出た。データの中の、より意味のある部分に注目して不要な計算量を削減する「Attention」技術をフル活用。深層学習で当たり前だった「CNN」や「RNN」を使わずに高度な処理を行うことを可能にした。

 そのメリットは、従来モデルに比べて処理の並列化が容易で、モデルの訓練時間が圧倒的に削減できることだ。特に、RNNや「LSTM」などの再帰型モデルが主流だった自然言語処理で目覚ましい成果をあげた。

 翌2018年にGoogleが発表した言語モデル「BERT(Bidirectional Encoder Representations from Transformers)」は画期的な性能を見せつけ、検索や機械翻訳を一変させた。これに多くの研究が続き、わずか2年ほどでTransformerは自然言語処理分野で先端かつスタンダードの地位を確立している。

 Transformerを画像に適用したDALL-Eの原理は、GPTが文章を扱うのと同じだ。DALL-Eでは画像を一定の大きさの「パッチ」に分割して順番を振り、一つひとつのパッチをテキストの1単語と同じように扱う。パッチを単位とする連続データとみなすわけだ。

 Open AIは、GPT-3の発表の前月にあたる昨年6月、画像Transformerの「Image GPT(iGPT)」を発表している。このときのデモ画像は、最大で32x32ピクセルをなんとか生成している程度だったが、DALL-Eでは256x256ピクセルへ大型化かつ精密化を進め、わずか半年の間に見違えるようなレベルに達した。