ニュース

NVIDIA、AmpereアーキテクチャのGPU「A100」を発表 従来比20倍のAI性能を実現

新Tensorコアを採用、サーバーアプライアンス「DGX A100」もリリース

NVIDIAが発表したAmpereアーキテクチャのNVIDIA A100 GPU、最初の製品はNVLink版のモジュール(写真提供:NVIDIA)

 半導体メーカーの米NVIDIAは5月14日22時(日本時間)から、当初は3月に予定されていたが延期されていた同社のプライベートカンファレンスGTC 2020の基調講演を開催している。

 この基調講演では、同社CEO ジェンスン・フアン氏による多数の発表が行われる予定になっているが、NVIDIAはそれに先だって報道発表を実施。新GPUアーキテクチャ「Ampere(アンペア、開発コード名)」ベースのデータセンター向けGPU「NVIDIA A100 GPU」(以下、A100)を発表した。

 NVIDIAによれば、A100はFP32(単精度の浮動小数点演算)演算時に、Tensorコアの新しい演算方式を利用することで、312TFLOPS(テラフロップス)を実現。従来製品「Tesla V100(開発コード名:Volta)」のFP32演算時の性能である15.7TFLOPSと比べ、約20倍(19.87倍)の性能を実現しているという。

NVIDIA A100 GPUのスペック(出典:NVIDIA)

 NVIDIAによればA100はすでに大量生産が開始されており、発表と同時に世界各国で販売が開始される。

 またNVIDIAは、A100を搭載したサーバーアプライアンスとして「NVIDIA DGX A100」(以下、DGX A100)を発表した。NVIDIAはTesla V100の発表時(2017年)にDGX-1(ディージーエックスワン)と呼ばれるAI学習向けのサーバーアプライアンスを提供開始しており、その翌年に、性能を強化したDGX-2を発表していたが、今回発表されたDGX A100はその後継となる。市場想定価格は19万9000ドルで、世界各国のNVIDIAリセラーを経由して販売される。

Volta発表から3年を経て後継製品が発表、後継はAmpereアーキテクチャ

 AI、特にマシンラーニング(機械学習)/ディープラーニング(深層学習)の学習向け半導体市場をリードしているNVIDIAでは、2017年にVoltaと呼ばれるGPUアーキテクチャを発表し、それに基づいたデータセンター向けのGPU製品としてTesla V100を発表し、出荷を開始した。

 Tesla V100は、以前からNVIDIAがCUDAコアとして提供してきた並列演算用の演算器に加えて、Tensorコアと呼ばれるAIに特化した演算器を加えることで、AIの学習(Training)/推論(Inference)時の高い演算性能を実現していた。

 複数のSKUがあるが、一般的なバージョンとなるNVLink向け製品の場合は、倍精度浮動小数点演算(FP64)で7.8TFLOPS、単精度浮動小数点演算(FP32)で15.7TFLOPSなどの性能を実現しており、CPUを利用した場合に比べて高いAIの処理能力を実現している点が特徴となっていた。

 今回発表されたAmpereアーキテクチャのA100は、NVIDIAが第3世代のTensorコアと呼ぶ新しいTensorコアを採用しており、ソフトウェアを改変する必要なく、「TF32」と呼ばれる、FP32とFP16のハイブリッド方式でFP32演算を行える仕組みを採用しており、同演算時の性能が大きく向上している(通常のFP32時の性能は19.5TFLOPS)。

 NVIDIAによれば、A100のFP32時のスループットは、TF32と「Structural sparsity」という密行列(Dense Matrix)を疎行列(Sparse matrix)に置き換えて演算する新しい方式を有効にした状態で、312TFLOPSに達しており、従来のVolta V100(NVLink)と比較して約20倍(19.87倍)の性能を実現するという。

新しいTensorコアの機能となるTF32(出典:NVIDIA)
Structural sparsity(出典:NVIDIA)

 同様に、推論時の性能も1248TOPsに達しており、こちらもVolta V100に比較して20倍だとNVIDIAでは説明している。なおFP64に関しては19.5TFLOPSで、Volta V100の7.8TFLOPSに比較して2.5倍になる。

 そのほかにも、A100はマルチインスタンスGPUという仕組みを採用しており、1つの物理的なGPUを7つのインスタンスに分割して使うことができる。これにより、GPUのリソースをより有効活用可能で、システム全体の性能を引き上げられる。また、GPUとGPU、GPUとCPUを接続するためのインターコネクトとなるNVLinkの帯域幅も2倍(600GB/秒)に引き上げている。

マルチインスタンスGPU(出典:NVIDIA)
学習でも推論でも性能向上(出典:NVIDIA)

 NVIDIAによれば、A100はTSMCの7nmプロセスルール(7N)で製造され、540億トランジスタというモンスターチップで、「7nmで製造される半導体としては世界最大」のダイサイズ(826平方mm)になっているという。モジュール上に搭載されているメモリは40GB(Samsung HBM2メモリ)で、モジュール全体の最大消費電力は400W。

NVIDIA A100 GPUの特徴(出典:NVIDIA)
表1 A100のスペック(NVIDIA社提供の資料より筆者作成)

 すでにNVLinkに対応した最初の製品の大量生産が開始されており、Amazon Web Services(AWS)、Baidu、Google Cloud、Oracle、Tencent Cloudなどのパブリッククラウド事業者や、富士通、Dell Technologies、HPE、Lenovoなどのサーバーベンダーからも出荷が予定されている。

 さらに、GIGABYTEやSupermicroなどのODMメーカーからも出荷が予定されているほか、HGX A100と呼ばれるリファレンスデザインも提供される予定。

HGX A100(出典:NVIDIA)

NVIDIA自社ブランドの「DGX」もA100を搭載したDGX A100へ進化

 また、NVIDIAはA100を採用した自社ブランドのサーバーアプライアンス「DGXシリーズ」の新製品としてDGX A100を発表した。DGX A100は、2017年のTesla V100の発表と同時に発表されたDGX-1(Tesla V100を8基搭載)、その翌年に発表されたDGX-2(Tesla V100を16基搭載)に次ぐ製品となる。

DGX A100。INT8で10PFLOPS、FP16で5PFLOPS、TF32で2.5PFLOPS、FP64で156TFLOPSの性能を発揮する(出典:NVIDIA)

 DGX A100は、A100を8基搭載した製品になる。A100はモジュールあたり40GBのメモリを搭載しているので、DGX A100全体では320GBのGPUメモリが利用可能で、昨年NVIDIAが買収したことを発表したMellanox社のMellanox HDR 200Gbpsインターコネクトを備えている。

 前述の通り、A100は1つのGPUで7つのインスタンスに分割することができるため、システムあたり56のインスタンスを利用可能になる。また、合計で15TBの内蔵ストレージ(NVMe)がPCI Express Gen 4で接続されている。

DGX A100の外観(写真提供:NVIDIA)
DGX A100の内部構造(写真提供:NVIDIA)

 NVIDIAは、このDGX A100を140台クラスターとしてMellanox HDR 200Gbps InfiniBandで相互に接続して700P FLOPSの演算性能を実現したクラスターサーバー群「NVIDIA DGX A100 SUPERPOD」の構想も明らかにした。NVIDIAによれば3週間で構築が可能だという。

 さらにNVIDIAは、データセンターのショーケースとして構築している自社データセンター「NVIDIA DGX SATURNV」を拡張し、以前から設置されている1800台のDGXシステム(1.8EFLOPS:エクサフロップス)に加えて、4つのDGX A100 SUPERPOD(560台のDGX A100)を追加し2.8EFLOPSの処理能力を追加する。これにより、合計で4.6EFLOPSの演算能力を持つことになる。

NVIDIA DGX A100 SUPERPOD(出典:NVIDIA)
NVIDIA DGX SATURNV(出典:NVIDIA)

 NVIDIAによれば、DGX A100は既に出荷を開始しており、世界中の市場でNVIDIAのリセラーから販売される。市場想定価格は19万9000米ドルからとなっている。