ニュース

NVIDIA、AmpereアーキテクチャのGPU「A100」を発表　従来比20倍のAI性能を実現

新Tensorコアを採用、サーバーアプライアンス「DGX A100」もリリース

笠原一輝

2020年5月14日 22:05

NVIDIAが発表したAmpereアーキテクチャのNVIDIA A100 GPU、最初の製品はNVLink版のモジュール（写真提供：NVIDIA）

　半導体メーカーの米NVIDIAは5月14日22時（日本時間）から、当初は3月に予定されていたが延期されていた同社のプライベートカンファレンスGTC 2020の基調講演を開催している。

　この基調講演では、同社CEO ジェンスン・フアン氏による多数の発表が行われる予定になっているが、NVIDIAはそれに先だって報道発表を実施。新GPUアーキテクチャ「Ampere（アンペア、開発コード名）」ベースのデータセンター向けGPU「NVIDIA A100 GPU」（以下、A100）を発表した。

　NVIDIAによれば、A100はFP32（単精度の浮動小数点演算）演算時に、Tensorコアの新しい演算方式を利用することで、312TFLOPS（テラフロップス）を実現。従来製品「Tesla V100（開発コード名：Volta）」のFP32演算時の性能である15.7TFLOPSと比べ、約20倍（19.87倍）の性能を実現しているという。

NVIDIA A100 GPUのスペック（出典：NVIDIA）

　NVIDIAによればA100はすでに大量生産が開始されており、発表と同時に世界各国で販売が開始される。

　またNVIDIAは、A100を搭載したサーバーアプライアンスとして「NVIDIA DGX A100」（以下、DGX A100）を発表した。NVIDIAはTesla V100の発表時（2017年）にDGX-1（ディージーエックスワン）と呼ばれるAI学習向けのサーバーアプライアンスを提供開始しており、その翌年に、性能を強化したDGX-2を発表していたが、今回発表されたDGX A100はその後継となる。市場想定価格は19万9000ドルで、世界各国のNVIDIAリセラーを経由して販売される。

Volta発表から3年を経て後継製品が発表、後継はAmpereアーキテクチャ

　AI、特にマシンラーニング（機械学習）／ディープラーニング（深層学習）の学習向け半導体市場をリードしているNVIDIAでは、2017年にVoltaと呼ばれるGPUアーキテクチャを発表し、それに基づいたデータセンター向けのGPU製品としてTesla V100を発表し、出荷を開始した。

　Tesla V100は、以前からNVIDIAがCUDAコアとして提供してきた並列演算用の演算器に加えて、Tensorコアと呼ばれるAIに特化した演算器を加えることで、AIの学習（Training）／推論（Inference）時の高い演算性能を実現していた。

　複数のSKUがあるが、一般的なバージョンとなるNVLink向け製品の場合は、倍精度浮動小数点演算（FP64）で7.8TFLOPS、単精度浮動小数点演算（FP32）で15.7TFLOPSなどの性能を実現しており、CPUを利用した場合に比べて高いAIの処理能力を実現している点が特徴となっていた。

　今回発表されたAmpereアーキテクチャのA100は、NVIDIAが第3世代のTensorコアと呼ぶ新しいTensorコアを採用しており、ソフトウェアを改変する必要なく、「TF32」と呼ばれる、FP32とFP16のハイブリッド方式でFP32演算を行える仕組みを採用しており、同演算時の性能が大きく向上している（通常のFP32時の性能は19.5TFLOPS）。

　NVIDIAによれば、A100のFP32時のスループットは、TF32と「Structural sparsity」という密行列（Dense Matrix）を疎行列（Sparse matrix）に置き換えて演算する新しい方式を有効にした状態で、312TFLOPSに達しており、従来のVolta V100（NVLink）と比較して約20倍（19.87倍）の性能を実現するという。

新しいTensorコアの機能となるTF32（出典：NVIDIA）

Structural sparsity（出典：NVIDIA）

　同様に、推論時の性能も1248TOPsに達しており、こちらもVolta V100に比較して20倍だとNVIDIAでは説明している。なおFP64に関しては19.5TFLOPSで、Volta V100の7.8TFLOPSに比較して2.5倍になる。

　そのほかにも、A100はマルチインスタンスGPUという仕組みを採用しており、1つの物理的なGPUを7つのインスタンスに分割して使うことができる。これにより、GPUのリソースをより有効活用可能で、システム全体の性能を引き上げられる。また、GPUとGPU、GPUとCPUを接続するためのインターコネクトとなるNVLinkの帯域幅も2倍（600GB/秒）に引き上げている。

マルチインスタンスGPU（出典：NVIDIA）

学習でも推論でも性能向上（出典：NVIDIA）

　NVIDIAによれば、A100はTSMCの7nmプロセスルール（7N）で製造され、540億トランジスタというモンスターチップで、「7nmで製造される半導体としては世界最大」のダイサイズ（826平方mm）になっているという。モジュール上に搭載されているメモリは40GB（Samsung HBM2メモリ）で、モジュール全体の最大消費電力は400W。

NVIDIA A100 GPUの特徴（出典：NVIDIA）

表1 A100のスペック（NVIDIA社提供の資料より筆者作成）

　すでにNVLinkに対応した最初の製品の大量生産が開始されており、Amazon Web Services（AWS）、Baidu、Google Cloud、Oracle、Tencent Cloudなどのパブリッククラウド事業者や、富士通、Dell Technologies、HPE、Lenovoなどのサーバーベンダーからも出荷が予定されている。

　さらに、GIGABYTEやSupermicroなどのODMメーカーからも出荷が予定されているほか、HGX A100と呼ばれるリファレンスデザインも提供される予定。

HGX A100（出典：NVIDIA）

NVIDIA自社ブランドの「DGX」もA100を搭載したDGX A100へ進化

　また、NVIDIAはA100を採用した自社ブランドのサーバーアプライアンス「DGXシリーズ」の新製品としてDGX A100を発表した。DGX A100は、2017年のTesla V100の発表と同時に発表されたDGX-1（Tesla V100を8基搭載）、その翌年に発表されたDGX-2（Tesla V100を16基搭載）に次ぐ製品となる。

DGX A100。INT8で10PFLOPS、FP16で5PFLOPS、TF32で2.5PFLOPS、FP64で156TFLOPSの性能を発揮する（出典：NVIDIA）

　DGX A100は、A100を8基搭載した製品になる。A100はモジュールあたり40GBのメモリを搭載しているので、DGX A100全体では320GBのGPUメモリが利用可能で、昨年NVIDIAが買収したことを発表したMellanox社のMellanox HDR 200Gbpsインターコネクトを備えている。

　前述の通り、A100は1つのGPUで7つのインスタンスに分割することができるため、システムあたり56のインスタンスを利用可能になる。また、合計で15TBの内蔵ストレージ（NVMe）がPCI Express Gen 4で接続されている。

DGX A100の外観（写真提供：NVIDIA）

DGX A100の内部構造（写真提供：NVIDIA）

　NVIDIAは、このDGX A100を140台クラスターとしてMellanox HDR 200Gbps InfiniBandで相互に接続して700P FLOPSの演算性能を実現したクラスターサーバー群「NVIDIA DGX A100 SUPERPOD」の構想も明らかにした。NVIDIAによれば3週間で構築が可能だという。

　さらにNVIDIAは、データセンターのショーケースとして構築している自社データセンター「NVIDIA DGX SATURNV」を拡張し、以前から設置されている1800台のDGXシステム（1.8EFLOPS：エクサフロップス）に加えて、4つのDGX A100 SUPERPOD（560台のDGX A100）を追加し2.8EFLOPSの処理能力を追加する。これにより、合計で4.6EFLOPSの演算能力を持つことになる。

NVIDIA DGX A100 SUPERPOD（出典：NVIDIA）

NVIDIA DGX SATURNV（出典：NVIDIA）

　NVIDIAによれば、DGX A100は既に出荷を開始しており、世界中の市場でNVIDIAのリセラーから販売される。市場想定価格は19万9000米ドルからとなっている。

NVIDIA、AmpereアーキテクチャのGPU「A100」を発表 従来比20倍のAI性能を実現

新Tensorコアを採用、サーバーアプライアンス「DGX A100」もリリース

Volta発表から3年を経て後継製品が発表、後継はAmpereアーキテクチャ

NVIDIA自社ブランドの「DGX」もA100を搭載したDGX A100へ進化

NVIDIA、AmpereアーキテクチャのGPU「A100」を発表　従来比20倍のAI性能を実現