ニュース
NVIDIA、AmpereアーキテクチャのGPU「A100」を発表 従来比20倍のAI性能を実現
新Tensorコアを採用、サーバーアプライアンス「DGX A100」もリリース
2020年5月14日 22:05
半導体メーカーの米NVIDIAは5月14日22時(日本時間)から、当初は3月に予定されていたが延期されていた同社のプライベートカンファレンスGTC 2020の基調講演を開催している。
この基調講演では、同社CEO ジェンスン・フアン氏による多数の発表が行われる予定になっているが、NVIDIAはそれに先だって報道発表を実施。新GPUアーキテクチャ「Ampere(アンペア、開発コード名)」ベースのデータセンター向けGPU「NVIDIA A100 GPU」(以下、A100)を発表した。
NVIDIAによれば、A100はFP32(単精度の浮動小数点演算)演算時に、Tensorコアの新しい演算方式を利用することで、312TFLOPS(テラフロップス)を実現。従来製品「Tesla V100(開発コード名:Volta)」のFP32演算時の性能である15.7TFLOPSと比べ、約20倍(19.87倍)の性能を実現しているという。
NVIDIAによればA100はすでに大量生産が開始されており、発表と同時に世界各国で販売が開始される。
またNVIDIAは、A100を搭載したサーバーアプライアンスとして「NVIDIA DGX A100」(以下、DGX A100)を発表した。NVIDIAはTesla V100の発表時(2017年)にDGX-1(ディージーエックスワン)と呼ばれるAI学習向けのサーバーアプライアンスを提供開始しており、その翌年に、性能を強化したDGX-2を発表していたが、今回発表されたDGX A100はその後継となる。市場想定価格は19万9000ドルで、世界各国のNVIDIAリセラーを経由して販売される。
Volta発表から3年を経て後継製品が発表、後継はAmpereアーキテクチャ
AI、特にマシンラーニング(機械学習)/ディープラーニング(深層学習)の学習向け半導体市場をリードしているNVIDIAでは、2017年にVoltaと呼ばれるGPUアーキテクチャを発表し、それに基づいたデータセンター向けのGPU製品としてTesla V100を発表し、出荷を開始した。
Tesla V100は、以前からNVIDIAがCUDAコアとして提供してきた並列演算用の演算器に加えて、Tensorコアと呼ばれるAIに特化した演算器を加えることで、AIの学習(Training)/推論(Inference)時の高い演算性能を実現していた。
複数のSKUがあるが、一般的なバージョンとなるNVLink向け製品の場合は、倍精度浮動小数点演算(FP64)で7.8TFLOPS、単精度浮動小数点演算(FP32)で15.7TFLOPSなどの性能を実現しており、CPUを利用した場合に比べて高いAIの処理能力を実現している点が特徴となっていた。
今回発表されたAmpereアーキテクチャのA100は、NVIDIAが第3世代のTensorコアと呼ぶ新しいTensorコアを採用しており、ソフトウェアを改変する必要なく、「TF32」と呼ばれる、FP32とFP16のハイブリッド方式でFP32演算を行える仕組みを採用しており、同演算時の性能が大きく向上している(通常のFP32時の性能は19.5TFLOPS)。
NVIDIAによれば、A100のFP32時のスループットは、TF32と「Structural sparsity」という密行列(Dense Matrix)を疎行列(Sparse matrix)に置き換えて演算する新しい方式を有効にした状態で、312TFLOPSに達しており、従来のVolta V100(NVLink)と比較して約20倍(19.87倍)の性能を実現するという。
同様に、推論時の性能も1248TOPsに達しており、こちらもVolta V100に比較して20倍だとNVIDIAでは説明している。なおFP64に関しては19.5TFLOPSで、Volta V100の7.8TFLOPSに比較して2.5倍になる。
そのほかにも、A100はマルチインスタンスGPUという仕組みを採用しており、1つの物理的なGPUを7つのインスタンスに分割して使うことができる。これにより、GPUのリソースをより有効活用可能で、システム全体の性能を引き上げられる。また、GPUとGPU、GPUとCPUを接続するためのインターコネクトとなるNVLinkの帯域幅も2倍(600GB/秒)に引き上げている。
NVIDIAによれば、A100はTSMCの7nmプロセスルール(7N)で製造され、540億トランジスタというモンスターチップで、「7nmで製造される半導体としては世界最大」のダイサイズ(826平方mm)になっているという。モジュール上に搭載されているメモリは40GB(Samsung HBM2メモリ)で、モジュール全体の最大消費電力は400W。
すでにNVLinkに対応した最初の製品の大量生産が開始されており、Amazon Web Services(AWS)、Baidu、Google Cloud、Oracle、Tencent Cloudなどのパブリッククラウド事業者や、富士通、Dell Technologies、HPE、Lenovoなどのサーバーベンダーからも出荷が予定されている。
さらに、GIGABYTEやSupermicroなどのODMメーカーからも出荷が予定されているほか、HGX A100と呼ばれるリファレンスデザインも提供される予定。
NVIDIA自社ブランドの「DGX」もA100を搭載したDGX A100へ進化
また、NVIDIAはA100を採用した自社ブランドのサーバーアプライアンス「DGXシリーズ」の新製品としてDGX A100を発表した。DGX A100は、2017年のTesla V100の発表と同時に発表されたDGX-1(Tesla V100を8基搭載)、その翌年に発表されたDGX-2(Tesla V100を16基搭載)に次ぐ製品となる。
DGX A100は、A100を8基搭載した製品になる。A100はモジュールあたり40GBのメモリを搭載しているので、DGX A100全体では320GBのGPUメモリが利用可能で、昨年NVIDIAが買収したことを発表したMellanox社のMellanox HDR 200Gbpsインターコネクトを備えている。
前述の通り、A100は1つのGPUで7つのインスタンスに分割することができるため、システムあたり56のインスタンスを利用可能になる。また、合計で15TBの内蔵ストレージ(NVMe)がPCI Express Gen 4で接続されている。
NVIDIAは、このDGX A100を140台クラスターとしてMellanox HDR 200Gbps InfiniBandで相互に接続して700P FLOPSの演算性能を実現したクラスターサーバー群「NVIDIA DGX A100 SUPERPOD」の構想も明らかにした。NVIDIAによれば3週間で構築が可能だという。
さらにNVIDIAは、データセンターのショーケースとして構築している自社データセンター「NVIDIA DGX SATURNV」を拡張し、以前から設置されている1800台のDGXシステム(1.8EFLOPS:エクサフロップス)に加えて、4つのDGX A100 SUPERPOD(560台のDGX A100)を追加し2.8EFLOPSの処理能力を追加する。これにより、合計で4.6EFLOPSの演算能力を持つことになる。
NVIDIAによれば、DGX A100は既に出荷を開始しており、世界中の市場でNVIDIAのリセラーから販売される。市場想定価格は19万9000米ドルからとなっている。