ニュース

NVIDIA、2022年に登場予定のArm CPU搭載サーバー向け認証プログラムを開始

笠原一輝

2021年6月1日 15:01

　半導体メーカーのNVIDIAは、6月1日13時（台北時間、日本時間は6月1日14時）から、同社 GeForce 部門シニアバイスプレジデント、ジェフ・フィッシャー氏、同社エンタープライズコンピューティング部門リーダーマニュビル・ダス氏によるComputex 2021基調講演をオンラインで実施。この中でNVIDIAは、新しいエンタープライズ向けの各種ソリューションを発表した。

　NVIDIAが今回発表したのは、4月のGTC 2021で発表した、DGX SuperPODと呼ばれるスーパーコンピューター群の上でAIの学習を実行していくクラウド経由のサービス「NVIDIA Base Command Platform」のアーリーアクセスを開始すること。夏には、有料プランとして一般提供が開始される計画だ。

　また、現在はNVIDIAとNetAppがホストしているクラウドサービス経由での提供となっているが、将来的にはAmazon Web Services（AWS）やGoogle Cloudなどのパブリッククラウド経由でもサービス提供される計画であることも明らかにされた。

　さらに、NVIDIAのエンタープライズ向けのソフトウェア開発環境である「NVIDIA AI Enterprise」を利用するためのハードウェア環境の認証プログラム「NVIDIA NVIDIA-Certified Systems」を、同社のDPUである「BlueField-2 DPU」にプログラムを拡張するほか、2022年には、NVIDIAのGPUとArmアーキテクチャのサーバーCPUを搭載したシステムに拡張する計画であることを明らかにした。

NVIDIAのハードウェア認定プログラムに、Arm CPUを搭載したシステムが来年から加わる（出典：COMPUTEX 2021 ENTERPRISE PRESS PRE BRIEFING、NVIDIA）

Base Commandのアーリーアクセスと今夏の一般提供開始が明らかに

　NVIDIAは4月に行われたGTC 2021において、エンタープライズ（大企業）をターゲットにした「NVIDIA Base Command Platform」（以下Base Command）を発表している。Base Commandは、NVIDIA GPUを搭載したスーパーコンピュータを利用することにより、大規模なAI開発をより短期間で効率よく行うためのサブスクリプションサービスとなる。
　Base Commandでは、NVIDIAのGPUサーバー（DGX A100）を20～140台のクラスタとして構成している「DGX SuperPOD」を、クラウド経由で利用して学習や推論を行う。またBase Command Managerと呼ばれる、DGX SuperPODのクラスタを管理する管理ツールも用意されており、そうしたツールを利用することで、GPUを利用したディープラーニングの学習や推論などのための演算を、高速にかつスケーラブルに行うことが可能になる。

　こうした特徴により、エンタープライズがAI開発自社のデータセンターにGPUサーバーを設置する場合よりも低コストで、かつ迅速に開発できるようになる。

NVIDIA DGX SuperPODはDGX A100を20～140のクラスターから構成されているスーパーコンピュータ。Base Commandではこれを演算装置としてクラウド経由で利用できる（提供：NVIDIA）

　今回のComputex Taipeiでは、クラウド経由でホストされたDGX SuperPODと、NetAppのフラッシュストレージを利用してAIの学習や推論を行うサービスのアーリーアクセス（ベータ版として特定顧客への提供）が、北米ですでに開始されており、今夏には有料のサブスクリプションサービスとして一般提供が開始されることが明らかにされた。

　NVIDIAによれば、NetAppのフラッシュストレージと組み合わせた有料サブスクリプションは9万米ドル（1ドル＝110円換算で、日本円で990万円）になる予定。

GTC 2021で構想が発表された、大企業向けにAI開発をクラウドベースで効率的に行えるサブスクリプション型サービス「NVIDIA Base Command Platform」のアーリーアクセスと、今夏の一般提供開始が発表される（出典：COMPUTEX 2021 ENTERPRISE PRESS PRE BRIEFING、NVIDIA）

　また、このBase CommandからのクラウドGPUの利用は、NVIDIAとNetAppが提供するDGX SuperPODのホストサービスだけでなく、パブリッククラウド事業者経由でも利用できるように計画されていることが明らかにされた。

　NVIDIAによれば、AWSのGPUを用いたAmazon SageMakerのマシンラーニング（機械学習）サービスを、Base Commandからシームレスに利用できるようになるほか、Google CloudのサービスであるGoogle Cloud Marketplaceでも、今年の末までにBase Commandが利用できるようになる予定。

Base Commandは今後Google CloudやAWS経由でも利用可能となる計画（出典：COMPUTEX 2021 ENTERPRISE PRESS PRE BRIEFING、NVIDIA）

NVIDIAの認定サーバーハードウェアプログラムをBlueField-2 DPU搭載サーバーに拡張

　そうしたエンタープライズ向けのサブスクリプションサービスの拡充と同時に、NVIDIAは既存のオンプレミス、企業内データセンター向けのAI開発ハードウェアの充実も実現していく。

　NVIDIAはAI環境のツール群として「NVIDIA AI Enterprise」を提供している。VMwareのvSphere環境の上に、GPU仮想化やCUDA-X、DOCAさらには各種AIのフレームワークなどをパッケージにしたソフトウエア環境。オンプレミスや自社データセンターにあるGPUサーバーとこのNVIDIA AI Enterpriseを組み合わせて利用することで、AI開発を始めるまでのリードタイムを削ることができるというのが特徴となっている。

NVIDIAが提供している、オンプレミスハードウェア上でAI学習や推論を行うためのソフトウエアスタック「NVIDIA AI Enterprise」（出典：COMPUTEX 2021 ENTERPRISE PRESS PRE BRIEFING、NVIDIA）

　NVIDIAは、そうしたNVIDIA AI Enterpriseが動作するサードパーティハードウェアの認定プログラムとして、「NVIDIA-Certified Systems」を用意している。企業がNVIDIA AI Enterpriseを利用してAIソフトウェアを開発する際に、「どのハードウェアを利用して良いかわからない」という声に応えるために用意された仕組みになる。

　あらかじめNVIDIA AI Enterpriseとの互換性などが確認されており、認証されたハードウェアを買ってくれば、NVIDIA自身の製品である「DGX」と同じように、NVIDIA AI Enterpriseを導入するだけで利用できるという環境を実現している。

　NVIDIA-Certified Systemsの対象は、DGXのサードパーティ版となるHGX、RTX世代のPCI Expressビデオカードを搭載したEGXなどがその対象で、すでにAdvantech、Altos、ASRock Rack、ASUS、Dell Technologies、GIGABYTE、Hewlett Packard Enterprise、Lenovo、QCT、SupermicroなどのOEMメーカーから販売されている、50を越えるシステムが認定されている。

NVIDIAのGPUサーバー認定プログラム「NVIDIA-Certified Systems」（出典：COMPUTEX 2021 ENTERPRISE PRESS PRE BRIEFING、NVIDIA）

　今回の発表ではそれに加えて、同社が2020年10月に発表した、DPU（Data Processing Units）と呼んでいるスマートNIC製品「BlueField-2 DPU」の搭載サーバーも、この秋から認定対象になることが明らかになった。

BlueField-2 DPUも認定の仕組みに加えられる（出典：COMPUTEX 2021 ENTERPRISE PRESS PRE BRIEFING、NVIDIA）

BlueField-2 DPU（提供：NVIDIA）

NVIDIA、データセンターのソフトウエア定義型ネットワークインフラを実現する「DPU」のロードマップを公開
DPU版CUDAといえる「DOCA」を提供へ
https://cloud.watch.impress.co.jp/docs/news/1280964.html

　BlueField-2 DPUを搭載したGPUサーバーは、ASUS、Dell Technologies、GIGABYTE、QCT、Supermicroなどが提供する予定になっており、搭載したHGXやEGXを利用することで、より高性能なGPUクラスタを構成することが可能になる。

2022年にはArm NeoverseコアCPUを搭載したサーバーにも認定プログラムを拡大

　またNVIDIAは、ArmアーキテクチャのCPUとNVIDIA GPUを搭載したGPUサーバーも、2022年からNVIDIA-Certified Systemsの認定対象となる計画を明らかにした。

NVIDIA-Certified Systemsの認定対象に、2022年にはArm NeoverseベースのArm CPUも対象になる（出典：COMPUTEX 2021 ENTERPRISE PRESS PRE BRIEFING、NVIDIA）

　現状のDGX（NVIDIA自社ブランドのGPUサーバー）、HGX（サードパーティーブランドのGPUサーバー）、EGX（PCI ExpressカードベースのGPUサーバー）などのCPUは、いずれもx86アーキテクチャとなっている。つまりIntelやAMDのCPUが搭載されており、NVIDIA AI Enterpriseのソフウェア環境もx86プロセッサを前提に構築されている（例えば、VMware vSphereはx86版のみが提供されている）。

　しかしNVIDIAは、4月のGTC 2021において、開発コードネーム「Grace」（グレース）と呼ばれるArmアーキテクチャのCPUを、2023年から提供を開始することをすでに発表している。

　このため、近い将来にNVIDIA AI Enterpriseやそれを利用したサーバーハードウェアの方もArmプロセッサに対応して、ArmプロセッサとNVIDIA GPUの組み合わせでAI学習を行う、といった環境を整える必要があるといえる。

NVIDIA、Armベースのデータセンター向けCPU「Grace」投入を表明
現在のx86ベースのCPUと比較して10倍の性能を発揮
https://cloud.watch.impress.co.jp/docs/news/1318150.html

　NVIDIAは、昨年ソフトバンクグループから買収することを明らかにした（現在規制当局の承認待ち）Arm社が、IPデザイン（半導体の設計図のこと）として半導体メーカーに提供しているNeoverseを採用したArm CPUと、NVIDIA GPUないしはBlueField-2 DPU、あるいはその両方を搭載したサーバーを、GIGABYTEとWiwynnという2つの台湾のサーバーODMが開発しており、それがNVIDIA-Certified Systemsの認定対象になると説明した。2022年から投入されるという。

　なおGIGABYTEとNVIDIAは、「Arm HPC Developer Kit」というArm CPUベースのHPCの開発キット（ハードウェアとソフトウェア）を今後共同で開発し、提供していく計画とのこと。Ampere Computingが提供するAmpere Altraプロセッサと2つのNVIDIA A100 GPU、2つのBlueField-2 DPUから構成されているシステムとなる。

GIGA-BYTEと共同開発した、Ampere Altra（Arm CPU）、NVIDIA A100 GPU×2、BlueField-2 DPUx2という「Arm HPC Developer Kit」を提供していく（出典：COMPUTEX 2021 ENTERPRISE PRESS PRE BRIEFING、NVIDIA）

　これは、明日にでもNVIDIAがホストCPUをx86からArmに変えるというたぐいの話ではなく、NVIDIAの担当者自身も現状ではサーバーでのホストCPUはx86が主流であり、それが明日にいきなりArmになるということではないと認めている。

　実際、NVIDIAはGraceを2023年に投入すると発表した時にも、依然としてメインストリームはx86で、Graceは超ハイエンドのニッチ市場向けだと説明している。現在のNVIDIA AI EnterpriseのHypervisorが、x86のみをサポートするVMware vSphereであることはすでに述べたとおりで、そうしたソフトウェア側の対応も徐々に進めていく必要がある。

　その意味では、NVIDIAのArm CPUのサポートはもっと長期的な取り組みととらえた方がいいだろう。今回の発表は、そうした長期にわたる緩やかなArmへの移行を目指す取り組みの第一歩、と位置づけることができるだろう。