ニュース

NVIDIA、分散データセンターを接続してAIスーパーファクトリーを実現する「Spectrum-XGS Ethernet」を発表

 米NVIDIAは現地時間22日、分散型データセンターを統合し、ギガスケールの“AIスーパーファクトリー”を実現するスケーラブル技術「NVIDIA Spectrum-XGS Ethernet」を発表した。

 NVIDIAでは、AIの需要が急増する中、個々のデータセンターは単一の施設内での電力と容量の限界に直面しており、これを拡張するには単一の施設を超えるスケールアウトが必要だが、既存のイーサネットネットワークインフラでは遅延とジッターが高く、パフォーマンスが予測不可能という制約を受けてしまうと説明する。

 Spectrum-XGS Ethernetは、NVIDIA Spectrum-X Ethernetプラットフォームに追加された画期的な技術で、スケールアクロスインフラを導入することで、これらの制約を解消する。Spectrum-XGS Ethernetは、スケールアップとスケールアウトを超えたAIコンピューティングの第3の柱として機能し、優れたパフォーマンスとスケールを拡張することで、複数の分散されたデータセンターを相互に接続して、ギガスケールのインテリジェンスを可能にする大規模なAIファクトリーを形成するように設計されている。

 NVIDIAの創業者/CEOであるJensen Huang氏は、「AI産業革命が到来し、大規模なAIファクトリーは不可欠なインフラです。NVIDIA Spectrum-XGS Ethernetにより、スケールアップとスケールアウトの機能にスケールアクロス機能を追加し、都市、国、大陸を超えてデータセンターを巨大なギガスケールのAIスーパーファクトリーに接続することが可能になりました」と述べている。

 Spectrum-XGS Ethernetは、Spectrum-Xプラットフォームに完全に統合されており、データセンター施設間の距離に応じてネットワークを動的に適応させるアルゴリズムを搭載している。

 距離に応じて高度に自動調整される輻輳(ふくそう)制御、精密な遅延管理、エンドツーエンドのテレメトリーを搭載したSpectrum-XGS Ethernetは、NVIDIA Collective Communications Library(NCCL)の性能を約2倍に向上させ、マルチGPUとマルチノード通信を高速化し、地理的に分散したAIクラスター全体で予測可能なパフォーマンスを実現する。その結果、長距離接続に対して完全に最適化され、複数のデータセンターを単一のAIファクトリーとして運用できるとしている。

 ハイパースケール分野の先駆者であるCoreWeaveもこの新たなインフラを採用する企業の一つで、Spectrum-XGS Ethernetでデータセンターを接続する最初の企業の一つになるという。

 Spectrum-X Ethernetネットワーキングプラットフォームは、世界最大のAIスーパーコンピューターを含むマルチテナントのハイパースケールAIファクトリーに、市販のイーサネットと比較して1.6倍の帯域幅密度を提供すると説明している。NVIDIA Spectrum-XスイッチとNVIDIA ConnectX-8 SuperNICで構成されており、AIの未来を構築する企業にスムーズな拡張性、超低遅延、画期的なパフォーマンスを提供するという。

 また、今回の発表は、NVIDIA Spectrum-XやNVIDIA Quantum-Xシリコンフォトニクスネットワークスイッチを含む、NVIDIAのネットワーキングイノベーションの発表に続くもので、これにより、AIファクトリーではサイト間で数百万台のGPUが接続されるとともに、エネルギー消費と運用コストが削減されるという。