ニュース
NTT Com、3拠点のデータセンターに分散配置したGPUクラスタによるLLMの学習実験に成功
2025年3月19日 14:49
NTTコミュニケーションズ株式会社(以下、NTT Com)は19日、IOWN構想の主要技術であるオールフォトニクスネットワーク(APN)で接続した、3拠点のデータセンターにNVIDIA H100 GPUサーバーを分散配置した環境で、NVIDIA AI Enterpriseソフトウェアプラットフォームの一部である「NVIDIA NeMo」を用いた、NTT版大規模言語モデル(LLM)「tsuzumi」の学習実証実験に世界で初めて成功したと発表した。
NTT Comでは、生成AIやデータ利活用の進展に伴ってGPUクラスタの重要性が増しているが、単一のデータセンターでは、生成AIのモデルサイズ増大による処理量の変動やリソース確保の制約、データセンターごとのキャパシティや電力供給の制限に応じた運用が求められるなど、さまざまな課題が存在すると説明。
この課題に対して、NTT Comは三鷹と秋葉原の2拠点のデータセンター間で、APNによるGPUクラスタの実効性を検証し、その効果性を確認してきた。2拠点から3拠点、さらには多数のデータセンターへと分散を進めることで、余ったGPUサーバーを再利用するような最適なGPUリソースの配置がより実用的になり、各地域のデータセンターを活用して複数の拠点でコンピューティングを分散することで、電力コスト削減と持続可能な運用を実現するとしている。
今回の実証では、Point-to-Pointで接続された分散データセンターの数を、これまでの2拠点から、川崎を加えた3拠点へと拡張した。これにより、その土地の電力供給量や値段に応じて、顧客の要望に合わせた複数の運用パターンを選択できるようになるなど、計算基盤の運用に新たな柔軟性が生まれると説明。また、ネットワークの観点からも、距離の近い拠点同士でのより低遅延なワークロードや、遠距離の拠点同士での電力効率を意識したワークロードなど、ユーザーの特性に応じた分散学習や推論など、スケジューリングの可能性を実感できる構成になるとしている。
実証では、NVIDIAアクセラレーテッドサーバーを、それぞれ約25~50km離れた川崎、三鷹、秋葉原の3拠点のデータセンターに分散配置し、データセンター間を100Gbps回線のIOWN APNで接続した。NVIDIA NeMoを使用して、3拠点のGPUサーバーを連携させ、tsuzumiモデル 7Bの分散学習を実施した。
実証は世界で初めて、3拠点のデータセンターをIOWN APNでつなぎ、NVIDIA NeMoを組み合わせた環境で、生成AIのモデル学習(tsuzumi 7Bの事前学習)を動作させることに成功した。単一のデータセンターで学習させる場合の所要時間と比較して、インターネットを想定して帯域制限を実施したTCP通信の分散データセンターでは9.187倍の時間を要したが、IOWN APN経由の分散データセンターでは1.105倍と、単一のデータセンターとほぼ同等の性能を発揮できることが確認できたという。
NTT Comでは、今回の実証に引き続き、社会産業を支えるデジタルインフラを目指し、日本全国での分散データセンターの配置を見越した、拠点数の増加と距離延伸の実証と、APNで接続された分散データセンターにおける通信方法やGPUリソースの最適化検証という2つの観点から実証を進めていくとしている。
また、実証の成果をもとに、IOWN APNで接続された分散データセンターにおけるGPUクラスタの可能性をさらに広げ、国内70拠点以上のデータセンター間や顧客ビルなどを接続可能な「APN専用線プラン powered by IOWN」や、液冷方式サーバーに対応した超省エネ型データセンターサービス「Green Nexcenter」などを組み合わせたGPUクラウドソリューションとして、顧客へ提供を目指すとしている。