ニュース
NTT Com、IOWN APNの活用で分散データセンターによる生成AI学習の実証実験に成功
2024年10月7日 13:55
NTTコミュニケーションズ株式会社(以下、NTT Com)は7日、IOWN構想の主要技術であるオールフォトニクスネットワーク(APN)で接続した複数のデータセンターに、NVIDIA GPU搭載サーバーを分散配置した環境で、NVIDIA AI Enterpriseプラットフォームの一部である「NVIDIA NeMo」を用いた生成AIモデル学習の実証実験に、世界で初めて成功したと発表した。
NTT Comでは、生成AIやデータ利活用、画像処理などの分野でGPUクラスタの重要性が高まる中、サービス提供事業者や利用者にとって、従来は単一のデータセンター内でGPUクラスタを構築・利用することが一般的だと説明。しかし、単一のデータセンターでは、生成AIのモデルサイズ増大に伴う処理量の変動に応じて、オンデマンドにGPUリソースを入手できないことや、1拠点のデータセンターのキャパシティや電力供給に制限があること、利用者の拠点から移動できない機密度の高いデータの取り扱いが難しいことが課題だったという。
今回の実証により、IOWN APNを用いた分散データセンターにおける、GPUクラスタでの処理の有効性を確認することで、GPUクラスタ利用者や提供事業者の課題解決に貢献するとしている。
実証では、NVIDIA GPU搭載サーバーを、約40km離れた三鷹と秋葉原のデータセンターに分散配置し、データセンター間を100Gbps回線のIOWN APNで接続した。NVIDIA NeMoを使用して、両拠点のGPUサーバーを連携させ、生成AIモデルの分散学習を実施した。実証は、デル・テクノロジーズ株式会社によるGPUサーバーやストレージなどの機器提供および協力のもとで実施した。
IOWN APNの高速大容量・低遅延接続により、GPUサーバー間のデータ転送が迅速かつ効率的に行われ、小規模なAIモデルの事前学習や追加学習などの比較的軽量な処理に対して、単一のデータセンターと遜色ない性能を発揮できる。これにより、複数のデータセンター環境で柔軟にGPUクラスタを構築し、効率的なリソース利用を実現する。
分散学習に対応した大規模言語モデルの学習、カスタマイズ、展開のためのエンドツーエンドプラットフォームのNVIDIA NeMoを活用。今回の実証で扱ったLlama 2 7B以外のモデルなど、将来的にさまざまな生成AIの処理に対応できるとしている。
実証では、高速大容量・低遅延な接続を可能とするIOWN APNと、NVIDIA NeMoを組み合わせた環境で、生成AIのモデル学習(Llama 2 7Bの事前学習)を動作させることに成功した。
単一のデータセンターで学習させる場合の所要時間と比較して、インターネット経由の分散データセンターでは29倍の時間がかかるが、IOWN APN経由の分散データセンターでは1.006倍と、単一のデータセンターとほぼ同等の性能を発揮できることを確認した。
NTT Comでは、実証の成果をもとに、IOWN APNで接続された分散データセンターにおけるGPUクラスタの可能性をさらに広げ、国内70拠点以上のデータセンター間などを接続可能な「APN専用線プラン powered by IOWN」や、液冷方式サーバーに対応した超省エネ型データセンターサービス「Green Nexcenter」などを組み合わせた、GPUクラウドソリューションとして顧客へ提供を目指すとしている。