ニュース
サイバーエージェント、大規模AI開発基盤の構築にIDCフロンティアの「高負荷ハウジングサービス」を採用
2023年9月29日 08:00
株式会社IDCフロンティアは27日、株式会社サイバーエージェントが、和製生成AI開発などの大規模AI開発基盤の構築に、IDCフロンティアのデータセンターで提供する「高負荷ハウジングサービス」を採用したと発表した。
サイバーエージェントは、2016年からインターネット広告事業でAIの研究開発を開始し、2020年には「極予測AI」などの、AIを活用したさまざまな効果予測プロダクトの提供と、AI解析を応用した広告関連プロダクトの研究・開発の強化を目的に、当時最新のGPU搭載システムである「NVIDIA DGX A100」を導入した。膨大なデータを高速・大量処理できるGPUは、CPUサーバーと比較すると多くの電力と高熱を発するため、GPUの運用経験を有していたIDCフロンティアの空冷空調方式のデータセンターでシステムを運用していた。
その後、サイバーエージェントは、2021年から大規模言語モデル(LLM)への取り組みを始めた。LLMのような大規模トレーニングでは、数週間単位で計算リソースを稼働させ続ける必要があり、従来基盤より強力な分散学習環境が必要となったことから、現在利用可能な商用製品で最上位のGPUとなる「NVIDIA H100 Tensor コア GPU」80基と、国内で初めてとなる「NVIDIA DGX H100」の導入を決定した。
80基のGPU搭載システムを安定稼働するには、従来のNVIDIA DGX A100が稼働していた空調方式のデータセンターでは、冷却性能と電力供給能力が不足していた。そのため、システムの設置と運用が可能なデータセンターの検討を新たに開始し、NVIDIA H100 Tensor コア GPU搭載のサーバー群が必要とする高電力の供給と、稼働時の高発熱を安定して冷却できる、IDCフロンティアの高負荷ハウジングサービスを採用するに至った。
高負荷ハウジングサービスを採用した理由として、サイバーエージェントでは、ラックあたりの供給電力が最大20kVAと大きく、NVIDIA H100 Tensor コア GPU搭載サーバーを1ラックに複数台設置が可能であったこと、冷却方法に大風量・高静圧のファンと冷却水を循環させる冷水コイルを組み合わせたリアドア型空調機を採用しており、高発熱機器でも安定した冷却能力を有していたこと、NVIDIA H100 Tensor コア GPU搭載サーバーにも対応した「オンサイト運用アウトソーシングサービス」により、現地の作業代行を依頼できることを挙げている。
サイバーエージェントは、NVIDIA H100 Tensor コア GPUが搭載されたサーバー群による分散学習環境を、GPU/HPCサーバーなど超高発熱機器に対応する高負荷ハウジングサービスで安定稼働させることで、国内最大規模のLLMで従来比2.57倍の処理性能の向上を実現しているという。