クラウド&データセンター完全ガイド:イベントレポート

アリババクラウドのグリーン技術と生成AIへの取り組み

データセンター・イノベーション・フォーラム2024 オープニング基調講演レポート

 データセンター・イノベーション・フォーラム プログラム委員会とインプレスは、社会的なインフラとなっているデータセンターの今後の方向性を展望するイベント「データセンター・イノベーション・フォーラム2024 オンライン」を、2024年12月5日~6日に開催した。

 データセンター・イノベーション・フォーラムは、データセンター/クラウド基盤サービス事業者に加えて、ゼネコン、サブコン、設計会社、不動産会社や自社でデータセンターを保有するユーザー企業など、データセンター事業に関わる各事業者を参加対象としたイベントとして、毎年開催している。

 通算で33回目となる今回の「データセンター・イノベーション・フォーラム2024 オンライン」は、「生成AIの進化とともに重要度がさらに増すデータセンター。そのあるべき姿と課題を探る」と題して、AI用途などで高消費電力化・高発熱化するサーバーの冷却に対応するソリューションや、コンテナ型データセンター、大手クラウドサービス事業者の動向など、多数のセッションが行われた。ここでは、アリババクラウド・ジャパンサービス(以下、アリババクラウド)の与謝野正宇氏が登壇した、オープニング基調講演の模様を紹介する。

アリババクラウド・ジャパンサービス デピュティ カントリー マネジャーの与謝野正宇氏

 液浸によるサーバー冷却は高効率だが、さまざまな課題があり大規模に導入されている例は少ない。そんな中で、アリババクラウドは2017年から大規模に導入している。セッションでは、7年間の運用から見えてきた知見と、生成AIのモデルをas a Serviceで提供することで電力消費を抑制するMaaSのコンセプトについて、アリババクラウド・ジャパンサービスの与謝野正宇氏(デピュティ カントリー マネジャー)が説明した。

液浸を大規模導入したアリババクラウド

 アリババクラウドは、アリババグループのデジタルテクノロジーとインテリジェンスの中核を担う、先進的なパブリッククラウドサービスプロバイダーであり、クラウドコンピューティングやAIを含む最先端のソリューションを提供している。28の地域と85のアベイラビリティゾーンでサービスを提供しており、世界のIaaS市場において約10%のシェアを占め、世界第3位にランクされている。さらに、アジア太平洋地域におけるIaaSプロバイダーとして第1位を誇り、中国市場でもトップの地位を確立している。

 アリババクラウドはIaaS/PaaS/SaaSのさまざまなサービスを提供している。最近では、2024年パリオリンピックのクラウドインフラ、クラウドサービス、ECプラットフォームに関する独占的パートナーシップをIOCと締結した。

 これまでオリンピック関連のシステムはオンプレミスで構築され、オリンピック開催のたびに作り直していた。しかし、「今回はクラウド上に構築したので、構築されたものをコードとして保存し、次回も同じコードを使用すれば環境を簡単に再現できる」と与謝野氏は言う。

 また、生成AIによって、新たなエネルギー課題が生じている。「生成AIシステムは、これまでの33倍のエネルギーを使用する」「AIの開発を維持するための計算能力は、およそ100日ごとに倍増している」「AIタスクの実行に必要なエネルギーは、すでに年間26%から36%の成長率で加速している」「データセンターのすぐ近くに原子力発電所を作り、データセンターがその電力を優先的に使用する」など、生成AIと電力に関するさまざまなデータやニュースが出ている。

 それに対応するアリババクラウドのテクノロジーがいくつかあり、2024年のカンファレンスで次世代データセンター「CUBE DC 5.0」を発表した。

次世代データセンター「CUBE DC 5.0」

 先述の通り、アリババクラウドは液浸技術を活用したクラウドインフラで、2017年から大規模に利用し始めている。仕組みとしては、横倒しのサーバーラックの中にフッ素系の液体が入っていて、そこにサーバーを浸けて冷やすというもの。

液浸技術を活用したクラウドインフラ

 液浸は、冷却効率がよく高密度に設置可能というメリットがあることは以前からよく知られている。また、可動部であるファンがない、空気に触れないのでほこりがつかないなど、故障原因が排除されているので、故障率が極めて低い。

 一方で、以下のような点はデメリットと考えられていた。このため、液浸自体は新しい技術ではないが、今まで大規模な利用があまりなかった。しかし、これらの課題はほぼ解決できることが実証されたと与謝野氏は言う。

①特殊な設備なので導入コストが高い
②液浸専用のサーバーを設計する必要があるため、サーバー自体の価格が高い
③通常サーバーとは別の、特別な技術サポートが必要
④冷却液のメンテナンスが大変(なのではないか)
⑤長期的な信頼性が不明確
⑥サーバーの修理や交換が難しい

 上記のうち①~③については、IaaSのように同じ環境を大規模に導入するのであれば、規模の経済が働いてある程度解決される。また、④の冷却液のメンテナンスについては、「アリババが約7年にわたりシステムを運用してきた経験から、時間やコストを効率的に管理し、大きな手間をかけずに対応できる」(与謝野氏)という。⑤の信頼性についても、7年間運用してきたので問題なさそうだ。

 冷却液の中からサーバーを取りだして修理や交換をするため、⑥の問題は確かにある。ただし、アリババではサーバーの設計段階からさまざまなセンサーを組み込んでおり、データを収集・分析している。これにより故障予測をして、故障の危険性のあるサーバーについては、VMをホットマイグレーションで別の物理ホストに移動させる。そして、月に一度の定期メンテナンス時に、壊れたサーバーを一気に交換することで、⑥の問題を回避できる。

 「クラウドと液浸は相性がいい。初期コストは若干高いが、運用コストは極めて低いという結論になった」(与謝野氏)

 その他、省エネルギーへの取り組みとしては「エネルギー・エキスパート」という、二酸化炭素排出を追跡するSaaSソリューションを提供している。企業の炭素排出量を測定・分析し、改善案を提案するものだ。

AIの学習に特化したIaaS

 AIの取り組みに関しては、アリババは生成AIがブームになる以前からさまざまな分野でAIを活用している。例えば、コールセンター業務の85%はAIでまかなっているし、画像検索やレコメンドエンジンは昔から使っている。最近はLLMにも取り組み、AIのためのインフラからサービスまで、さまざまなサービスを提供している。

包括的なAIソリューションを有するアリババクラウド

 IaaS/PaaSとSaaSの間に、MaaSというレイヤのサービスを提供しているのが特徴だが、これはModel as a Serviceのこと。下位レイヤから順番に解説しよう。

 AIには学習(training)と推論(inference)の2つのフェーズがある。大量の学習データの統計的分布から特徴の組み合わせパターン(model)を作り出すプロセスが学習。この時、多数のGPUが必要になる。

 ただし、物理ホストをたくさん並べると、ホスト間の通信がボトルネックになり、性能が上がらない。それを解決する方法として、アリババクラウドはネットワークやストレージを最適化し、たくさんのホストを並べても性能が下がらないソリューションを作った。それが、「PAI-Lingjun」というIaaSだ。

IaaS PAI-Lingjun Intelligent Computing Service

 これによって、以下のようなメリットが得られるという。

①クラウドサービスの利用時間が短い(=コストが安い)
②ビジネスサイクルが速くなる

 「AIの業界では、速くビジネスサイクルを回すのが重要なポイント」(与謝野氏)

 PaaSの部分では、学習の際の「データの準備」から「モデルの開発」「トレーニング」「モデルをサービスとしてデプロイする」という4つのパーツを全部そろえている。

PAI: AI開発プラットフォーム

モデルを提供することでエネルギー消費削減に貢献

 アリババクラウドは、MaaSというコンセプトを提唱している。AIでは、モデルを作る学習の際に、大量の処理が発生し電力を消費する。それなら、既に構築されているモデルをファインチューニングして活用すれば、その分エネルギー消費を減らせるという考え方だ。

 アリババクラウドでは、LLMとマルチモーダルの2つの基礎モデルの上にさまざまなカスタマイズツールを用意し、各インダストリーのモデルを提供している。現在、中国で展開しているサービスだが、海外でも順次展開するとのこと。

MaaS

 提供されるモデルの中には、オープンソースのものもある。オープンソースのモデルはサイズが小さいことが多く、小さなモデルは必要とするリソースも小さい。適材適所で大きいモデルと小さいモデルを組み合わせて利用することは、省エネルギーに役立つ。簡単な処理は、大規模なモデルではなく小さなモデルで処理すれば、その分エネルギー消費も減るからだ。

 AIは高度化と普及が進むまっただ中にあり、その恩恵を確かに享受している。一方で、大量のエネルギーが必要で環境負荷増大につながる。このような相反する要素をバランスよく進めることが求められている。

 アリババグループとしても、以下の取り組みを行っている。

  • 効率的なデータセンターの構築
  • エネルギー利用の最適化
  • AIのトレーニングおよび推理利用における効率性の向上

 グリーンデータセンターの取り組みとしては、2024年度のアリババクラウドの自社構築データセンターの平均PUE値は1.200で、2023年度の1.215から低下している。液浸のデータセンターのPUEは1.09を達成した。また、中国北部は、冬になると集中床暖房システムを利用するが、データセンターの廃熱をその暖房の熱源として再利用するというプロジェクトを実施している。

 与謝野氏は、「データセンターとAI業界全体で、より環境に配慮した取り組みが今後ますます重要となる」とまとめた。