特集
増え続けるデータセンターの熱や消費電力問題の救世主になる?、KDDIの液浸データセンター
2023年3月28日 06:15
KDDI株式会社(以下KDDI)は、3月6日に報道発表を行い、三菱重工業株式会社(以下三菱重工)およびNECネッツエスアイ株式会社(NECネッツエスアイ)と共同で行ってきた「液浸データセンター」のPoC(Proof of Concept、コンセプトが実現できるかを確認する実証実験のこと)を行い、冷却に利用する電力の94%を削減できたと発表した。
データセンター事業者であるKDDIがこうした取り組みを行うには、2つの技術的な背景がある。1つにはCPUやGPUの消費する電力が一世代ごとに上がり続けており、もはや空冷では放熱を行うには限界が近づいているからだ。例えば昨年の11月に発表されたAMDの「第4世代EPYCプロセッサー」(以下、第4世代EPYC)では360W、本年の1月に発表されたIntelの「第4世代Xeonスケーラブル・プロセッサー」(以下、第4世代Xeon SP)では350Wという熱設計消費電力の枠(TDP)が設定されており、それに合わせて実際に消費する電力も多くなる一方だ。
もう1つは、そもそもデータセンターが消費する消費電力が増え続けており、持続可能なデータセンターを目指すには限界が来つつあることへの対策が求められているためだ。業界のリーダーによれば既に世界中のデータセンターが消費している電力は、全世界の消費電力4%に達しており、持続的成長を目指すにはより低消費電力のソリューションが必要になってきている。
そうした中で注目を集めているのが、そもそもサーバー機器を液(具体的にオイル)に浸してしまい、その熱を液に伝導し、液自体や液から水に伝導させた熱を冷やす「液浸」(えきしん)と呼ばれるソリューションだ。KDDIが取り組んでいる液浸データセンターは、同社が栃木県小山市に開設している「小山ネットワークセンター」で実証実験が行われており、実証実験ではより効率的なサーバー冷却を行うことが可能になり、データセンター全体の消費電力を減らすことにも成功している。
KDDIは、自社の一般消費者サービス「au」としての顔、CSPとしての顔という2つの側面でデータセンターを運営
KDDIと言えば、「au」ブランドで携帯電話事業を行う通信事業者としての顔がよく知られているだろう。もともとは1953年に設立された国際電話事業を行っていたKDD(国際電信電話株式会社)、1984年に設立された有線や携帯電話通信事業を行っていた第二電電企画株式会社(のちの第二電電)、携帯電話事業を行っていた日本移動通信株式会社などが、2000年に合併して現在のKDDIがスタートした形になる。このため、有線の電話事業、携帯電話事業、国際電話事業など電話関連の事業が長らく事業の中心だったが、現在はauブランドの携帯電話事業に加えて、さまざまなインターネット関連の事業を展開しており、今や日本を代表するIT企業の1つといっても過言ではないだろう。
そうしたKDDIにとってデータセンター事業には2つの顔がある。1つは自社の一般消費者向けの事業である、auブランドの携帯電話事業に関連したサービスを展開する上で必要なデータセンター事業だ。例えば、auが販売しているスマートフォン向けに何かのサービスを提供する時には、クラウド側にそのサービスを展開するリソース(具体的にはCPU/GPUなどのプロセッサやストレージなど)が必要になるのだ。
さらに、今後5Gを裏側で支えるバックエンドの機器は、従来の固定機能を持つ専用機から、ソフトウェア+汎用プロセッサの組み合わせに移行が始まっている。契約者の情報などを管理する「コアネットワーク」、基地局などの無線部分を制御するRAN(Radio Access Network)のいずれもソフトウェア+汎用プロセッサへの移行が始まっており、世界中の通信キャリアでコアネットワークに関してはほぼ移行を終えつつある段階だ。RANに関しても、vRANと呼ばれる仮想化技術を利用したRANへの移行が始まっている状況で、KDDIも本年の1月にvRANの商用展開を開始したことを明らかにしており、2024年からの本格展開を目指している。
また、KDDIは国内のIT事業者として法人向けにさまざまなサービスを提供している。つまりCSP(クラウド・サービス・プロバイダー)として、SaaSやIaaS、IoTのサービス基盤などさまざまなパブリック・クラウド・サービスを提供している。IDCの発表によれば、「2021年~2026年の年間平均成長率(CAGR:Compound Annual Growth Rate)は20.8%で推移し、2026年の市場規模は2021年比約2.6倍の4兆2,795億円になる」と予測されており、2桁成長が常時実現されるCSP事業は、KDDIのみならずとも重要な事業になるのは明白だ。
このように、KDDIにとってデータセンターを充実させていくことは、中核事業である携帯電話事業のみならず、今後の成長市場と考えられるCSP事業向けにも重要になってくるのだ。
「データセンターだけで世界の電力消費の4%」および増え続けるCPU/GPUの消費電力という課題を解決する技術が求められている
そうしたKDDIにとって、データセンターを展開していく上で大きな悩みになっていたのが、消費電力だ。データセンターの消費電力は今や大きな社会課題の1つになりつつある。なぜかと言えば、年々データセンターの消費電力は増大を続けているからだ。Intelが1月に開催した第4世代Xeon SPの発表会では、ゲストとして登壇したNVIDIAのジェンスン・フアンCEOが「データセンターの消費電力は、5年前には全世界の電力消費の1%だったのに、今は4%の消費電力を占めている」と述べるなど、業界を挙げて消費電力の削減を実現していかなければ持続的な成長が望めないような状況になりつつあるのだ。特に欧州ではウクライナ紛争の影響で、エネルギー危機が発生しており、日本に住んでいるわれわれには創造できないほど深刻な問題だととらえられている。
もちろん、そうした状況が発生しているのも、データセンターの演算性能がより求められるようになったからだ。具体的には、COVID-19のパンデミックが発生したことで、世界中でPCやスマートフォンを利用したDX(デジタルトランスフォーメーション)がおき、それに比例してデータセンターに必要とされる処理能力が上がったためだ。そうしたニーズがあればこそ、AMDやIntelといったCPUメーカーも少しでも処理能力が上がるように、TDP(熱設計消費電力)の枠を上げる決定をしている。TDPを上げるとピーク時の消費電力は増えるが、ピーク性能を上げられるという効果がある。
しかしそうなると、熱設計と呼ばれる、CPUやGPUの熱を外に逃がす設計がより難しくなる。そうした熱設計を行うのは、サーバー機器ベンダーだが、従来のCPU向けには機器ベンダはヒートシンク+ファンといういわゆる「空冷」を利用して、排熱を行ってきた。しかし、AMDの第4世代EPYCは360W、Intelの第4世代Xeon SPは350Wと、トップSKUに関しては従来に比べてTDPが引き上げられており、そうした製品では空冷で冷やすのは限界を迎えつつあるのだ。また、空冷のもう1つの問題点は、そのファンを回すための電力にある。これが結構な電力量を消費してしまうため、システム全体の消費電力、さらに言えばデータセンター全体の消費電力が増えてしまうという課題があるのだ。
そのため、現在サーバー機器ベンダーが熱心に取り組んでいるのが「水冷(液冷)」だ。水冷は簡単に言えば、CPUに設置するヒートシンクと、ラジエーターの間に水を循環させ、ヒートシンクの熱を水に熱交換し、その水をラジエーターの内部を循環させることで冷却し、ヒートシンクに戻して排熱を行う仕組みになっている(水が液であれば「液冷」になるが基本的な構造は同じ)。この水冷は空冷に比べると効率が良く、ファンも空冷ほどは回さないで済むので、電力効率が高いというメリットがある。
今回KDDIがやっている液浸は、その水冷をさらに一歩進めて、液(具体的には冷却用のオイル)にサーバー機器自体を浸して、それによりサーバー機器全体を冷やすことで、冷却を実現する仕組みだ。液の中に電子機器を入れても大丈夫なのか?と直感的には感じるところだろうが、液として利用されるオイルには通電性がないため、それこそサーバーの基板にその液をこぼしたとしても何の問題もなく動き続けられるほどなので、機器自体を浸しても問題ないのだ。
KDDI株式会社 ソリューション事業本部 DX推進本部 プラットフォーム技術部 エキスパート 加藤真人氏は「最大の狙いはデータセンター全体の消費電力の削減だ。空冷ではファンを動かす消費電力があまりに大きく、それがデータセンター全体で無駄な電力を消費する要因の1つになっていた。そこで、水冷よりもさらに一歩前進している液浸にチャレンジし、自社でそれを検証する場を設けることで、現場で何が起こっているのかを確認したいと考えた」と説明。増え続けるCPU/GPUなどのTDPに対処し、かつよりグリーンで、持続成長が可能なデータセンターを実現するために液浸冷却の技術を確立するために、今回の取り組みを行っているのだと説明した。
第3段階の実証実験では実際のデータセンターをもした実験が行われる
今回、KDDIが実証実験で重視してきたのは、PUE(Power usage effectiveness)という数値だ。PUEはデータセンター全体の消費電力量(kWh)÷IT機器の消費電力量(kWh)という式で導き出される数値で、要するにCPUやGPUやメモリ、ストレージなどの半導体が消費する消費電力の合計で、データセンター全体の消費電力を割ったものになる。これが1に近づけば近づくほど、プロセッサと基板の消費電力の合計とデータセンター全体の消費電力がイコールになっている、つまりファンなどを回すために無駄に消費されている電力が少ないということになる。今回KDDIが行っている実証実験では、このPUEを限りなく1に近づけるような各種の取り組みが行われてきた。
KDDI株式会社 DX推進本部 プラットフォーム技術部 インフラ基盤1グループ コアスタッフ 北山真太郎氏は「今回の取り組みは以前から行われてきたフェーズ1(第1段階)、フェーズ2(第2段階)と社内で呼んでいた実証実験のフェーズ3(第3段階)となる。従来のフェーズ1、フェーズ2ではコンテナの中という環境での検証となっていたが、今回は実際のデータセンターの環境に近い当社データセンターの機械室を利用して行っている」とのこと。
機械室というと、建物の中で水や電気などの制御を行う部屋を指すが、今回は、実証実験が行われた「小山ネットワークセンター」の機械室を利用して行われている。この機械室は別に特別な部屋ではなく、本当に小山ネットワークセンターの電気や水などの制御を行う部屋として活用されている部屋の一部(つまり普段は何も利用されていない空きスペース)をそのまま活用している。
KDDIの加藤氏によれば「ホンモノのデータセンターに入れて実証実験をすることも検討したが、実験となると社外の人も入ったりするので、実利用しているデータセンターでやるのはセキュリティ上課題があった。そこで機械室を利用したのだが、この機械室でできることは、逆に言えば、やや古めのデータセンターでもできるということ。設備が最新ではないデータセンターでも、今回の実証実験の成果を活用できると考えて、今回は機械室の一部を利用して行うことにした」と説明した。
実際、筆者も見学してみたが、機械室はどこの建物にでもある機械室そのものので、特に特別というわけではなかった。そうした設備が十分では場所やオールドスタイルのデータセンターでも今回の実証実験の成果を生かせるというのは、あまりコストをかけずにデータセンターの消費電力を下げたいと考えている事業者にとって、福音と言えるのではないだろうか。
フリークーリングを利用した自然環境を活用した冷却を実現
そうしたフェーズ3のKDDIの実証実験だが、大きくいうと2つの部分に分かれている。1つは建物の外にある、「フリークーリング」と同社が呼んでいる巨大なヒートシンク、もう1つが屋内の機械室の中にある液浸のデータセンター自体だ。
フリークーリングは、簡単に言えば巨大なヒートシンクで、液浸データセンターの熱を熱交換してお湯になっている冷却水が、内部を循環している。念のため上部にはファンがついているものの、特に冬期はほとんど回っていないという。つまり、実際には大気で冷やしており、無駄な電力を必要としないため、前出のPUE値を下げるのに大きく貢献しているのだ。なお、このフリークーリング自体は、三菱重工が設計と試作を担当しているとKDDIでは説明している。
KDDIの加藤氏によれば、実証実験で大きな課題になったのはそうした自然環境を利用して冷却するという仕組みそのものだった。小山市の気候は、冬は寒く、夏は暑いという北関東特有の気候になっており、夏暑い時にこれを利用してどのように冷却するか、そして逆に冬寒い時に問題なく冷却水が循環できるかという点にあったという。
「夏に関しては47℃になっても大丈夫なようになっており、その場合は(ファンを)回すしかないと考えていたが、大きな問題はなかった。冬は寒くよく冷えるが、逆に冷えすぎてしまい、冷却水が凍結してしまうという点が課題だと考えていた。そこで、凍結しても問題ないか、あるいは実験段階でわざと凍結させてみてどうなるのかなどを確認することにした。冷却水に不凍液を入れて凍らせないことは可能だが、環境には良くないので、凍ることを想定して、どうなるかを実証実験で確認していった」とのことで、暑くてもダメなことは素人にもすぐわかるのだが、寒すぎるのも凍ってダメだというのは盲点だった。
筆者が訪問した時は3月中旬という段階で、そこまで寒くもないが、暖かくもないという気候の時で、上部についているファンはほとんど回っていなかった。
その水の配管がつながっている先には、小山ネットワークセンターの機械室の中にある液浸データセンターに接続されている。液浸データセンターの背後にはCDU(Coolant Distribution Unit、冷却水循環装置)が用意されており、液浸データセンターから接続されているオイルの配管と冷却水の間で熱交換を行っている。簡単に言えば、温まったオイルの熱を冷却水に伝導することで冷やして、冷えたオイルは液浸データセンター側に戻し、温まった冷却水はフリークーリングに戻して再び冷却する仕組みになっている。
オイルや冷却水の循環はポンプにより循環させているが、今回はそうした冷却水や、ポンプなどはいずれも2系統用意されており、仮に1系統が何らかのトラブルで止まったとしても動き続けるようになっている。これは「ティア4と呼ばれる高可用性のデータセンターを実現するため」だとKDDIの北山氏は説明した。
実証実験では現場で起こることを検証し知見をためていくことが目的
そのような液浸冷却装置とCDUを利用して冷却している液浸データセンターだが、液浸のデータセンター自体もユニークな構造になっている。データセンターそのものは、コンビニやリテールショップで利用されている、“アイスクリームを入れるケースの大きめなもの”という印象で、普段は、アイスクリームのケースと同じようにふたがされている(ふたはアイスクリームのケースと違ってはねあげ式)。
そのふたをあけると、中に普通の1Uラックのサーバー、スイッチなどの機器がオイルに浸されている様子を確認できる。なお、この液は高純度の「炭化水素系冷却油」と呼ばれるオイルで、今回のプロジェクトに参加しているENEOSから提供されたものであるという。特徴は低粘度化を実現していること、ポンプの動力低減に貢献していること、そして酸化劣化しにくく長寿命であること、そして高い冷却効率を実現していることだ説明した。
KDDIの加藤氏によれば「酸化劣化が早いオイルだと、機器の故障が発生するなどの問題が発生する、そのため酸化劣化が比較的しづらいことは重要だ」とのことで、オイルを何度も交換しないといけない、メンテナンス性も下がることになるので採用されたという。
KDDIの加藤氏によれば、この炭化水素系冷却油が、重油から石油を精製する段階で生じる不必要な部分から作られるオイルであることも、採用を決めた理由の1つだという。「どうせ捨てるものだったものを再利用できるという観点で、持続的な成長を実現するという当社の取り組みともマッチすると考えた」と、加藤氏はその理由を説明している。
なお、この液浸データセンターでは、機器のメンテナンスが必要になった場合には、まずオイルに浸っているサーバーをクレーンを利用して引き上げて、油抜きを行って、乾かしてから、メンテナンス台(通称:まな板)に移動してメンテナンスを行うという。
例えば、CPUを交換する、ヒートシンクを交換する、SSDを交換する――、そうした作業はメンテナンス台で行うという。また、そうした構成した機器が液浸システムの中に入れても問題ないかをチェックするための、小型液浸システムもメンテナンス台に用意されており、それで動作に問題がないかを確認したものを液浸システムに戻す、というシステムになっている。
このため、移動時に油などがこぼれても大丈夫なように、床には専用のゴムマットが引かれている。これも試行錯誤を繰り返して現在のゴムマットになったとのことで、実証実験をしている中で作業者の「滑る」というフィードバックをもとに、現場の工夫として行われたという。
KDDIの加藤氏によれば「今回の実証実験では、当初想定しなかった問題がいくつも発生し、それを現場の工夫で改善してきた。そうした、何が起きるのかという知見を集めるのが今回のフェーズ3の目的だったため、その意味では大きな成果があった」との通りで、例えば、液浸ケースの中にモノが落ちた時に見やすいようにLEDライトを入れるなどもしており、本当に細かいな工夫がそこかしこで確認できた。今後実際に稼働するデータセンターに液浸システムをインストールする時に、そうした知見が役立つだろう。
PUE 1.05という驚異的な数字を実現したフェーズ3の実証実験、液浸がデータセンターに革命を起こす?
こうしたフェーズ3の実証実験の成果について、KDDIの北山氏は「フェーズ2ではPUEを1.07まで実現できていた。しかし、今回のフェーズ3ではそれを上回る1.05を実現できている。われわれの調査では一般的な空冷のデータセンターでのPUEは1.7程度とされているので、大きな電力の削減が実現できていることがわかる」と述べ、フェーズ3ではPUEを1.05まで小さくできていると説明する。
PUEとは既に説明した通り、データセンター全体の消費電力を、CPUやGPUなどの消費電力で割ったものになり、これが1に近づけば近づくほど、CPUやGPUなど演算を実現する部分以外の電力が低いことを示している。
例えば、KDDIが示した空冷データセンターのPUE参考値の1.7というのは、CPUやGPUの消費電力を1と仮定すると、0.7ほど無駄な電力消費があるという計算になる。つまり、CPUやGPUが消費している電力の70%に相当するような電力がファンなどの電力に使われているという計算になる。
それが、KDDIの液浸システムでは1.05であり、同じくCPUやGPUの消費電力を1と仮定すると、0.05、つまりCPUやGPUの消費電力に対して5%しか冷却に必要な電力を消費していないという計算になる。データセンターの消費電力が全世界の消費電力の4%を占めているという世の中に生きているわれわれにとって、仮に全世界の空冷サーバーが液浸になれば、それだけの電力削減効果を期待できるということだ。単純計算でも4%から2%半ばぐらいに下落することになる。その削減効果は非常に大きく、それだけにKDDIの取り組みは非常に重要な取り組みと言える。
KDDIとしてはこうした技術を、全国にあるKDDIのデータセンターや今後増えていく5GのコアネットワークやvRANなどの通信向けのデータセンター(通信業界の用語では局舎という)に展開していくのが次のステップになる。また、開発パートナーとなる三菱重工やNECネッツエスアイに関しては、外販も視野に入れて参加していると考えられる。
KDDIの加藤氏は「こうした液浸データセンターはデータセンター自体の建物が古い場合に、リノベーションして使うソリューションとして有効だと考えている。また、今後5Gの展開の中でエッジのデータセンターを基地局近くに設けるなども考えられると思うが、騒音の問題が解決されているので、例えば住宅地やショッピングモールのような場所に展開する場合にも有効だ」としている。
実際、KDDIの機械室に置かれた液浸データセンターは、一般的なデータセンターで当たり前の「ファンノイズ」は皆無だった。その特長を生かすことで、従来は都心からは離れた場所に大規模に設置するしかなかったデータセンターも、住宅地の中に置いたり、ショッピングモールの中に置いたり、病院の地下に置いたりなどの新しい展開も可能になる。
そのように考えていくと、従来のデータセンターのリノベーションにも利用でき、消費電力を大きく削減できる、そして騒音問題を解決することで新しい場所にも設置できると、液浸データセンター、これはまさにデータセンターの革命といっても過言ではないと感じた。