データセンター完全ガイド:新データセンター紀行
[特別編]NTT東日本 NTT玉川ビル――IoT社会を支える次世代データセンター実証事業
2017年6月2日 06:00
弊社刊「データセンター完全ガイド 2017年春号」から記事を抜粋してお届けします。「データセンター完全ガイド」は、国内唯一のクラウド/データセンター専門誌です。クラウドサービスやデータセンターの選定・利用に携わる読者に向けて、有用な情報をタイムリーに発信しています。
発売:2017年3月31日
定価:本体2000円+税
世界的に低炭素社会/脱炭素社会を目指す動きが加速する中、NTT東日本 NTT玉川ビル(東京都世田谷区)で、先端技術を駆使した次世代データセンター実証事業プロジェクトが進行している。環境省の平成28年度CO2排出削減対策強化誘導型技術開発・実証事業として、ICT機器に3つの発熱密度ゾーンを設定した上で抜本的な省エネルギー化を図り、2018年までに省エネ指標PUEの理論限界値1.0の達成を目指すという。以下、大阪大学サイバーメディアセンター 教授 松岡茂登氏への取材を元にプロジェクトの全体像をまとめた。 text&photo:インプレス SmartGrid ニューズレター編集部 edit:データセンター完全ガイド編集部
低炭素社会の要請から目指す「PUE値1.0」
2015年12月のCOP21パリ協定成立以降、低炭素/脱炭素社会を目指す動きが加速している。この大きな波は、IoT社会を支えるデータセンターやクラウド基盤にも波及している。
今回、本連載の特別編として紹介するのは、環境省の平成28年度CO2排出削減対策強化誘導型技術開発・実証事業として進行中の次世代データセンターだ。環境省が2016年4月~2019年3月の約3年間、2016年度予算で2億5,000万円をかけて行う大規模プロジェクトである(注1)。
前回、2013年~2015年度実施の実証事業(国際電気通信基礎技術研究所〈ATR〉内に構築された「けいはんなデータセンター」)では電力消費量を70%以上削減して、小・中規模クラスでは困難とされるPUE値1.1を達成している。NTT東日本 NTT玉川ビル内で実施する今回の実証事業では、いよいよ理論限界値のPUE値1.0を目指すことになる。
最初に、前回のけいはんなデータセンター実証事業とその成果を簡単に振り返ってみる。このときは、図1の中央に位置する「A-DCIM(Augmented Data Center Infrastructure Management、拡張データセンター基盤管理)をAI(人工知能)および機械学習技術を駆使して開発し、サーバーはじめICT機器や空調、電源、廃熱利活用などに関して、省電力化の全体最適化を実現するSoftware Defined Data Center(SDDC)を構築・検証した。
個々には、ファンレスサーバーや、風量を多くして風速を抑える壁かけ吹き出し方式空調、直流電源装置(HVDC-12V)を導入。さらに、IT機器からの発熱を3つのアイル(通路)で段階的に上げて廃熱利用するスーパーホットアイルを設置し、湿度調整に利用するなどで省電力化を施している。
注1:環境省の本実証事業に携わるデータセンタオープンイノベーションコンソーシアムのメンバーは次のとおり。大阪大学、アクタスソフトウェア、アドバンスドナレッジド研究所、EEC 総研、NTT アドバンステクノロジ、NTTコミュニケーションズ、NTT 東日本、シスコシステムズ、シュナイダーエレクトリック、3Mジャパン、高砂熱学、中央電子、富士通、富士通リース、ラリタン・ジャパン
データセンターの規模とPUE値の関係
上述したように、今回の実証事業はPUE値1.0を目指す。図2は、データセンターの世界的トレンドとPUE値推移をグラフにしたものだ。縦軸がPUE値で、横軸が時期とトレンドだ。グラフの下部にいくほどPUE値が小さく、電力効率が高いことを示している。
2006年に米環境保護庁(EPA:Environmental Protection Agency)が警告を発した時点で、米国内のデータセンターのPUEはたいてい1.3~2.0に収まり、平均で1.6辺りであった。その後の推移として、大規模データセンター(サーバー1万台規模)に限って見ると、年次経過と共に右肩下がりの傾向が現れている(黄色の大きな矢印)。
2011年頃になると、マイクロソフト(PUE値1.08)やフェイスブック(同1.06)、グーグル(同1.12)といった米国のハイパージャイアント企業が運営する、サーバー100万台規模のメガデータセンターが最新技術・手法の採用で、1.1を切るほどまで効率向上を果たしている。一方で、それら以外の大半のデータセンターは1.2~1.3にとどまっている。
先に述べたとおり、前回のけいはんなデータセンター(サーバー360台規模)ではプロジェクトの終了時点でPUE値1.1をマークした。既設の大規模データセンターが1.2~1.3付近であることを考えるとこれはハイレベルな値だ。今回の実証事業では、2018年までにPUE値1.0を目指すため、前回時の消費電力からさらに9%も削減しなくてはならない。例えるなら乾いたタオルをさらに絞るほどの難易度だと言える(注2)。
注2:「さらに9%削減」の根拠は、PUE値1.1から1.0にするには、PUE値1.1(全体の電力)/1.0 からPUE値1.0/1.0 にしなければならず、全体電力としては9%の削減(1/1.1)が求められるという計算
理論上限界値の実現に向けて設定した課題・目標
ところで、PUE値1.0とは実際、どれほどにハードルが高いものなのか。図3は、横軸にPUEを、縦軸にデータセンターの総電力(ICT機器の消費電力を100kWとした場合)を示したものだ。PUE値1.0は、仮にサーバーなどIT機器の消費電力が100kWなら、データセンター全体の消費電力も100kWでなくてはならない。つまり、IT機器以外の空調機などの消費電力は0kWということになり、現実のデータセンターではなしえない理論上の値なのである。
日本においては、ハイパージャイアント企業が豊富な資金力で運営する100万台規模のメガデータセンターよりも、電力使用効率の高い小・中規模データセンターのニーズが高い。これを踏まえて、今回の実証事業では課題を次のように設定している。
課題①:構築規模を小・中規模データセンター(サーバー台数100~1,000台)に設定し、前回のPUE値1.1を下回る電力効率を実現する
この規模は、データセンター市場全体の多くを占める銀行、大規模病院、自動車メーカーなどが運営するプライベートクラウドやエッジコンピューティング(Edge Computing)拠点のマイクロデータセンターなどが相当する。一般にサーバー台数が少ないほどPUE値の引き下げが難しく、前回以上のチャレンジとなる。
課題②:発熱密度に応じて複数の冷却方式を採用して電力使用効率の大幅な向上を図る
一般的なデータセンターでは発熱密度が高い部分と低い部分とが混在しており、単一の冷却方式では冷却効率が上がらない問題に対処するものだ。高発熱密度の例として、ビッグデータ解析などのHPC(High Performance Computing)システムを担うサーバーが挙げられる。一方、低発熱密度の例としては、さほど高速処理を行わない情報系システムのプライベートクラウドのサーバーやハードディスクドライブ(HDD)のみで構成されたストレージラックなどが相当する。後者では、大型空調機は不要で、低消費電力向け冷却技術を新規開発する必要がある。
課題③:空調の2重化が不要な自立冷却技術を開発する
データセンターの信頼性確保のため、空調を2重化/冗長化することは常識だが、待機電力による電力消費や設備コストがかさむ問題がある。そのため2重化されていなくても停電・故障時に対応可能な技術が必要となる。
上述の背景と課題設定に沿って、今回の実証事業プロジェクトは、具体的には以下の目標・施策が定められた。
目標①:収容サーバーが100~1,000台の小・中規模のビル型データセンターを構築対象規模とする。
目標②:停電や冷却機器故障時も3時間以上自立的に冷却を継続できるようにする。
目標③:前回達成のPUE値1.1をさらに下回る1.0を目標とする。その実現のために、抜本的な省エネルギー技術・手法を採用し、補機動力(冷媒を循環させるファン、ポンプの電力など)のゼロ化を図る。
目標④:発熱密度に応じた冷却方式(負荷レベル別冷却方式)を発熱密度ゾーンごとに適用する。PUE値1.0の実現に向けて世界初の手法も採用する。
図4に、これら本実証事業の課題・目標を基に作成した、データセンター内のラック当たりの熱密度の分類を示す。なお、ラックには次に示す種類がある。
「高」発熱密度(Extreme)ラック:16kW以上のラック
「中」発熱密度(High)ラック:9~15kWのラック
「低」発熱密度2種類(Low、Moderate)のラック:0~4kWのラックおよび5~8kWのラック
このうち「中」発熱密度(9kW)以上のラックは、空冷では難しいので直接液冷方式を採用する。また、今回の実証事業で導入するサーバーには、インテルのXeonプロセッサを2個搭載しているが、同CPUは1個で140W以上も電力を消費する高性能型である。そのため、発熱密度は「高」である。
表1に、本プロジェクトで稼働している各発熱密度に対応したシステムの仕様を示す。
世界初の自然循環方式と冷媒滴下方式の開発・採用
図5は、本実証事業プロジェクトで構築するデータセンターの構成・全体像だ。サーバー室内レイアウト例(平面図)には、上で説明した発熱密度別の3ゾーンが設置されている。左側は3ゾーンを分担する各冷却装置である。
中央の低発熱密度サーバーおよびHDDストレージには空冷を採用する。なおHDDの設置間隔がわずか2~3mmなので、空気の流量設計が重要となる。上部に示されている熱交換器で冷却し室温を30℃に保つ。このとき空調用ファンモーターが必要となるが、その消費電力は通常1~2kWに達するため、これをいかにゼロにしていくかも課題となる。
左側には、中・高発熱密度サーバー(CPU、メモリ)がある。ここには冷媒(現在は3M製のフロン系フロリナート冷媒などを使用)で満たされた冷却器内にサーバーを丸ごと沈める液浸冷却方式(注3)を採用している(後述)。また、ここでも熱交換器を用いて冷却器内を30℃に保っている。本実証事業では、PUE値1.0が目標なので、サーバーを格納する冷却箱内で冷媒の循環のためのポンプやファンも廃している。
そして、高発熱密度に対しては自然循環方式を、中発熱密度に対しては冷媒滴下方式を世界で初めて開発する(後述)。
注3:液浸(えきしん)技術を活用した冷却技術は、半導体の高性能化に伴う発熱量の急激な増大に対し、従来の冷却方式の限界を超えて対処できるアプローチとして注目されている
自然循環方式、冷媒滴下方式、液浸冷却方式を採用
本実証事業では、世界初の試みとして、冷却箱内に冷媒を循環させるためにポンプやファンを使わない自然循環方式(図6)および冷媒滴下方式を採用する。冷媒滴下方式は、必要な冷媒の量を冷媒浸潤方式に比べて10分の1に減少させることができ、大幅に軽量化させている。
ここで重要なのは、熱交換用の水を循環させるためのポンプは使用する点で、このポンプを動かすモーターの消費電力をいかにゼロに近づけるかということも課題の1つだ。
これは、サーバー各台に装着されている冷却用の小型ファンの消費電力についても同様である。なお、ご存じのように近年のサーバー製品の小型ファンは回りっぱなしということはなく、CPUの温度が一定以上に上昇すると回転するなど省電力化の工夫がなされている。
図7には、サーバーに採用する液浸冷却方式の仕組みを示した。左側は空冷のため広大な空間が必要だった従来型のデータセンターだが、今回、この部分の大幅に省スペース化するとともに、自然対流による冷媒浸潤型の超小型データセンターへと進化させており、このアプローチは世界初となる。右下にある4つの液槽の中にサーバー基盤を格納する。1つの液槽の中には、ブレード32枚分のサーバー基盤を格納できる。
プロジェクト実施体制と今後の課題
ここまで、IoT社会を支える次世代データセンター実証事業の全体像とポイントとなる技術・手法を紹介してきた。
本プロジェクトの実施体制については、NTT東日本が技術開発の代表者となり、共同実施者として富士通、高砂熱学工業、EEC総研(Energy-Effi cient Cloud Research Institute)が参加。総勢20名弱の規模で開発が行われている(図8)。
図9は、本プロジェクトの技術開発面での課題を整理したものである。地球温暖化対策が喫緊の課題となる中で、IoTの活用もグローバルで加速している。そのような状況で、小・中規模のデータセンターにフォーカスして、省エネを極めた次世代データセンターおよびクラウド基盤の構築を目指す構えだ。
世界初を含め多数の先端技術・手法を駆使した本プロジェクトが、夢のPUE値1.0をいつ実現できるのか、今後の展開に各所から大きな期待が寄せられている。