特別企画

「無駄だけでなくリスクも管理する」――、グリーン・グリッドの新たなデータセンター向け指標「PI」とは

 データセンターの電力効率を示す指標として、PUE(Power Usage Effectiveness)という数値がしばしば使われる。データセンター全体の電力消費量をIT機器の電力消費量で割った値で、この値が小さいほど空調などのIT機器以外の電力消費が少ないことになる。

 PUEは、データセンターの省エネに関する業界団体のグリーン・グリッド(The Green Grid)が定めているもので、ISOで標準規格化されている。グリーン・グリッドではPUEのほか、WUE(Water Usage Effectivenes、水使用効率性)やCUE(Carbon Usage Effectiveness、二酸化炭素使用効率)、あるいはDCMM(Data Center Maturity Model、データセンター成熟度モデル)といった指標も提唱している団体だ。

 グリーン・グリッドは2016年に、電力に関して新たに「PI」(Performance Indicator)または「TGGPI(The Green Grid PI)」と名付けた指標を提唱した。PIについてのホワイトペーパーは、グリーン・グリッドのメンバーであればWebサイトからダウンロードできる。

 今回は、このPIのホワイトペーパーを執筆したマーク・シーモア(Mark Seymour)氏に話を聞いた。

マーク・シーモア氏(The Green Grid/Future Facilities Ltd.)

エネルギー効率、通常時の冷却、異常時の耐性をチャートに

 PI(TGGPI)を提唱した背景として、「PUEはすぐれた指標だが、唯一の指標ではない。PUEは1つの指標にフォーカスしすぎた」とシーモア氏は語る。

 グリーン・グリッドでも、PUEを発表した1年後には、スパイダーチャート(レーダーチャート)を使ってより全体的な指標を定めようとしたが、業界の体制が整っていなかったため断念したという。このコンセプトをもとに再度、ただしデータセンターの冷却に限って定めたのがPIだとシーモア氏は説明した。

 PIは、3つの軸からなるスパイダーチャートで表わされる。1つはエネルギー効率(Energy Efficiency)で、PUEを元にした値で表わされる。2つめは冷却効果(Cooling Effectiveness)で、通常のオペレーションで冷却がうまくいっているかを示す。3つめは故障耐性(Failure Resilience)で、異常時のリスク耐性だ。

 「PUEは“無駄”を管理するためのものだが、“リスク”は表わせない。無駄とリスクを管理するのがPIだ」とシーモア氏は説明する。PUEはGoogleやFacebookのデータセンターにおいてどんどん1に近づき、その影響で一般のデータセンターでもPUEが改善されたが、ここ数年はPUEの改善が横這いになっているという。氏はこれについて「企業はダウンタイムのリスクを恐れているからだ」と語った。

PI(TGGPI)の背景。無駄とリスクのバランスを表す
軸1:エネルギー効率
軸2:冷却効果
軸3:故障耐性

ビジネスの種類によって最適なバランスは変わる

 PIでは、エネルギー効率の指標として、PUEr(PUE ratio)が使われる。これはデータセンターの種類ごとにPUEの期待値を決めて、それをPUEの値で割ったものだ。「レガシーなデータセンターではGoogleのデータセンターのようなPUEはインフラ的には対応できないが、経営陣がPUEの値だけ見ると問題があると思ってしまう」とシーモア氏。

 冷却効果の指標にはIT Thermal Conformanceが使われる。通常時で、どれだけの機器がガイドラインで定めた温度の範囲に入っているかの指標だ。ガイドラインの「ASHRAE Temperature Compliance Guidelines」を元に、ラックあたり3カ所を、データセンター全体で測って計算する。

 故障耐性の指標にはIT Thermal Resilenceが使われる。障害時の安全性を示す指標だ。IT Thermal Conformanceに似たアプローチで調べるが、実際に空調をオフにするのは危険なので、室内温度のシミュレーションで温度を計算することが推奨されている。

 「シミュレーションを使えれば、機器を追加したときに温度や電力消費がどうなるかといったことがわかり、無駄とリスクを計算できる」とシーモア氏。

 理想は3つの軸とも100%で三角形の角に来ることだが、現実には効率をとるのか安定をとるのかの妥協点を探すことになる。シーモア氏はPIを「その落とし所を経営サイドで判断するための指標」と説明する。

 ビジネスの種類によって最適なバランスは変わる。たとえば銀行や証券はリスクの許容度が低いため、PUEは妥協する。一方、クラウドサービスのハイパースケールデータセンターでは、サービスを仮想化して分散しているため、故障耐性はそれほど高くなくてよいのでPUEを求める。

 このPIの導入には、4つのレベルが用意されている。温度計を持ってデータセンター内を回るレベルから、シミュレーションするレベルまであるという。

 ちなみに、「Performance Indicator」という言葉はKPI(Key Performance Indicator、重要業績評価指標)の中にも含まれるぐらいで、指標の名にするにはかなり一般的な言葉に思える。これについてシーモア氏に尋ねると、「もともと全体的な指標を作りたかったため、意図的に一般的な言葉にした。将来はもっとPIのパラメーターを増やしたい」とのことだった。

3つの軸を表す指標
エネルギー効率を表すPUEr
冷却効果を表すIT Thermal Conformance
故障耐性を表すIT Thermal Resilence
機器を追加したときの温度や電力消費などをシミュレーション
ビジネスの種類によって最適なバランスは変わる