最新サーバー「Dell Power Edge R720」のベンチマークから実力を見る

SandyBridge世代の8コアXeon E5を搭載

　今回は、デルから最新x86サーバーのPowerEdge R720（以下、R720）と、その1つ前の世代となるPowerEdge R710（R710）をお借りして、各種のベンチマークを行った。

　ハードウェアの仕様に関しては、記事の最後に明記しておくが、CPUは、今回テストしたR720にはSandy Bridge世代のXeon E5-2680（2.7GHz/Turbo時3.5GHz）が、R710には2世代前となるNehalem世代のXeon E5530（2.4GHz/Turbo時2.66GHz）が搭載されている。

　Xeon E5-2680はCPUコアが8つ搭載され、16スレッドが実行できる。さらに、3次キャッシュメモリは20MBを搭載し、4本のメモリチャンネルがサポートされている。

　一方、Xeon E5530はCPUコアが4つ搭載され、8スレッドが実行できる。3次キャッシュメモリは12MBを搭載し、メモリチャンネルは3本となっている。

　CPUコア数だけを単純に考えても、Xeon E5-2680はXeon E5530の倍のパフォーマンスを有している。ただマルチコア環境は、単純にCPUコア数が多いだけ、性能がスケールする訳ではない。マルチコアに対応したアプリケーションなど、ソフトウェアに依存する部分が多い。また、CPUコアが増えることで消費電力がどうなるかという点も、注意が必要な部分だ。

　なお、今回行ったベンチマークは限定された状況下での結果であるから、R720の性能をすべて表しているとはいえず、参考程度に考えてほしい。

　ただ、Xeon E5-2680の得手不得手、方向性などがある程度分かってくると思う（ベンチマークの諸条件も記事の最後に明記しておく）。

R720のCPU、メモリユニット。Xeon E5-2680は、1CPUあたりのメモリチャネルが4本あるため、前世代のサーバーよりも多量のメモリが搭載できる

■CPUベンチマーク

　最初に、マルチスレッドの性能を評価するため、MAXONのCINEBENCH R11.5を使用した。CINEBENCHは、搭載されているCPUコア/スレッドに負荷をかけて、映像をレンダリングするのにかかる処理速度を計測するベンチマークだ。最大で64スレッドまで並列に処理することができる。

　CINEBENCHでは、GPUを使用するOpenGL、CPU単体を利用したベンチマークの2種類をテストできるが、今回はCPUだけを使用したベンチマークを行った。

　この結果を見ると、R720ではR710の約2.6倍の性能を示している。これだけ見ても、Xeon E5-2680になり、性能が大幅にアップしていることが分かるだろう。動作クロックがE5530が2.4GHz、E5-2680が2.7GHzと0.3GHzアップしているが、動作クロックのアップだけでは、これだけの性能アップは示せない。このあたりは、CPUコア数の増加とTurbo時の動作クロックの引き上げが効いているのだろう。

　Turbo時にはE5-2680は3.5GHz（約1.3倍）、E5530はTurbo時には2.66GHz（約1.1倍）と、大きな差が出ている。

　より詳細にCPUの性能をチェックするために、SiSSoftwareのSandra2012というベンチマークでテストしてみた。今回は、Sandra2012で整数演算のDhrystone（ドライストーン）と浮動小数点演算のWhetstoneの2つのベンチマークを行った。

　Dhrystoneでは、R720（E5-2680）はR710（E5530）の約4.4倍の性能を示している。Whetstoneでは、R720（E5-2680）はR710（E5530）の約2.7倍の性能を示している。整数演算に関しては、ずばぬけた性能を示している。浮動小数点演算もそれなりの性能アップを示しているが、将来的には、浮動小数点演算は、E5-2680で拡張されたAVX命令（レジスタを256Bitに拡張、256Bit SIMD演算をサポート）をアプリケーションをサポートしてもらうことで、より高い性能を出すことが可能になる。こういった意味でも、旧来の浮動小数点演算ユニットの性能を向上することよりも、AVXにシフトしているといえるだろう。

　続いて、Sandra2012でマルチメディア関連のベンチマークを行った。このベンチマークでは、XeonのSSE、AVXを利用した整数演算、浮動小数点演算をテストしている。R720（E5-2680）では、AVX命令を使用するため、旧来のSSE命令よりも高い性能を示している。このことからも、今後のソフトウェアではAVX命令のサポートが性能アップの鍵となる。

　もう1つSandra2012で行ったのが暗号処理に関するベンチマークだ。暗号処理は、エンタープライズ用途においては頻繁に利用される機能だ。

　AES256-ECBにおいて、R720（E5-2680）は、R710（E5530）の約7.8倍の性能を示している。R720（E5-2680）がAES256を直接実行する命令を利用しているが、R710（E5530）ではプログラムで処理しているため、これだけの差がついたのだろう。やはり、AES-NIをサポートしているSandy Bridge世代と、サポートがないNehalem世代の違いなのだろう。また、CPUコア数の数も性能アップにかかわっているようだ。

　ハッシュ処理を行うSHA-256では、R720（E5-2680）は、R710（E5530）の約2.9倍の性能を示している。R720（E5-2680）は、AVX命令を使用しているが、R710（E5530）では旧来のSSE4を使用している。AVXでは256Bitを一度に処理できるが、SSE4では128Bitしか処理できないため2度処理を繰り返さなければならない。

　エンタープライズ用途においては、AVXはあまり注目されていなかったが、実際のベンチマークを見ると、今後ソフトウェアがAVXをサポートしているかどうかが、パフォーマンスの大きな違いになるかもしれない。

■SSDを使ったディスクキャッシュの性能は？

R720に搭載されていたSSDは、サンディスクのエンタープライズ部門Pliant製（Pliantは、サンディスクが買収した）。SAS1.0インターフェイスのSSD。なおサンディスクでは、SAS 2.0インターフェイスのSSDもリリースしている

　R720には、新しいRAIDコントローラが用意されている。このRAIDコントローラは、SSDをディスクキャッシュ（Cachecade I/Oアクセラレータ機能）として利用できる。そこで、Crystal Disk Markを使って、ディスクのベンチマークを行った。

　比較のために、R720 HDD（RAID5）、R720 SSD＋HDD（RAID5）、R720 SSD（RAID0）、R710のHDD（RAID5）のベンチマークを取った。

　結果を見てみると、R720 SSD+HDD（RAID5）がR720 HDD（RAID5）とそれほど変わらないため、大きな疑問を持った。ランダム 4K（QD32） Readに関しては、13.5倍ほどの性能を示しているが、ほかのテストでは大きな違いがなかった。

　そこでいろいろとドキュメントを調べてみると、R720で採用された新しいRAIDコントローラは、すべてのディスクアクセスをキャッシュして高速化する訳ではないようだ。

　仕様としては、Readのみをキャッシュする。さらに、データサイズとしては、64KBよりも小さいデータをキャッシュする仕組みになっている。これは、データベースなどが使用する小さなデータReadを高速化することにチューンアップされているからだ（ディスクキャッシュとして利用できるSSDの容量は512GB）。

　もう1つ、ディスクキャッシュの学習にある程度時間がかかるということもある。そこで、Crystal Disk Markのランダム4K read/Writeを15分間繰り返した。すると、ランダム4K readのベンチマークが約10倍も性能アップするという結果が得られた。

　このことからも、ディスクキャッシュは、データベースのデータを読み出す際には、大きなメリットになる。シーケンシャルアクセスやランダムWriteなど、すべてのディスクアクセスを高速化したい場合は、SSDを利用することが必要になる。コスト面の制約があるが、SSD（RAID0）は、非常に高い性能を示している。

　ユーザーは、目的に合わせて、ディスクを組み合わせることが必要になるのだろう。

■Benchmark Factory for DatabaseによるScalable HardwareとTPC-Hのベンチマーク

　続いては、Scalable HardwareとTPC-Hのベンチマークを行うのに、クエスト・ソフトウェアが提供している「Benchmark Factory for Database」（以下、Benchmark Factory）を使用した。

　Benchmark Factoryは、OracleやSQL Serverなどのデータベースを搭載したサーバーに対して、クライアントPCから負荷をかけてベンチマークを行うソフトウェアだ。特に、Benchmark Factoryでは、AS3AP、Scalable Hardware、TPC-B、TPC-C、TPC-D、TPC-H、TPC-Eなどの業界標準に準拠したベンチマークが行える。

　今回は、Scalable Hardware、TPC-Hの2つのベンチマークを行った。サーバーのデータベースとしては、マイクロソフトのSQL Server 2008 R2（ODBC接続）を使用した。

　Scalable Hardwareのベンチマークは、ANSI（American National Standards Institute）が規定したリレーショナルデータベース向けのベンチマークAS3APのサブセットだ。特に、CPU、ディスク、ネットワークなどを中心にしてテストを行う。今回は、CPU以外にも、メモリやHDDなどが異なるため、プラットフォームの差として見てほしい。

　Scalable HardwareのMixed Workloadベンチマークを比べると、ほとんどのベンチマークでR720の方が、1/2～1/3ほど短時間で終了している。例えば、100仮想ユーザーの負荷において、Read Intensiveは、R720は13ms、R710は28msと1/2ほど短時間に済んでいる。


R720のScalable HardwareのMixed Workloadのベンチマーク結果（Transactions vs Userloadのグラフ）。仮想ユーザーごとに、Transactionの処理時間をグラフ化している	R710のScalable HardwareのMixed Workloadのベンチマーク結果

R720のCPU Intensiveテスト。Transaction数とResponse Timeをグラフ化している	R710のCPU Intensiveテスト

R720の、データベースに対するInsert操作のテスト。Transaction数とResponse Timeをグラフ化している	R710のデータベースに対するInsert操作のテスト

R710のデータベースに対するUpdate操作のテスト。Transaction数とResponse Timeをグラフ化	R710のデータベースに対するUpdate操作のテスト

R720でScalable Hardwareベンチマークを動かした時のトータルCPU負荷	R710でScalable Hardwareベンチマークを動かした時のトータルCPU負荷

　もう1つ注目するのは、消費電力だ。R720のE5-2680はTDP130W、R710のE5530がTDP80Wとなっている。さらに、R720とR710の両方とも2ソケットのサーバーとなっているため、サーバーでのCPUの消費電力は2倍以上になる（もちろんCPU以外に、メモリやHDDなどさまざまなコンポーネントの消費電力は加算される）。

　実際に消費電力を時系列にグラフを見ると、R720（E5-2680）は最大値は416Wとなっている。一方、R710（E5530）は最大値は330Wほどになっている。最大値だけ見ると、R720（E5-2680）が高くなっている。

　しかしグラフを見てみると、R720（E5-2680）はCPUの性能が高いため、最大消費電力が短時間で終わり、すぐに消費電力が低くなっているのがわかる。アイドル状態では150Wほどしか消費しない。

　一方R710（E5530）は、最大消費電力はR720（E5-2680）に比べると低いが、CPUへの負荷が高いため、断続的に消費電力が高くなっている。このためトータルの消費電力を見ると、R720の方が低くなっている。

　このように、CPUのピーク時には消費電力を高くして高速に処理を終了し、負荷が低い時には低消費電力で動作するほうが、多くの時間で高い電力を消費するよりも、トータルとしてみればエコにつながる。


R720でScalable Hardwareベンチマークを動かした時の消費電力	R710でScalable Hardwareベンチマークを動かした時の消費電力

　TPC-Hのベンチマークでは、R720（E5-2680）は0.204TPS、Avg Response Timeは48.963/秒、Avg Transaction Timeは48.984/秒となっている。

　一方、R710（E5530）は、0.087TPS、Avg Response Timeは114.666/秒、Avg Transaction Timeは114.696/秒となっている。

　このデータを見るだけでも、R720（E5-2680）は、R710（E5530）の約2.4倍の性能を出している。

TPC-Hベンチマークの結果


R720でScalable Hardwareベンチマークを動かした時の消費電力	R710でScalable Hardwareベンチマークを動かした時の消費電力

R720でTPC-Hベンチマークを動かした時の消費電力	R720でTPC-Hベンチマークを動かした時の消費電力

R720でTPC-Hベンチマークを動かした時のトータルCPU負荷	R710でTPC-Hベンチマークを動かした時のトータルCPU負荷

　各種のベンチマークを見ていると、R720はR710の2～4倍以上の性能を示している。また、消費電力もCPU負荷が高い時は、416Wと高くなるが、アイドル時や低負荷時はR710に比べると低くなっているため、トータルではR720の方が低くなった。ピーク時についても、性能あたりの消費電力はR720の方が低くなっている。

　HDDのSSDキャッシュに関しては、すべての場面で性能がアップするとはいえないが、データベース使用時には性能アップに大きく寄与する。コスト面から、ストレージをすべてSSDにすることはできな場合、メリットになる。

　今後ストレージに関しては、HDD、SSD、HDD＋SDDといった複数のストレージをうまく組み合わせて利用することが必要になるだろう。

　また、R720に付属しているサーバー管理ソフトのOpenManage Essentials、サーバーの消費電力をコントロールするOpenManage Power Centerなどを利用すれば、数十台、数百台のサーバーを運用するプライベートクラウドやデータセンターにおいて、効率のいい管理が行えることになるだろう。

　特に、OpenManage Power Centerは、データセンター/ロケーション/ラック/サーバー別に、電力の上限を設定することができる。この機能を使えば、夏場で電力が不足する時間帯は、性能を犠牲にして、消費電力を落として、電力が十分にある朝、夕、夜はフルパワーで動かすといった運用も可能になる。

　このような管理ツールが、無償で提供されているのも、Dell PowerEdge R720 12Gのメリットといえるだろう。

　2年前にリリースされた11世代からのリプレイスは、コスト面、リース期間の関係から難しいかもしれないが、今後プライベートクラウドの構築を検討している企業、11世代よりも古いサーバーを持っている企業にとっては、12世代のサーバーは検討に値するだけの性能と機能を有していると思う。


デルが12世代で無償提供したサーバー管理ソフトOpenManage Essentials	Power Centerは、ロケーション/ラック/サーバー単位でパワーの管理を行える

12世代で搭載されたiDRAC7は、iDRAC6から比べると非常に使いやすくなっている	11世代のiDRAC6は、最低限のリモート管理機能を提供していた

ベンチマークで利用したハードウェアと構成

Dell PowerEdge R720
CPU　E5-2680 2.7GHz動作/Turbo時3.5GHz TDP130W　×2ソケット　トータルCPUコア数16コア/32スレッド
メモリ　DDR3 ECC 1333MHzメモリ　64GB
HDD　SAS2.0（6Gbps） 300GB×5台（RAID5で使用）
SSD　SAS1.0（3Gbps） 149GB×4台

Dell PowerEdge R710
CPU　E5530 2.4GHz動作/Turbo時2.66GHz　TDP80W　×2ソケット　トータルCPUコア数8コア/16スレッド
メモリ　DRR3 ECC 1067MHz　32GB
HDD　SAS2.0（6Gbps） 146GB×6台（RAID5で使用）

Benchmark Factoryのベンチマーク設定
・Scalable Hardware
　バーチャルユーザー：1～100人（10人刻み）
　スケール：10000

・TPC-H
　バーチャルユーザー：20人（User Load Scale×5倍）
　スケール：20