仮想化道場

サーバープロセッサのターニングポイントになる? 「Xeon Scalable Processor」(後編)

Xeon Scalableの周辺機能

 Xeon Scalableでは、1プロセッサに6本のDDR4メモリチャネルが用意されている。1チャネルあたり2DIMMが挿せるため、1プロセッサあたり12本のDIMMが搭載できる。64GBメモリDIMMを使用すれば、最大768GBもの大容量メモリを持つサーバーが構成できる(特別に1.5TBまでメモリをサポートする製品も用意されている)。

 Xeon E7などは、SMI(Scalable Memory Interconnect)にSMB(Scalable Memory Buffer)チップを接続し、最大24本のDIMMが使用できた。しかし、バッファなどの問題が絡むため、高速メモリが使用できなかった。

 Xeon Scalableでは、SMBを使用せず直接DDR4メモリをサポートできるので、Platinum 8100やGold 6100ではDDR4 2666MHzをサポートする。Gold 5100とSilver 4100はDDR4 2400MHzまで、Bronze3100はDDR2133MHzまでとなっている。なお、サポートしているメモリチャネル数やDIMM数に関しては、すべてのブランドで変わらない。

 プロセッサ間を接続するインターコネクトには、新しい技術であるUPI(Ultra Path Interconnect)が採用された。UPIは、最大10.4GT/sのスピードを持っている。Xeon E7/E5で使用されていたQPI(QuickPath Interconnect)は最大9.6GT/sだったため、現状では転送レートが少し上がっただけだが、今回のUPIは第1世代のため、QPIでも徐々に転送レートが向上してきたのと同じように、世代ごとにアップしていくだろう。

 Xeon Scalableでは、最大3本のUPIがサポートされている。Platinum 8100やGold 6100は3本のUPIを持ち、Gold5100やSilver 4100やBronze3100は2本のUPIをサポートしている(UPIの数の差が、サポートするソケット数の差になる)。

 PCI Express(PCIe)は、PCIe 3.0が48レーン、プロセッサから直接出ている。これだけのレーン数を持っていれば、AIや機械学習に利用するGPGPUを複数台搭載することが可能だ。また、NVMe SSD(PCIe Gen3×4)を複数台搭載することも可能になる。

 電源や冷却の問題はあるが、1ソケットあたりGPGPU(PCIe Gen3 x16)を2台搭載するとして、4ソケットなら8台のGPGPUを1台のサーバーで利用でき、理論上はさらに1ソケットあたり16レーンが余る計算だ。これだけのリソースが使えるならば、AIの研究や開発、機械学習の利用なども1台のサーバーでかなりの部分がまかなえるだろう。

C620シリーズチップセット

 Xeon Scalableプロセッサと同時に利用される周辺チップのPCH(Platform Controller Hub)も前世代から一新され、C620シリーズチップセットに変更されている。

 C620シリーズは、最大14ポートのSATA(6Gb/s)、最大14ポートのUSB 2.0、最大10ポートのUSB 3.0、最大20レーンのPCIe 3.0、TPM 2.0などのインターフェイスが用意されている。

 C620シリーズでメリットといえるのが、Intelが開発したEthernetチップのX722のロジックがそのまま入っている点だ。これにより、10GbEを最大4ポートサポートしている。さらに何よりも大きなメリットは、LAN経由でのストレージアクセスを高速化するiWarp/RDMAがサポートされたこと。サーバー向けのPCHにiWarp/RDMAが入ったため、Windows ServerでLAN上のストレージシステムにアクセスする場合、サーバー側の負荷が小さくなり、アクセス速度がアップする。今まではInfiniBandなどを使っていたが、iWarp/RDMAがPCHに入ったことで、今後iWarp/RDMAを利用したストレージアクセスが標準的になるだろう。

C620シリーズは、LANの構成、QATの有/無などでモデルが異なっている(米IntelのC620チップセットのDataSheetより)

 もう1つのC620シリーズのメリットは、Intel QuickAssist Technology(QAT)が入ったことだ。QATは、SSL、IPsecなど暗号化や認証、公開鍵暗号のRSA、データ圧縮などの機能をプロセッサで処理せずに、PCH内にあるQATモジュール(ハードウェア)で処理する。このため高速な計算ができ、プロセッサ側の負荷も軽くなる。

 特にSSLやIPsecなどは、PCH側にLAN機能が入っているため、PCH上で多くの処理ができるようになり、プロセッサ側の負荷が非常に小さくなる。

 ただしC620シリーズの製品によっては、QAT機能が入っていないものや、QATのパフォーマンスが制限されているものもある。QATのフル機能が使えるのはC627/C628だけになる(モデルによって、QATモジュールの数が異なる)。

 またQATの機能を利用するためには、Intelが提供しているソフトウェアライブラリのDPDK(Data Plane Development Kit)を利用する必要もある。

Xeon Scalableと対で利用する周辺チップ(PCH)のC620には、SSLやIPsecなどの暗号化を高速化するQuickAssist Technologyを内蔵している(日本での記者発表会のスライドから、以下記載ない場合は同じ)

セキュリティ機能

 Xeon Scalableでは、いくつかのセキュリティ機能が追加されている。

 Intel TXT-OTA(One Touch Activation)もその1つ。従来のIntel TXTは、セキュリティを高めるが、構成や設定が面倒だった。そこで、簡単に構成や設定が行えるようにIntel TXT-OTAを新たに提供している。

 また、プロセッサ単体だけでなく、プラットフォーム全体の正常性を確認するIntel PTT(Platform Trust Technology)、システムのブート時に正常性を確認する(Root of Trust)Intel Boot Guardなどが新たに用意されている。

 ちなみに、QATの認証機能と公開鍵暗号、Intel PTTを組み合わせることで、複雑な暗号化された鍵を使ったシステム全体の正常性を保証できる(Intel Key Protection Technology)。

 実は、チップセットのPCHには、Intel AMT(Intel Management Engine)、Server Platform Software(SPS)、Innovation Engineなどの機能を実現するために、組み込み型の専用プロセッサとファームウェアが用意されている。

 このためサーバーにおいては、コールドブート時に使用される独立したプロセッサの機能の正常性を保証する必要がある。米国FBIなどは、サーバーのファームウェアレベルに入り込むマルウェアに関して警鐘を鳴らしている。実際、米国では被害が出ている。

 ファームウェアレベルのマルウェアに関しては、今までの仕組みでは対処ができない。最悪の場合、サーバーが起動しないため、ハードウェアごと交換するしか対処できない。

 Xeon Scalableではいくつかのセキュリティ機能が追加されているが、これらの機能だけでは対処ができない。そこで、Hewlett Packard Enterprise(HPE)のXeon Scalableを採用したサーバーでは、HPEの管理システム「iLO」を機能強化して、ファームウェアレベルでの正常性をチェックし、異常があった際には正常なバックアップから上書きして、ファームウェアを元に戻す機能などが追加されている。

Xeon ScalableとC620チップセットにより、ブート時のセキュリティをBoot Guardがサポートされた(米Intelの発表会資料より)
Intel PTTによってサーバーシステム全体の正常性を確認する(米Intelの発表会資料より)

OmniPath搭載のスペシャルモデルも

 なお、Xeon Scalableのスペシャルモデルとして、OmniPath(100Gbps)を持った製品も用意されている。

 OmniPathは、HPCなどのファブリックインターフェイスとしてXeon Phiが採用したもので、OmniPathを持ったXeon Scalableには、四角いプロセッサから飛び出た部分があるが、ここがOmniPathファブリックだ。マザーボード側では、プロセッサのソケットだけでなく、OmniPathも接続することになる。

 OmniPathは、InfiniBandなどの高速ネットワークと同じような使い方をされるだろう。HPCなどでは、高速で低レイテンシのOmniPathを使って、大規模なクラスタを構築することが可能になる。

 Xeon Scalableでは、プロセッサから直接OmniPathが出ているため、PCIe 3.0インターフェイスなどを経由する場合に比べてボトルネックになる部分がなく、高速なネットワークが構築できる。

通常のパッケージに、OmniPathのピンが付いている。Intelとしては、HPCなどで利用されているInfiniBandをOmniPathで置き換えたいと考えている(米Intelの広報写真より)

Xeon Scalableのパフォーマンスは

 それでは、肝心のパフォーマンスはどうなのだろうか。

 Intelが行ったベンチマークでは、2ソケットのサーバーに搭載した、前世代のXeon E5 2699 v4(22コア、2.2GHz/3.6GHz)とPlatinum 8180(28コア、2.5GHz/3.8GHz)を比較しているが、HPCのベンチマークとして使われているLINPACKにおいて、Xeon Scalableは旧モデルと比べて2.27倍の性能を示している。その他のデータベースのベンチマークなどでも、1.65倍の性能を示している。

Intelは、Xeon ScalableとC620周辺チップの組み合わせで、前世代よりも1.6倍の性能向上を実現していると語っている
2ソケットサーバーでは、Xeon E5よりも平均1.65倍の性能向上を果たしている

 また、4ソケットサーバーにおいては、Xeon E7-8890 v4(24コア、2.2GHz/3.6GHz)とPlatinum 8180の比較において、Xeon ScalableはLINPACKで1.89倍、データベースのベンチマークでも約1.5倍の性能を示している。

4ソケットサーバーでは、Xeon E7と比べて平均1.5倍の性能向上を示している
早期導入企業では実際の環境に導入し、1.5倍~2倍の性能向上を示しているという

 さらに、QATなどを使ったベンチマーク(Open SSLなど)では、約6倍の性能を示している。

OpenSSLでQATを利用するようにすると、同じXeon Scalable同士でも、約6倍の性能差が出る。多くのアプリケーションでQATがサポートされれば、今まで負荷が高かった暗号化などの部分を高速化できる

 もっともPlatinum 8180の価格は約1万ドルと、非常に高価だ。Platinum 8180で4ソケットサーバーを構築すると、プロセッサだけで約4万ドルになる。サーバー全体としては1000万円クラスになるだろう。前世代からデータベースのベンチマークが約1.5倍に向上するとしても、すぐにリプレースするのは難しいだろう。

 もっとも、Platinum 8180がずばぬけて高価なだけで、Platinum 8153(16コア、2GHz/2.8GHz)なら3115ドル、Gold 6152(22コア、通常2.1GHz/最大3.7GHz)なら3661ドルとなる。8ソケットサーバーとなれば、Platinum 8100シリーズしかなくなるが、4ソケットサーバーならPlatinum 8100シリーズとGold 6100シリーズの2つの選択肢ができる。このあたりなら、現実的な価格でサーバーが購入できるのではないか。

 また2ソケットサーバーの場合は、Gold~Bronzeまでの選択肢があるが、企業のミッションクリティカルサーバーとして考えるなら、Gold 6100もしくは、Platinum 8100になると思われる。SilverやBronzeは、Run Sure Technologyなどがないため、信頼性、可用性、保守性などを考えれば、Gold以上のプロセッサになるだろう。

 もし、HPC分野で多用されたり、AI分野で利用されるAVX-512命令を重視するならAVX-512のFMAが多いGold 6100以上の選択肢になる。ただ、AVX-512は一般的な業務アプリケーション用途では、あまり高いパフォーマンスを示さないため、Gold 5100シリーズでいいだろう。

AVX512をサポートしたHPC用のベンチマークLinpackを、Xeon E5とXeon Scalableで比較すると、約2.2倍の性能差がある。HPC分野で2倍以上の性能差は、非常に大きなメリットだ

*****

 今後は、Xeon Scalableは、AMDのEPYCとの激しい競争にさらされていくだろう。サーバー市場は、非常にコンサバティブであるため、すぐにEPYCが普及するとはならないが、プロセッサのコストを見れば、EPYCの方が1/2ほど安くなっている。

 AMDがシステム部門の信頼感を得られれば、価格面などから、EPYCが普及するかもしれない。システム部門は今後、AMDの動向やパブリッククラウドの動向も考えて、ITシステムを導入していく必要があるだろう。