ニュース

Intel、第4世代Xeon SPを正式に発表 アクセラレータを強化し2.9倍の電力効率と10倍のAI性能を実現

 Intelは1月10日(現地時間、日本時間1月11日)に報道発表を行い、同社が「Sapphire Rapids(サファイアラピッズ)」の開発コード名で開発してきたデータセンター向けCPUを、「第4世代Xeonスケーラブル・プロセッサー」(英語名:4th Gen Xeon Scalable Processors 以下、第4世代Xeon SP)として提供開始したことを明らかにした。

Intelが発表した第4世代Xeon SP。4つのダイがサブ基板上で1つのパッケージにまとめられている

 第4世代Xeon SPは、新しくチップレットの技術が採用され、2種類あるダイ構成のうち、XCCは、4つのCPUダイが1つのパッケージ上に統合され、1パッケージで最大60コアを実現している。

 またCPUコアも、クライアントPC向けのCPU(第12世代Core、第13世代Core)で採用されているGolden Coveへと強化され、クロックあたりの性能が強化されたほか、新しい拡張命令のAMX(Advanced Matrix eXtensions)、さらにはQAT(QuickAssist Technology)、DLB(Dynamic Load Balancer)、DSA(Data Streaming Accelerator)、IAA(In-Memory Analytics Accelerator)といったハードウェアアクセラレータを搭載しており、CPUの処理をオフロードすることで電力効率を改善して、性能を向上させることができる。

 Intelによれば、同社の前世代製品と比較して、汎用演算の電力効率は2.9倍となり、AMXを利用してAI推論を演算した時には、約10倍の性能を実現可能になるという。

1ソケットから8ソケットまでをカバーする第4世代Xeon SP、CPUコアが強化され周波数あたりの性能が15%向上

 Intelが発表した第4世代Xeon SPは、これまで開発コード名「Sapphire Rapids」で呼ばれてきた製品で、本来であれば昨年に発表される予定だったが、さまざまな要因から今年にずれ込んで発表されることになった。

 第4世代Xeon SPは、2021年に発表された第3世代Xeonスケーラブル・プロセッサー(開発コード名:Ice Lake-SP 以下、第3世代Xeon SP)の後継となる製品で、CPUコアの内部アーキテクチャでも、CPUのパッケージレベルでも、そしてPCI Express Gen 5やCXLへの対応といったプラットフォームレベルでも、それまでのサーバー向けプロセッサーから完全に一新されていることが大きな特徴となる。

第4世代Xeon SPの概要

 また、第3世代Xeon SPでは1~2ソケットのIce Lake-SPと、4~8ソケットのCooper Lakeという2つの製品に分かれていたが、第4世代Xeon SPでは1~8ソケットすべてを単一の製品でカバーすることになる(ただし、4~8ソケットに利用できるかどうかは後述するSKUにより異なる)。

2ソケットまでだけでなく、4~8ソケットにも対応

・Intel、1~2ソケット向け第3世代Xeon Scalable Processorsを発表 トップSKUは40コアに
https://cloud.watch.impress.co.jp/docs/news/1316831.html

・Intel、Cooper Lakeを第3世代Xeon Scalable Processorsとして正式発表 4~8ソケット向け
https://cloud.watch.impress.co.jp/docs/news/1259942.html

 CPUコアは、第3世代Xeon SPで採用されていたSunny Cove(開発コード名)から、Golden Coveという最新のCPUデザインへと変更されている。Golden Coveは、クライアントPC向けの第12世代Core/第13世代Coreでも採用されているIntelの最新CPUデザインで、Intelが「パフォーマンス・ハイブリッド・アーキテクチャ」と呼ぶ、2種類のCPUコア(PコアとEコア)を組み合わせて性能向上させる仕組みのうち、Pコアとして採用されているCPUコアになる。

 第3世代Xeon SPに採用されていたSunny Coveと比べた場合、フロントエンド(x86命令を読み込んで内部命令に変換するデコーダなど)の強化に加え、キャッシュサイズでは、CPU1つあたりのL2キャッシュが1.25MBから2MBに、L3キャッシュが1.5MBから1.875MBに強化されており、クロック周波数あたりの性能が約15%増えている点が最大の特徴になる。

CPUコアはGolden Coveに変更され、クロック周波数あたりの性能は15%向上

新しい命令セットAMXと4つのハードウェアアクセラレータを搭載し、性能が大幅に向上

新しい命令セットAMXと4つの新しいハードウェアアクセラレータを搭載

 拡張命令セットやハードウェアのアクセラレータが強化されているのが第4世代Xeon SPのもう1つの特徴となる。

 拡張命令セットではAMX(Advanced Matrix eXtensions)が追加されている。AMXはCPUに搭載された新しい演算器「TMUL(Tile Matrix multiply Unit)」を利用して効率よく行列演算を行う仕組みで、最近のAI推論処理を行うプロセッサー(CPU/GPU)で搭載されることがトレンドになっているものだ。AMXに対応したCPUでは、2つのTMULエンジンが内蔵されており、それを利用して行列演算を効率よく行える。それにより、イメージ認識やNLPといったマシンラーニング(機械学習)/ディープラーニング(深層学習)の推論処理を、従来よりも高効率で行うことが可能だ。

行列演算をより効率よく行うAMXに対応

 ハードウェアアクセラレータとしては、QAT(QuickAssist Technology)、DLB(Dynamic Load Balancer)、DSA(Data Streaming Accelerator)、IAA(In-Memory Analytics Accelerator)という4つのアクセラレータがCPUに内蔵されている。

 QATは、初代Xeon SP(開発コード名:Skylake)以降の製品でチップセット側に搭載されていたアクセラレータで、データの暗号化/複合化、圧縮エンジンとして利用できる。このQATが今回はチップセットからCPUへと移動され、より高速な処理が可能になっている。

 DLBは、CPUにデータを読み込んで処理する際に、データを実行効率の良い順序に並べ替えてキューに入れて実行するためのアクセラレータになる。それにより、CPUに負荷をかけることなく順序を入れ替えられるので、CPUの利用効率を上げることができる。IPsecゲートウェイ、仮想スイッチ、仮想ルーターといったSDN(Software Defined Network)などで効果があると、Intelは説明している。

 DSAはメモリにデータを書き込む際に、その書き込みをDSAにより最適化することで、より効率よくメモリに書き込むことが可能になる。それにより、ストレージに書き込む時間が高速化され、メモリへの書き込みに使うCPUのリソースをオフロードできるため、CPU全体の性能が向上する。仮想化環境、ERP、インメモリデータベースなどで効果がある。

 IAAは圧縮、解凍、スキャン/フィルターという3つのエンジンを内蔵しており、データを圧縮して読み込むことで、メモリの帯域を節約可能にする。それによりインメモリデータベースのアプリケーションでメモリの実効帯域を引き上げ可能になり、システム全体の性能が向上する。

4つの新しいハードウェアアクセラレータ

 このQAT、DLB、DSA、IAAはCPUに1~4個搭載されており、SKUにより利用できる数は異なっている。例えば、Xeon Platinum 8490HではQAT、DLB、DSA、IAAのすべて4個搭載されているが、下位SKUでは1つも利用できない場合もある。どのSKUでアクセラレータが利用できるかは、後述するSKU構成の表を参照いただきたい。

 また、拡張命令のAMX、そして4つのアクセラレータを利用するにはソフトウェア側の対応が必要になる。Intelはそれぞれ開発キットを提供しており、ISV(独立系ソフトウェアベンダー)はそれらの開発ツールを利用すると、AMXやアクセラレータに対応可能になる。

チップレットを採用して最大60コアを実現、CPUソケットやメモリ、プラットフォームも更新

 第4世代Xeon SPでは、パッケージ技術も、プラットフォームも大きく更新されている。今回は新しいパッケージング技術として、チップレットと呼ばれる、1つのパッケージに複数のダイを混載する技術が導入されている。第4世代Xeon SPで導入されているのは、Intelが自社開発したEMIB(Embedded Multi-die Interconnect Bridge)と呼ばれる、複数のダイをEmbedded Silicon Bridgeというブリッジチップで接続して、複数のチップを1パッケージ上に混載可能にする技術だ。

 データセンター向けCPUでは、AMDが初代EPYCから最新製品の第4世代EPYCまでの複数世代で、すでにチップレット技術を導入している。最新第4世代EPYCでは、1パッケージに96コアのCPUを実装可能にしており、それがEPYC成功の大きな原動力となっている。IntelもAMDに遅れはとったものの、CPUコアを増やすのに初めてチップレット技術を利用することになり、性能面でAMDをキャッチアップする大きな原動力になっていく可能性が高い。

 なおIntelは今回、XCC(eXtreme Core Count)とMCC(Medium Core Count)という2つのパッケージを用意しており、前者はチップレットで最大60コア(15コア×4)に、後者は最大32コアのモノリシックダイになっている。

 XCCには4つのCPUダイがEMIBで接続されており、各ダイの15コアのCPU、メモリコントローラ、UPIコントローラ、PCI Expressコントローラ、QAT/DLB/DSA/IAAという4つのハードウェアアクセラレータが実装されている。このため、パッケージ全体では60コアのCPU、4つのメモリコントローラ、4つのUPIコントローラ、4つのPCI Expressコントローラ、4つのQAT/DLB/DSA/IAA(アクセラレータ)があるという形になる。とはいっても、全部が有効になっている訳ではなく、アクセラレータはSKUによって利用できる数が異なっている。

XCC(15コアCPU×4)、MCC(32コア・モノリシック)、Maxシリーズ(15コアCPU×4+HBM2e)の3つのバリエーションが用意されている

 CPUソケットは、第3世代Xeon SPのLGA4189からLGA4677へと変更されている。ソケットとソケットを接続するインターコネクトUPIも、最大4リンクまで利用可能で、データ転送速度は16GT/秒に引き上げられた。また前述の通り、最大8ソケットまで対応している。

 今回はメモリもDDR5へと変更され、1DPC(1DIMM per Channel、1チャンネルあたりに1DIMM構成)でDDR5-4800、2DPCではDDR5-4400のスピードで利用可能になった。また、既にIntelが事業を終了することを決定したOptane Persistent Memoryも、最新のモジュールである300シリーズが利用でき、256GBのDDR5メモリモジュールで最大4TB、Optaneと組み合わせることでは最大6TBのメモリ構成が可能になっている。

 PCI Express Gen 5は、CPUソケットあたり80レーン利用可能。また、CXL 1.1に対応したデバイスは最大4つまで利用でき、Type1デバイスおよびType2デバイスを利用可能だ。

 また、チップセットもIntel C741に変更された。CPUとの接続を行うインターコネクトはDMI 4.0(物理層にはPCI Express Gen 4を利用)となって8レーンに強化され、帯域幅が4倍になったのが大きな特徴となっている。

プラットフォームの進化
DDR5、PCI Express Gen 5、CXL1.1、UPI 2.0などに対応
表1:第3世代Xeon SPと第4世代Xeon SPのプラットフォームの違い(Intel社の資料などより筆者作成)

AMXに対応するとAI推論性能は10倍に、50近いSKUを複数の領域向けに投入

 第4世代Xeon SPの性能は、利用するサーバーアプリケーションにより異なっている。前世代のトップSKUとなるXeon Platinum 8380の2ソケットと、Xeon Platinum 8490Hの2ソケットを比較した場合、1.47~10.02倍の性能向上が実現されている。インメモリデータベース(RocksDB)で2.93倍、AMXを利用してSSD-RN34(RT推論/BF16)で10倍の性能を発揮する。いずれもアクセラレータやAMXへの対応を含んでおり、第4世代Xeon SPの本当の持てる力を発揮させるには、AMXやアクセラレータの利用にソフトウェアが対応している必要があるということができるだろう。

 電力効率の改善も大きな特徴となっており、Optimized Power Modeと呼ばれている最適化された電力モードに設定した場合、5%の性能の犠牲とは引き換えになるが、最大20%の消費電力削減を実現可能になっている。このOptimized Power Modeの設定はシステムのBIOS設定で行え、それらを活用することで、第3世代Xeon SPと比較して電力効率は2.93倍改善されている。

性能の概要。従来世代に比べて、汎用演算で53%、AMX利用のAI推論で10倍、データアナリティクスで3倍、電力効率は2.9倍に
従来世代と比較したベンチマーク結果

 第4世代Xeonには以下のようなSKUが用意されている。SKUは用途に応じて用意されており、汎用向けのほか、液冷用、1S用、長寿命用、アナリティクス/仮想化用、5G/ネットワーキング用、クラウド用、ストレージ/HCI用、HPC(昨年中に発表されていたXeon Maxシリーズ)などが用意されている。

表2:第4世代Xeon SPのSKU構成と価格(Intelの資料より筆者作成)

 なお、実際の物理的なCPUコアよりも少ないCPUコアになっている場合や、アクセラレータが有効になっていないSKUでは、「Intel On Demand」と呼ばれる仕組みを利用して、OEMメーカーに追加料金を払うことで、機能を有効にする仕組みが採用されている。OEMメーカーがそうしたサービスを提供している場合には、購入後に、アクセラレータや無効になっているCPUコアの機能を有効化することも可能になる計画だ。

 Intelによれば、第4世代Xeon SPは既にOEMメーカーへの出荷が開始されており、Dell Technologies、HPE、LenovoなどのOEMメーカーやAWS、Microsoft Azure、Google CloudなどのCSP経由で搭載した製品やサービスなどが提供される計画としている。