ニュース

Intel、1～2ソケット向け第3世代Xeon Scalable Processorsを発表　トップSKUは40コアに

AI推論性能でAMD EPYCを最大1.5倍、NVIDIA A100を最大1.3倍上回る

笠原一輝

2021年4月7日 00:00

　半導体メーカーの米Intelは、4月6日（米国太平洋時間）午前8時よりオンラインで記者会見を開催しており、その中で同社がIce Lake（アイスレイク）の開発コード名で開発してきた、Intelの10nmプロセスルールで製造される1～2ソケット向けサーバープロセッサを、「第3世代Xeon Scalable Processors（以下第3世代Xeon SP）」として発表した。

　今回発表された第3世代Xeon SPには、Intelの新しい世代のCPUコア「Sunny Cove」が採用されており、最大40コアへと強化されている（従来製品は28コアまで）。メモリはDDR4-3200を8チャネル構成で利用でき、ソケットあたり最大6TBまで利用可能。さらに第2世代のOptane Persistent Memoryに対応する。

　また、この世代から新しく64レーンのPCI Express Gen 4に対応し、PCI Express Gen 4に対応したOptane SSDなどを最大性能で利用可能になった。

　Intelによれば、AIの推論時性能は従来世代と比較して平均46％高速化されており、20の一般的なAIワークロードで比較した場合、AMDの第3世代EPYC（Milan）と比べて最大1.5倍、NVIDIA A100 GPUと比べて最大1.3倍の性能を発揮すると説明している。

　なおIntelによると、第3世代Xeon SPはすでに大量出荷が開始されており、第1四半期中に20万個が出荷済み。すでに50のOEM/ODMにおいて、250の製品に採用が決まっているとのこと。

Intelの1-2ソケット向け第3世代Xeon Scalable Processorsの概要（出典：Intel）

10nmへの微細化、Cove系コアの採用によりIPCが前世代と比較して約20％向上

　今回Intelが発表した、開発コード名Ice Lakeこと第3世代Xeon SPは、Intel自身が所有する工場で、10nmプロセスルールというIntelの最新製造技術を利用して製造される製品となる。

　プロセスルールとは、ゲート長と呼ばれるトランジスタの最小単位の長さを数字にしたもの。その数字が小さければ小さいほど、より進んだ技術であることを示している。Intelは常々、同社のプロセスルールは他社のプロセスルールの1世代先と同じ性能を有していると主張しており、その通りであれば、競合メーカーとなるAMDが製造に利用している、台湾のTSMCの7nmプロセスルールと同等クラスの性能や低消費電力を実現するものとなる。

　このIce Lakeだが、第3世代Xeon SPとしては最初の製品ではない。Intelはすでに、2020年6月に開発コード名「Cooper Lake」（クーパーレイク）で知られる、14nmプロセスルールで製造される製品を第3世代Xeon SPとして発表している。

Intel、Cooper Lakeを第3世代Xeon Scalable Processorsとして正式発表　4～8ソケット向け
https://cloud.watch.impress.co.jp/docs/news/1259942.html

　ただしCooper Lakeはいずれも4ソケット～8ソケット向けとされており、メインストリームとなる1～2ソケット向けは、第2世代Xeon SP（開発コード名：Cascade Lake、カスケードレイク）のまま据え置かれていた。

　今回、Ice Lakeが第3世代Xeon SPとして発表されたことで、1～2ソケットも第3世代に移行することになる（なお、以下で第3世代Xeon SPと表記した場合にはCooper Lakeは含まず、Ice Lakeベースのことだけとする）。CPUソケットはLGA4189（Socket P＋）となり、Cooper Lakeと同じだ。

第3世代Xeon SPのハイレベルな概要（出典：Intel）

　今回の第3世代Xeon SPで、Intelは大きなアーキテクチャ上の変更を行っており、それが後述する大きな性能強化につながっている。

　具体的には、CPUのマイクロアーキテクチャ（CPUのハードウェア上の設計のこと）が、Intelの最新世代のCove系コアに変更されていることだ。IntelのCove系CPUは、クライアントPC向けのIce Lake（第10世代Coreプロセッサ）にて導入されたもので、プロセスルールから独立して設計されており、どんなプロセスルールを利用しても製造できるように配慮されている。

　Cove系コアではまた、フロントエンド（分岐予測やデコーダなど）も見直されており、IPC（Instruction Per Clock-cycle）が改善。CPUとしての性能が向上している。Intelによれば、同じ28コア同士の比較で20％程度のIPC向上が実現されているという。

　今回のIce Lakeでは、クライアントPC向けのIce Lakeと同じくSunny Coveという開発コード名の、Cove系CPUマイクロアーキテクチャでは最初の世代のCPUになっている。それに加えて、従来製品（初代Xeon SP＝Skylake-SP、第2世代Xeon SP＝Cascade Lake-SP）では最大28コアまでだったCPUコア数が大きく増やされ、最大40コアになった。

　競合となるAMD EPYCは第2世代（Rome）、第3世代（Milan）で最大64コアとなっているので、コア数では追い付いていないが、Intel側は最大28コアに長く据え置かれてきたので、差はぐっと縮めたことになる。CPUコアが増え、かつCPUのマイクロアーキテクチャが改良されたことで性能は大きく向上しており、ワークロードによっては、直接の競合となる第3世代EPYCを上回る性能を発揮できるという（性能に関しては後述）。

キャッシュ階層の改良、メモリ8チャネル化、UPI高速化、PCI Express Gen 4対応など多くの点で強化

　すでに述べた通り、キャッシュ階層の見直しも大きな効果がある。従来製品（第2世代Xeon SP）ではL1キャッシュが32KB（命令）＋32KB（データ）、L2キャッシュが1MB、L3キャッシュが1.375MBとなっていた（いずれもCPUコア1つあたり）。

　これに対して、今回の第3世代Xeon SPではL1キャッシュは命令こそ32KBにとどまっているが、データキャッシュは48KBに強化され、さらにL2キャッシュは1.25MBに、L3キャッシュは1.5MBへと増やされている（同）。

　加えて、従来世代ではメモリチャネルは6チャネルでDDR4-2933までの対応となっていたが、今回の製品では8チャネルでDDR4-3200までの対応へと強化された。これによりメモリレイテンシが大きく改善されているほか、ソケットあたりの最大メモリ容量は6TBになっている。

第3世代Xeon SPのハードウェア（出典：Intel）

　なお、4～8ソケット用の第3世代Xeon SPと同時に発表されていたSCM（Storage Class Memory）の第2世代、「Optane Persistent Memory 200シリーズ」にも対応している。第1世代のOptane Persistent Memoryでは、メモリの速度が2666MT/秒までとなっていたが、第2世代では3200MT/秒まで引き上げられており、TDPも15Wに引き下げられるなどの改善が図られた。

　また、システム側が8チャネルに対応したため、1ソケットあたりの最大容量も4TBまで引き上げられている。

Optane Persistent Memory 200シリーズ（出典：Intel）

　このほか、I/Oの強化も大きな特徴と言える。UPIと呼ばれる、CPUとCPUの間を接続するインターコネクトは、3つまでというスペックは一緒だが、接続速度が強化されており、従来までの10.4GT/秒から11.2GT/秒となった。

　同様に、ストレージやネットワークデバイスを接続するためのPCI Expressは、従来世代まではGen 3の48レーンだったのに対して、第3世代Xeon SPではGen 4の64レーンへと強化された。特にPCI Express Gen 4への対応は重要な強化で、PCI Express Gen 4に対応したSSDなどと組み合わせて利用することにより、仮想マシンの応答速度を向上可能になる。

　Intelでは、「Intel Memory and Storage Moment 2020」と題した2020年12月のイベントにおいて、「Intel Optane SSD P5800X」という、Optaneをフラッシュメモリのようにストレージに利用する製品「Optane SSD」のデータセンター向け最新製品を発表しており、400GB/800GB/1.6TB/3.2TBの容量をU.2フォームファクタで実現している。

　同製品もPCI Express Gen 4に対応している。そうした製品と組み合わせて利用することで、サーバー全体の性能を引き上げることができる。

Intel Optane SSD P5800X（出典：Intel）

Intel、NAND事業売却後も2025年までは自社ブランドウェハを製造。新SSDを多数発表（PC Watch）
https://pc.watch.impress.co.jp/docs/news/1295739.html

　またIntelは、PCI Express Gen 4に対応したイーサネットアダプタ「Intel Ethernet 800シリーズ」の最新製品として、「E810-2CQDA2」を同時に発表している。1つのPCI Express Gen 4 x16スロットに、200Gbpsに対応したイーサネットが搭載可能で、2つのQSDP28ポートそれぞれで100Gbpsを実現できるという。

E810-2CQDA2を発表（出典：Intel）

暗号化関連の並列実行性を向上させるAVX512の追加命令とメモリ関連のセキュリティを向上させる機能を搭載

　今回の第3世代Xeon SPでは、新しい命令セットがいくつも追加され、セキュリティ機能が強化されている。Intelは初代Xeon SP（Skylake-SP）でAVX-512命令を導入したが、今回の第3世代Xeon SPではいくつかの新しいAVX512命令を追加した。

　具体的にはVector CLMUL、Vector-AES、VPMADD52、SHA NI、GFNI（Galois Field New Instructions）などで、主に暗号化や復号のための命令セットとなる。暗号化や復号のアプリケーションがこれらの命令セットを活用することで、CPUはこれらの処理をより並列化して実行可能になり、大きく性能が向上することになる。

AVX512の暗号化関連の新命令セットが追加（出典：Intel）

　IntelによればオープンソースのWebサーバーとなる「Nginx（エンジンエックス）」を利用した場合には4.2倍、IPsecを利用したベクターパケットプロセッシングでは1.94倍に、暗号化などの処理能力が向上するとのこと。

nginxで4.2倍、IPsecで1.94倍の性能向上を実現（出典：Intel）

　セキュリティ関連ではほかに、「Intel Software Guard Extensions」、「Intel Total Memory Encryption」などの機能が追加される。

Intel Software Guard Extensions、Intel Total Memory Encryptionが追加される（出典：Intel）

　このうちSoftware Guard Extensions（SGX）は、クライアントPC向けにはすでに導入されている機能（第6世代Coreプロセッサ以降で導入されている）で、アプリケーションが利用するメモリ領域に、CPUが持つ暗号化鍵を利用した「Secure Enclaves」（あえて日本語に訳すとすれば安全領域とでもなるだろうか）を作成する。

　外部からの攻撃に対して守る必要のあるデータをそのSecure Enclavesに格納することで安全性を高めるという仕組みになる。これにより、いわゆる「cold boot」と呼ばれる、動作しているメモリを引き抜いてほかのマザーボードなどに挿すことで、中の情報を引き出すなどの物理的な攻撃を受けても、Secure Enclavesに格納しているデータを取り出すことができなくなるので、よりセキュリティ性を高められる。

　なお、このSecure Enclavesの最大容量はSKUによって異なっており、どの容量まで利用できるかは、後述するSKU構成の表をご参照いただきたい。

Intel Software Guard Extensions（SGX）（出典：Intel）

　一方のIntel Total Memory Encryptionは、CPU内部のOSやアプリケーションがアクセスできないエリアにあるエンジンを利用して、メモリ容量全体を暗号化してしまう仕組みだ。こちらもメモリ全体を暗号化してしまうため、cold boot攻撃を受けたとしても、取り出せたデータは暗号化されているので意味がないことになる。

　ただし、メモリ全体を暗号化することになるので、性能の低下は当然発生する。このため、一部のデータだけを暗号化すればよいということであれば、SGXを選んだ方が安全性と性能の両立が可能になる。このあたりはユーザーのチョイス次第ということになるだろう。

AI推論性能でAMD EPYCを最大1.5倍、NVIDIA A100を最大1.3倍上回る

　今回発表した第3世代Xeon SPのSKU構成は以下のようになっている。

　なお、SKUの名称で数字の後にMがつくものはAIに最適化されたもの、Nがつくものはネットワーク機器向けに最適化されたもの、PがつくものはIaaSクラウド向けに最適化されたもの、Qがつくのは水冷向け、Tはサーマルに最適化され長期の寿命を意識したもの、Uは1ソケット向け、VはSaaSクラウド向けに最適化されたもの、YはIntel SpeedShift Technologyでパフォーマンスプロファイル2.0に対応したものとなる。

表1：第3世代Xeon SPのSKU構成（Intelの資料より筆者作成）と奨励顧客価格（RCP/米ドル）

　性能に関しては、前世代と比較するとクラウド向けのワークロードで1.5倍、5Gのネットワーク機器向けで1.62倍、IoT機器向けのAI画像認識で1.56倍、HPCのワークロードで1.57倍、さらにAIでは1.74倍という性能向上が明らかにされている。

　Intelによれば、前世代と比較して平均46％性能が向上しているという。

前世代と比較したベンチマーク結果（出典：Intel）

　さらに競合との比較では、AMDの第3世代EPYCの最上位となるEPYC 7763（64コア）とXeon Platinum 8380（40コア）を比べると、AIの推論を利用した画像処理で、Intelの新しい命令セットなどを利用して最適化すると25倍、20の一般的なAI/マシンラーニングのワークロードでは最大1.5倍になるという。

　また同様に、20の一般的なAI/マシンラーニングのワークロードでNVIDIA A100 GPUと比べた場合、最大1.3倍になるとIntelでは説明している。

AMD EPYC、NVIDIA A100 GPUと比べ、AI/マシンラーニングでの推論性能では、前者に対して最大1.5倍、後者に対して最大1.3倍の性能を実現したという（出典：Intel）

　Intelによれば、すでに第3世代Xeon SPの出荷は開始されており、第1四半期中には20万個が顧客に向けて出荷されているという。また、50のOEM/ODMで採用が決定しており、今後250を超える製品が登場する見通しだ。さらにAWS（Amazon Web Services）、Microsoft Azure、Google Cloudなど、パブリッククラウド事業者経由での提供や、HPCの研究所などでの採用が決まっているほか、韓国のSK Telecom、アメリカのVerizon、スペインのテレフォニカなどの通信会社でも採用が決まっている、ないしはPOCの段階にあると、Intelでは説明している。

50を超えるOEM/ODMで250のシステムが出荷予定（出典：Intel）

Intel、1～2ソケット向け第3世代Xeon Scalable Processorsを発表 トップSKUは40コアに

10nmへの微細化、Cove系コアの採用によりIPCが前世代と比較して約20％向上

キャッシュ階層の改良、メモリ8チャネル化、UPI高速化、PCI Express Gen 4対応など多くの点で強化

暗号化関連の並列実行性を向上させるAVX512の追加命令とメモリ関連のセキュリティを向上させる機能を搭載

AI推論性能でAMD EPYCを最大1.5倍、NVIDIA A100を最大1.3倍上回る

Intel、1～2ソケット向け第3世代Xeon Scalable Processorsを発表　トップSKUは40コアに