ニュース

Intel、1~2ソケット向け第3世代Xeon Scalable Processorsを発表 トップSKUは40コアに

AI推論性能でAMD EPYCを最大1.5倍、NVIDIA A100を最大1.3倍上回る

 半導体メーカーの米Intelは、4月6日(米国太平洋時間)午前8時よりオンラインで記者会見を開催しており、その中で同社がIce Lake(アイスレイク)の開発コード名で開発してきた、Intelの10nmプロセスルールで製造される1~2ソケット向けサーバープロセッサを、「第3世代Xeon Scalable Processors(以下第3世代Xeon SP)」として発表した。

 今回発表された第3世代Xeon SPには、Intelの新しい世代のCPUコア「Sunny Cove」が採用されており、最大40コアへと強化されている(従来製品は28コアまで)。メモリはDDR4-3200を8チャネル構成で利用でき、ソケットあたり最大6TBまで利用可能。さらに第2世代のOptane Persistent Memoryに対応する。

 また、この世代から新しく64レーンのPCI Express Gen 4に対応し、PCI Express Gen 4に対応したOptane SSDなどを最大性能で利用可能になった。

 Intelによれば、AIの推論時性能は従来世代と比較して平均46%高速化されており、20の一般的なAIワークロードで比較した場合、AMDの第3世代EPYC(Milan)と比べて最大1.5倍、NVIDIA A100 GPUと比べて最大1.3倍の性能を発揮すると説明している。

 なおIntelによると、第3世代Xeon SPはすでに大量出荷が開始されており、第1四半期中に20万個が出荷済み。すでに50のOEM/ODMにおいて、250の製品に採用が決まっているとのこと。

Intelの1-2ソケット向け第3世代Xeon Scalable Processorsの概要(出典:Intel)

10nmへの微細化、Cove系コアの採用によりIPCが前世代と比較して約20%向上

 今回Intelが発表した、開発コード名Ice Lakeこと第3世代Xeon SPは、Intel自身が所有する工場で、10nmプロセスルールというIntelの最新製造技術を利用して製造される製品となる。

 プロセスルールとは、ゲート長と呼ばれるトランジスタの最小単位の長さを数字にしたもの。その数字が小さければ小さいほど、より進んだ技術であることを示している。Intelは常々、同社のプロセスルールは他社のプロセスルールの1世代先と同じ性能を有していると主張しており、その通りであれば、競合メーカーとなるAMDが製造に利用している、台湾のTSMCの7nmプロセスルールと同等クラスの性能や低消費電力を実現するものとなる。

 このIce Lakeだが、第3世代Xeon SPとしては最初の製品ではない。Intelはすでに、2020年6月に開発コード名「Cooper Lake」(クーパーレイク)で知られる、14nmプロセスルールで製造される製品を第3世代Xeon SPとして発表している。

Intel、Cooper Lakeを第3世代Xeon Scalable Processorsとして正式発表 4~8ソケット向け
https://cloud.watch.impress.co.jp/docs/news/1259942.html

 ただしCooper Lakeはいずれも4ソケット~8ソケット向けとされており、メインストリームとなる1~2ソケット向けは、第2世代Xeon SP(開発コード名:Cascade Lake、カスケードレイク)のまま据え置かれていた。

 今回、Ice Lakeが第3世代Xeon SPとして発表されたことで、1~2ソケットも第3世代に移行することになる(なお、以下で第3世代Xeon SPと表記した場合にはCooper Lakeは含まず、Ice Lakeベースのことだけとする)。CPUソケットはLGA4189(Socket P+)となり、Cooper Lakeと同じだ。

第3世代Xeon SPのハイレベルな概要(出典:Intel)

 今回の第3世代Xeon SPで、Intelは大きなアーキテクチャ上の変更を行っており、それが後述する大きな性能強化につながっている。

 具体的には、CPUのマイクロアーキテクチャ(CPUのハードウェア上の設計のこと)が、Intelの最新世代のCove系コアに変更されていることだ。IntelのCove系CPUは、クライアントPC向けのIce Lake(第10世代Coreプロセッサ)にて導入されたもので、プロセスルールから独立して設計されており、どんなプロセスルールを利用しても製造できるように配慮されている。

 Cove系コアではまた、フロントエンド(分岐予測やデコーダなど)も見直されており、IPC(Instruction Per Clock-cycle)が改善。CPUとしての性能が向上している。Intelによれば、同じ28コア同士の比較で20%程度のIPC向上が実現されているという。

 今回のIce Lakeでは、クライアントPC向けのIce Lakeと同じくSunny Coveという開発コード名の、Cove系CPUマイクロアーキテクチャでは最初の世代のCPUになっている。それに加えて、従来製品(初代Xeon SP=Skylake-SP、第2世代Xeon SP=Cascade Lake-SP)では最大28コアまでだったCPUコア数が大きく増やされ、最大40コアになった。

 競合となるAMD EPYCは第2世代(Rome)、第3世代(Milan)で最大64コアとなっているので、コア数では追い付いていないが、Intel側は最大28コアに長く据え置かれてきたので、差はぐっと縮めたことになる。CPUコアが増え、かつCPUのマイクロアーキテクチャが改良されたことで性能は大きく向上しており、ワークロードによっては、直接の競合となる第3世代EPYCを上回る性能を発揮できるという(性能に関しては後述)。

キャッシュ階層の改良、メモリ8チャネル化、UPI高速化、PCI Express Gen 4対応など多くの点で強化

 すでに述べた通り、キャッシュ階層の見直しも大きな効果がある。従来製品(第2世代Xeon SP)ではL1キャッシュが32KB(命令)+32KB(データ)、L2キャッシュが1MB、L3キャッシュが1.375MBとなっていた(いずれもCPUコア1つあたり)。

 これに対して、今回の第3世代Xeon SPではL1キャッシュは命令こそ32KBにとどまっているが、データキャッシュは48KBに強化され、さらにL2キャッシュは1.25MBに、L3キャッシュは1.5MBへと増やされている(同)。

 加えて、従来世代ではメモリチャネルは6チャネルでDDR4-2933までの対応となっていたが、今回の製品では8チャネルでDDR4-3200までの対応へと強化された。これによりメモリレイテンシが大きく改善されているほか、ソケットあたりの最大メモリ容量は6TBになっている。

第3世代Xeon SPのハードウェア(出典:Intel)

 なお、4~8ソケット用の第3世代Xeon SPと同時に発表されていたSCM(Storage Class Memory)の第2世代、「Optane Persistent Memory 200シリーズ」にも対応している。第1世代のOptane Persistent Memoryでは、メモリの速度が2666MT/秒までとなっていたが、第2世代では3200MT/秒まで引き上げられており、TDPも15Wに引き下げられるなどの改善が図られた。

 また、システム側が8チャネルに対応したため、1ソケットあたりの最大容量も4TBまで引き上げられている。

Optane Persistent Memory 200シリーズ(出典:Intel)

 このほか、I/Oの強化も大きな特徴と言える。UPIと呼ばれる、CPUとCPUの間を接続するインターコネクトは、3つまでというスペックは一緒だが、接続速度が強化されており、従来までの10.4GT/秒から11.2GT/秒となった。

 同様に、ストレージやネットワークデバイスを接続するためのPCI Expressは、従来世代まではGen 3の48レーンだったのに対して、第3世代Xeon SPではGen 4の64レーンへと強化された。特にPCI Express Gen 4への対応は重要な強化で、PCI Express Gen 4に対応したSSDなどと組み合わせて利用することにより、仮想マシンの応答速度を向上可能になる。

 Intelでは、「Intel Memory and Storage Moment 2020」と題した2020年12月のイベントにおいて、「Intel Optane SSD P5800X」という、Optaneをフラッシュメモリのようにストレージに利用する製品「Optane SSD」のデータセンター向け最新製品を発表しており、400GB/800GB/1.6TB/3.2TBの容量をU.2フォームファクタで実現している。

 同製品もPCI Express Gen 4に対応している。そうした製品と組み合わせて利用することで、サーバー全体の性能を引き上げることができる。

Intel Optane SSD P5800X(出典:Intel)

Intel、NAND事業売却後も2025年までは自社ブランドウェハを製造。新SSDを多数発表(PC Watch)
https://pc.watch.impress.co.jp/docs/news/1295739.html

 またIntelは、PCI Express Gen 4に対応したイーサネットアダプタ「Intel Ethernet 800シリーズ」の最新製品として、「E810-2CQDA2」を同時に発表している。1つのPCI Express Gen 4 x16スロットに、200Gbpsに対応したイーサネットが搭載可能で、2つのQSDP28ポートそれぞれで100Gbpsを実現できるという。

E810-2CQDA2を発表(出典:Intel)

暗号化関連の並列実行性を向上させるAVX512の追加命令とメモリ関連のセキュリティを向上させる機能を搭載

 今回の第3世代Xeon SPでは、新しい命令セットがいくつも追加され、セキュリティ機能が強化されている。Intelは初代Xeon SP(Skylake-SP)でAVX-512命令を導入したが、今回の第3世代Xeon SPではいくつかの新しいAVX512命令を追加した。

 具体的にはVector CLMUL、Vector-AES、VPMADD52、SHA NI、GFNI(Galois Field New Instructions)などで、主に暗号化や復号のための命令セットとなる。暗号化や復号のアプリケーションがこれらの命令セットを活用することで、CPUはこれらの処理をより並列化して実行可能になり、大きく性能が向上することになる。

AVX512の暗号化関連の新命令セットが追加(出典:Intel)

 IntelによればオープンソースのWebサーバーとなる「Nginx(エンジンエックス)」を利用した場合には4.2倍、IPsecを利用したベクターパケットプロセッシングでは1.94倍に、暗号化などの処理能力が向上するとのこと。

nginxで4.2倍、IPsecで1.94倍の性能向上を実現(出典:Intel)

 セキュリティ関連ではほかに、「Intel Software Guard Extensions」、「Intel Total Memory Encryption」などの機能が追加される。

Intel Software Guard Extensions、Intel Total Memory Encryptionが追加される(出典:Intel)

 このうちSoftware Guard Extensions(SGX)は、クライアントPC向けにはすでに導入されている機能(第6世代Coreプロセッサ以降で導入されている)で、アプリケーションが利用するメモリ領域に、CPUが持つ暗号化鍵を利用した「Secure Enclaves」(あえて日本語に訳すとすれば安全領域とでもなるだろうか)を作成する。

 外部からの攻撃に対して守る必要のあるデータをそのSecure Enclavesに格納することで安全性を高めるという仕組みになる。これにより、いわゆる「cold boot」と呼ばれる、動作しているメモリを引き抜いてほかのマザーボードなどに挿すことで、中の情報を引き出すなどの物理的な攻撃を受けても、Secure Enclavesに格納しているデータを取り出すことができなくなるので、よりセキュリティ性を高められる。

 なお、このSecure Enclavesの最大容量はSKUによって異なっており、どの容量まで利用できるかは、後述するSKU構成の表をご参照いただきたい。

Intel Software Guard Extensions(SGX)(出典:Intel)

 一方のIntel Total Memory Encryptionは、CPU内部のOSやアプリケーションがアクセスできないエリアにあるエンジンを利用して、メモリ容量全体を暗号化してしまう仕組みだ。こちらもメモリ全体を暗号化してしまうため、cold boot攻撃を受けたとしても、取り出せたデータは暗号化されているので意味がないことになる。

 ただし、メモリ全体を暗号化することになるので、性能の低下は当然発生する。このため、一部のデータだけを暗号化すればよいということであれば、SGXを選んだ方が安全性と性能の両立が可能になる。このあたりはユーザーのチョイス次第ということになるだろう。

AI推論性能でAMD EPYCを最大1.5倍、NVIDIA A100を最大1.3倍上回る

 今回発表した第3世代Xeon SPのSKU構成は以下のようになっている。

 なお、SKUの名称で数字の後にMがつくものはAIに最適化されたもの、Nがつくものはネットワーク機器向けに最適化されたもの、PがつくものはIaaSクラウド向けに最適化されたもの、Qがつくのは水冷向け、Tはサーマルに最適化され長期の寿命を意識したもの、Uは1ソケット向け、VはSaaSクラウド向けに最適化されたもの、YはIntel SpeedShift Technologyでパフォーマンスプロファイル2.0に対応したものとなる。

表1:第3世代Xeon SPのSKU構成(Intelの資料より筆者作成)と奨励顧客価格(RCP/米ドル)

 性能に関しては、前世代と比較するとクラウド向けのワークロードで1.5倍、5Gのネットワーク機器向けで1.62倍、IoT機器向けのAI画像認識で1.56倍、HPCのワークロードで1.57倍、さらにAIでは1.74倍という性能向上が明らかにされている。

 Intelによれば、前世代と比較して平均46%性能が向上しているという。

前世代と比較したベンチマーク結果(出典:Intel)

 さらに競合との比較では、AMDの第3世代EPYCの最上位となるEPYC 7763(64コア)とXeon Platinum 8380(40コア)を比べると、AIの推論を利用した画像処理で、Intelの新しい命令セットなどを利用して最適化すると25倍、20の一般的なAI/マシンラーニングのワークロードでは最大1.5倍になるという。

 また同様に、20の一般的なAI/マシンラーニングのワークロードでNVIDIA A100 GPUと比べた場合、最大1.3倍になるとIntelでは説明している。

AMD EPYC、NVIDIA A100 GPUと比べ、AI/マシンラーニングでの推論性能では、前者に対して最大1.5倍、後者に対して最大1.3倍の性能を実現したという(出典:Intel)

 Intelによれば、すでに第3世代Xeon SPの出荷は開始されており、第1四半期中には20万個が顧客に向けて出荷されているという。また、50のOEM/ODMで採用が決定しており、今後250を超える製品が登場する見通しだ。さらにAWS(Amazon Web Services)、Microsoft Azure、Google Cloudなど、パブリッククラウド事業者経由での提供や、HPCの研究所などでの採用が決まっているほか、韓国のSK Telecom、アメリカのVerizon、スペインのテレフォニカなどの通信会社でも採用が決まっている、ないしはPOCの段階にあると、Intelでは説明している。

50を超えるOEM/ODMで250のシステムが出荷予定(出典:Intel)