ニュース

Intel、次世代DC向けプロセッサ「Sapphire Rapids」の概要を発表 4タイルを1パッケージに実装、DL演算向け新命令AMXに対応

 米Intelは19日(米国時間)、オンラインイベント「Intel Architecture Day 2021」を開催し、その中で、同社の次世代データセンター向けプロセッサとなる「Sapphire Rapids(サファイアラピッズ、開発コード名)」の詳細を発表した。

 Intelによれば、Sapphire Rapidsは、AMDが第2世代EPYCで採用したチップレットに近い、1つのパッケージに複数のタイル(ダイのこと)を搭載する2.5Dのダイスタッキング技術「EMIB」を採用しており、4つのタイルから構成された1つのプロセッサになる。現時点では、1パッケージに何コアのCPUが搭載されるかは明らかになっていない。

 また、新しい拡張命令としてAMX(Advanced Matrix Extensions)に対応しており、専用のエンジンを利用してDL向けの演算をより効率よく行うことが可能になる。Intelの初期段階のサンプルにおいてで無効と有効とで比較した場合、7.8倍の性能差が出ることがわかっているという。

 Intelによれば、次世代のXeon SPとなるSapphire Rapidsは、2022年の初頭に投入される計画になっている。

Intelが来年初頭に発表を計画しているSapphire Rapids。EMIBという2.5Dのパッケージング技術を利用して、4つのタイル(ダイ)が1つのパッケージに統合されている(出典:Intel Architecture Day 20201)

発表された高性能CPUコア「Golden Cove」のみを搭載しているSapphire Rapids

 今回Intelは、2つの新しいプロセッサを発表している。1つがクライアントPC向けのAlder Lake(アルダーレイク、開発コード名)で、もう1つがデータセンター向けのSapphire Rapidsになる。

 クライアント向けに発表されたAlder Lakeでは、高性能コアと高効率コアという2つのCPUコアが搭載されており、OS側の負荷などに応じてどちらかを、あるいは両方を有効にして利用することが可能になっている。

 高性能コアはGolden Coveという開発コード名のCPUで、デコーダや内蔵エンジンなどが強化されており、低レイテンシのメモリアクセスを実現し、シングルスレッドの性能を究極までに引き上げるという設計思想で作られている。一方の高効率コアはGracemontという開発コード名のCPUで、Intelが2016年にリリースしたSkylakeと同等性能ならば40%の消費電力削減、同等の消費電力であれば40%の性能向上という高効率なCPUになっている。

クライアント向けのAlder Lakeは、高性能コア(Golden Cove)と高効率コア(Gracemont)という2種類のCPUコアを搭載している(出典:Intel Architecture Day 20201)

 これに対してSapphire Rapidsは、Alder Lakeとは異なり高性能コア(つまりGolden Cove)のみを搭載しており、高効率コアは搭載されていない。サーバーでも電力効率が考えられる時代だけに、高効率コアも搭載しておく意味はないとは言えないが、クライアントPCと違いサーバーではほぼCPUは100%に近い利用率になると考えられるため、高効率コアに切り替わるシーンがあまりないと考えられ、必要ないと判断されたのだろう。

Sapphire RapidsのCPUコアはGolden Coveのみとなる(出典:Intel Architecture Day 20201)

 また2つの種類のCPUを搭載する場合には、ISAのレベルを、より低い方に併せて統一しておく必要がある。GracemontではCETやVT-rpなどの最新の仮想化技術には対応しているものの、AVXはHaswell世代レベルの256ビットのAVXのみ対応している。GracemontをSapphire Rapidsに搭載した場合には、Gracemont側に合わせる必要があるので、AVX512の対応は落とさざるを得ないことになる。AVX512には、IntelがIntel DL BoostとしてCascade Lake世代で提供を開始したVNNI(推論時にFP16をINT8に置き換えて演算する方式)などが含まれており、性能面での影響が小さくない。このため、Sapphire Rapidsでは高性能コアのみが搭載されることになったと考えられる。

AMDの強みだったチップレットに類する技術が、IntelのXeonにも導入される

 Sapphire Rapidsでは、新しいパッケージング技術としてEMIBというIntelの2.5Dのパッケージング技術が導入されており、複数のタイル(ダイのこと、Intelではダイのことをタイルと呼んでいる)を1つのパッケージに封入して出荷可能になっている。これにより、従来のモノリシックな設計(例えば第3世代Xeon SPでは、1つのダイで最大40コアのCPUを搭載している)に比べて1つ1つのタイルの製造が容易になり、歩留まり(製造した内の良品率)が向上しながらも、1つのパッケージに実装するCPUコアの数を増やすことができる。

 こうした仕組みは、Intelの直接の競合となるAMDが第2世代EPYCで導入し、1パッケージで最大64コアの製品を可能にしている。AMDではこの仕組みを「チップレット」と呼んでいるが、そのチップレットの導入が、AMDがCPUコア数でIntelを上回っている理由になっているので、Intelもこの点で、AMDとの差を詰めることになっている。

 Sapphire Rapidsでは、最大で4つのタイル(ダイ)が1つのパッケージに実装される形になった。従来のIntelの第3世代Xeon SPなどのモノリシックなダイとして設計された製品では、複数のレベルのダイ(多コア版、中コア版、低コア版)をそれぞれ別に製造して、バリエーションを展開していた。しかし、EMIBのように複数のタイルを1つのパッケージに封入する形では、実装するタイルの数でバリエーション展開が可能になる。具体的には、4タイル版、3タイル版、2タイル版……のような形でバリエーションを展開することが容易になるという、製品展開上のメリットもある。

第3世代Xeon SP(Ice Lake)とSapphire Rapidsの違い。Ice Lakeはモノリシックのダイだが、Sapphire Rapidsは4つのタイルから構成されている(出典:Intel Architecture Day 20201)

 またSapphire Rapidsでは、CPUコア、LLC、メモリコントローラ(DDR5対応)、PCI Expressコントローラ(PCI Express Gen 5)などがすべてのタイルに搭載されており、メモリコントローラやPCI Expressコントローラはそれにあわせてスケーリングすることができる。これもEMIBを採用したメリットと言えるだろう。なお、メモリコントローラはHBM(High Bandwidth Memory)にも対応しており、HBMを通常のメモリとして使ったり、キャッシュとして利用したりすることも可能だ。

CXL 1.1、PCI Express Gen 5、UPI 2.0に対応などI/O周りも強化されている(出典:Intel Architecture Day 20201)
LLCは100MB以上(出典:Intel Architecture Day 20201)
HBMに対応(出典:Intel Architecture Day 20201)

 なお、気になる1パッケージあたりのCPUコア数だが、今回IntelはSapphire RapidsのCPUコア数について何も説明しなかった。1タイルあたりのCPUコア数なども言及していないので、そこは来年の第1四半期とされる発表時までのお楽しみということだろう。

新命令AMXを利用してINT8やBflot16などを効率よく処理、

 Sapphire Rapidsでは、新しい命令セットとしてAMX(Advanced Matrix Extensions)に対応している。Sapphire RapidsのCPUであるGolden Coveには、その新命令セットを処理する専用のエンジンが用意されており、INT8やBflot16などを利用した演算がこれまでよりも高速に行うことが可能になっている。

 例えば、INT8を利用した演算では、AVX512 VNNIでは1クロックサイクルで256の命令処理が可能であるのに対して、AMXでは2048の命令処理が可能になる。Bflot16を利用した場合では、AVX512で64命令/1クロックサイクルであるのに対して、1024命令/1クロックサイクルとなっている。これにより、AMXを利用すると、DLの学習や推論をより効率よく行うことが可能になる。

 Intelの試作した初期サンプルのSapphire Rapidsを利用したベンチマークでは、AMXを利用していない場合に比べて、AMXを利用した場合には7.8倍高速に処理可能だということだ。

AMXに対応しているSapphire Rapids(出典:Intel Architecture Day 20201)

 またSapphire Rapidsには、AiA(Accelerator Interfacing Architecture)と呼ばれる、アクセラレータをより効率よく利用する仕組みが入っており、DSA(Data Streaming Accelerator)と呼ばれる、CPUの負荷をアクセラレータにオフロードする仕組みを用意する。こうしたアクセラレータも上手に活用して、汎用のCPUで処理する必要のない処理はCPUからオフロードすることで、性能を向上させることが可能だ。

アクセラレータを利用することでCPUの性能を向上させる(出典:Intel Architecture Day 20201)

 なおIntelによれば、Sapphire Rapidsは2022年の初頭に導入される計画だ。