ニュース

Intel、Cooper Lakeを第3世代Xeon Scalable Processorsとして正式発表　4～8ソケット向け

Bflot16に対応しディープラーニングの学習/推論時の性能を約1.9倍に高速化

笠原一輝

2020年6月18日 22:05

　半導体メーカーの米Intelは18日（米国時間）、報道発表を行い、同社が「Cooper Lake（クーパーレイク）」の開発コード名で開発してきた新しいデータセンター向けプロセッサを、「第3世代Intel Xeon Scalable Processors」（以下、第3世代Xeon SP）として正式発表した。

　Cooper Lakeでは、Bflot16（BF16）と呼ばれる、正確性はFP32と近似ながら、FP16に近い演算量で演算可能な仕組みが導入されており、FP32でディープラーニング（深層学習）の学習や推論を行う際の性能が、大きく向上する。Intelによれば、FP32で演算する場合に比較して、学習時に1.93倍、推論時に1.9倍の性能を実現するという。

　またIntelは、このCooper Lakeで、新しいプラットフォーム（チップセットやマザーボードなどのインフラ側のこと）として「Cedar Islands Platform」（シーダー・アイランズ・プラットフォーム）を導入。新しいCPUソケットとなるSocket P＋（4189ピン）を採用する。これにより、第1世代Xeon SP（開発コード名：Skylake-SP）と第2世代Xeon SP（開発コード名：Cascade Lake-SP）とは、ピン互換ではなくなる。

　なお、Intelは2020年の後半に、Ice Lake（アイスレイク）の開発コード名で知られる、10nmで製造されるXeonを導入する計画だが、Ice Lakeは1～2ソケットのメインストリーム向けに位置付けられているとのこと。それに対して今回のCooper Lakeは、4～8ソケットの大規模サーバー向けと位置付ける計画だ。

Intelが発表した第3世代Xeon Scalable Processorsのブロック図（出典：Intel）

Cooper Lakeは4-8ソケット用、今年の後半に投入が計画されているIce Lakeは1-2ソケット用と位置付けられる

　今回Intelが発表した第3世代Xeon SPは、Intelが2020年に導入を計画しているサーバー向け製品2つのうちの1つとなる。

　今回発表されたのは、Cooper Lakeの開発コード名で知られている製品で、4～8ソケットなど、大規模サーバーなどをターゲットにした製品となる。製造プロセスルールは従来製品の第1世代Xeon SP（Skylake-SP）や第2世代Xeon SP（Cascade Lake-SP）と同じく14nmプロセスルールを利用して製造される。

　このCooper Lakeでは前述の通り、プラットフォームがCedar Islands Platformに更新され、新しいチップセットのC620Aや新しいCPUソケットSocket P＋（4189ピン）が導入されたため、第1世代／第2世代Xeon SPとはピン互換ではなくなっている。

　Intelは2020年の後半に、同社の最先端プロセスルールである10nmプロセスルールを利用して製造されるIce Lakeの投入を計画しており、そちらは1～2ソケットのメインストリームサーバー向けに投入されることになる。

　当初Intelは、Cooper LakeとIce Lakeはピン互換（つまりプラットフォームは1つ）と説明してきたが、そのロードマップは変更されており、Cooper Lakeが4～8ソケットをカバーし、Ice Lakeは1～2ソケット向けのプラットフォームは「Whitley Platform」（ホワイトリー・プラットフォーム）の名前で独立して提供されることになる（現時点ではIce Lakeのソケットやチップセットなどに関しては明らかにされていない）。

Intelのデータセンター向けCPUロードマップ（出典：Intel）

　さらにIntelは2021年に、次世代Xeon Scalable Processorsとして開発コード名「Sapphire Rapids」（サファイア・ラピッド）を計画しており、次世代DLBoost（ディーエルブースト、ディープラーニングをより効率よく行うための新しい命令セットのブランド名、最初の仕様はCascade Lakeで導入された）に次ぐ新しい拡張命令セットとなる「AMX」に対応する計画だ。

　このAMXでは、学習/推論の両方で性能向上を実現する計画で、今月中にはその仕様が開発者などに向けて公開される。それによりSapphire Rapidsのリリース時には、新しい命令セットとなるAMXに対応したソフトウェアを入手可能にするという。

　またCooper LakeとIce Lakeにおいて、4～8ソケットと1～2ソケットで分離してしまったプラットフォームは、Sapphire Rapids世代で「Eagle Stream Platform」（イーグルストリーム・プラットフォーム）として、再び1つに統合される。

　Intel 副社長兼 Intel Xeon Processors/データセンターマーケティング事業部長リサ・スペルマン氏によれば、「既にSapphire Rapidsの最初のシリコンは電源が入りテストを開始している。COVID-19の影響でエンジニアも自宅勤務になっているが、予定通り開発は進んでいる」と述べ、Sapphire Rapidsは予定通り開発が進んでいるとアピールした。

Sapphire Rapidsが起動して祝杯をあげるIntelの開発チーム（出典：Intel）

Bflot16に対応することでディープラーニングの学習/推論での性能を約1.9倍に強化

　今回Intelが発表した第3世代Xeon SP 4-8ソケット版となるCooper Lakeは、すでに述べた通り14nmプロセスルールで製造される。従来製品との最大の違いは、同社がIntel DLBoostと呼ぶ、ディープラーニング向けのアクセラレータ機能が進化したことになる。

Cooper Lakeの概要、5年前のシステムに比べて性能が約1.9倍に（出典：Intel）

　Intelは第2世代Xeon SP（Cascade Lake-SP）において、VNNI（Vector Neural Network Instructions）と呼ばれる新しい命令セットを追加した。このVNNIは、ディープラーニングの演算を従来のAVX512を利用してFP32で演算することに換えて、INT8を利用して演算する仕組みとなっており、数倍の大きな性能向上を実現できる。

　ただし、正確性（Accuracy）は低下することになるため、そこまでの正確性が必要のないディープラーニングの推論に活用できる機能として使われてきた。

　今回のCooper Lakeで導入されたのはBflot16（ビーフロートシックスティーン）と呼ばれる仕組みで、やはりFP32の演算を置き換える仕組みとなる。通常のFP32は1ビットの符号、8ビットの指数、23ビットの仮数が、32ビット単位で演算される。

　これに対してBflot16では、1ビットの符号と8ビットの指数はそのままで、仮数部を7ビットにして演算する。これにより16ビット単位での演算を行え、正確性はやや落ちるが、ほぼ近似で演算することが可能になるので、ディープラーニングの学習にも推論でも大きな性能向上を実現する。

　Intelのスペルマン氏によれば「Bflot16を利用することで、第2世代Xeon SPと比較して学習では1.93倍、推論では1.9倍の性能を実現することができる」とのことで、約1.9倍という大きな性能向上を実現することができる。

Bflot16に対応し、ディープラーニングの学習、推論で前世代に比較して約1.9倍の性能を実現（出典：Intel）

　新しい命令セットとなるので、ソフトウェア側がBflot16に対応させる変更は必要になるが、スペルマン氏によれば「変更は最小限で済む」とのことで、同社が提供しているoneAPIやOpenVINOといった開発キットや、PyTorchやTensorFlowなどのフレームワークも対応予定とのことだ。

サードパーティツールでの性能向上（出典：Intel）

学習でも推論でも効果があるが、INT8では正確性に十分ではない学習で効果がある（出典：Intel）

昨年11月のIntel AI Summit 2019でのBflot16のデモ（撮影：筆者）

CPUの仕様は基本的にはCascade Lakeとほぼ同等、Optane Persistent Memoryに第2世代が登場

　CPU自体の仕様に関しては従来の第2世代Xeon SP（Cascade Lake-SP）と大きな違いはない。マイクロアーキテクチャはSkylakeマイクロアーキテクチャで、ソケットあたりのコア数も28コアと変わらず、LLCは最大で38.5MBとなっているのも同様だ。

　なお、第2世代Xeonでは1つのCPUソケットに2つのダイを封入してパッケージをBGAにすることで、56コア/112スレッドの製品が提供されていたが、今回のCooper Lakeの仕様やSKUには、そうした製品は用意されていない。

表1：Xeon SPの仕様（Intelの資料より筆者作成）
ブランド名	Xeon 5600番台	Xeon E5	Xeon E5 v2	Xeon E5 v3	Xeon E5 v4	Xeon SP	第2世代Xeon SP	第3世代Xeon SP
開発コードネーム	Westmere-EP	Sandy Bridge-EP	Ivy Bridge-EP	Haswell-EP	Broadwell-EP	Skylake-SP	Cascade Lake-SP	Cooper Lake-SP
リリース年	2010年	2012年	2013年	2014年	2016年	2017年	2019年	2020年
製造プロセスルール	32nm	32nm	22nm	22nm	14nm	14nm	14nm	14nm
CPUコア（最大）	6	8	12	18	22	28	56	28
ダイ構成（HCC、MCC、LCC）	6	8	15、10、6	18、12、8	24、15、10	28、18、10	28、18、10	28、18、10
パッケージあたりのダイ数	1	1	1	1	1	1	最大2	1
HT対応	○	○	○	○	○	○	○	○
L2キャッシュ（コアあたり）	256KB	256KB	256KB	256KB	256KB	1MB	1MB	1MB
LLCキャッシュ（コアあたり）	2MB	2.5MB	2.5MB	2.5MB	2.5MB	1.375MB	1.375MB	1.375MB
LLCキャッシュ（ダイあたり最大）	12MB	20MB	30MB/20MB/15MB	45MB/30MB/20MB	55MB/37.5MB/25MB	38.5MB/24.75MB/13.75MB	38.5MB/24.75MB/13.75MB	38.5MB/24.75MB/13.75MB
コアマイクロアーキテクチャ	Nehalem世代	Sandy Bridge世代	Sandy Bridge世代（改良版）	Haswell世代	Haswell世代（改良版）	Skylake世代	Skylake世代	Skylake世代
コア間インターコネクト	-	リング	リング	リング	リング	メッシュ	メッシュ	メッシュ
CPUソケット	Socket B（LGA1366）	Socket R（LGA2011）	Socket R（LGA2011）	Socket R3（LGA2011v3）	Socket R3（LGA2011v3）	Socket P（LGA3647）	Socket P（LGA3647）/BGA（5903ball、2ダイ構成）	Socket P+（LGA4189）
最大ソケット	2	2	2	2	2	2/4/8	2/4/8	4/8
最大メモリ容量	288GB	384GB	768GB	1.5TB	1.5TB	1.5TB	4.5TB（Optane DCPM利用時）	4.5TB（Optane DCPM利用時）
メモリ	DDR3-1333	DDR3-1600	DDR3-1866	DDR4-2133	DDR4-2400	DDR4-2666	DDR4-2933	DDR4-3200
Optane DC Persistent Memory対応	-	-	-	-	-	-	○	○（200シリーズ）
メモリチャネル数（CPUソケットあたり）	3	4	4	4	4	6	6/12	6
命令セット	SSE4.2	SSE4.2/AVX	SSE4.2/AVX	SSE4.2/AVX2	SSE4.2/AVX2/TSX	SSE4.2/AVX2/TSX/AVX512	SSE4.2/AVX2/TSX/AVX512/Intel DL Boost	SSE4.2/AVX2/TSX/AVX512/Intel DL Boost（VNNI/BF16）
QPI/UPI（ダイあたり）	2x最大6.4GT/s	2x最大8GT/s	2x最大8GT/s	2x最大9.6GT/s	2x最大9.6GT/s	3x最大10.4GT/s	3x最大10.4GT/s	6x最大10.4GT/s
PCI Express	PCI Express Gen2（チップセット側）	PCI Express Gen3	PCI Express Gen3	PCI Express Gen3	PCI Express Gen3	PCI Express Gen3	PCI Express Gen3	PCI Express Gen3
PCI Expressレーン数	36（チップセット側）	40	40	40	40	64（MCC/LCCは48）	48	48
DMI	-	DMI/Gen2（4レーン）	DMI/Gen2（4レーン）	DMI/Gen2（4レーン）	DMI/Gen2（4レーン）	DMI/Gen3（4レーン）	DMI/Gen3（4レーン）	DMI/Gen3（4レーン）
チップセット	5500（Tyrusburg）	C600（Patsburg）	C600（Patsburg）	C610（Wellsburg）	C610（Wellsburg）	C620（Lewisburg）	C620（Lewisburg）	C620A

　前述の通りCPUソケットはSocket P＋（LGA4189）に変更されており、メモリのチャネル数はソケットあたり6チャネルで、第2世代ではDDR4-2933までの対応となっていたが、チャネルあたり1DIMM時にはDDR4-3200に引き上げられている。チャネルあたり2DIMM構成の場合には、DDR4-2933までの対応となる（ソケットあたりの最大メモリ容量は4.5TB）。

　ソケットあたりのPCI Express 3.0レーンが48レーンというのは、従来世代と同等だ。チップセットはIntel C620Aとなる。TDPは250W～150Wで製品により異なっている。

　また、Intelは第2世代Xeon SPで導入されたSCM（Storage Class Memory）、Optane DC Persistent Memoryの第2世代となる「Optane Persistent Memory 200シリーズ」を発表し、第3世代Xeonでサポートすると明らかにした。

　従来製品と比較してデータレートが引き上げられるなどしており、帯域幅が従来製品と比較して25％向上している。これにより、メインストリーム向けのNAND SSDと比較して最大で225倍高速なデータアクセスが可能だとIntelでは説明している。

第2世代のOptane DC Persistent MemoryとなるOptane Persistent Memory 200シリーズに対応（出典：Intel）

　このほかにも、新しいデータセンター向けのNAND SSDとして「Intel 3D NAND SSD D7-P5500/P5600」も発表している。従来世代と比較して40％レイテンシ（遅延）が削減されており、全体性能は33％向上しているとIntelは説明している。

Intel 3D NAND SSD D7-P5500/P5600（出典：Intel）

　今回Intelが発表した第3世代Xeon SPのSKU構成は以下の通りだ。

表2：第3世代Xeon SPのSKU構成（Intelの資料より筆者作成）
ブランド	プロセッサナンバー	CPUコア数/スレッド数	ベースクロック	最大クロック（TB/シングルコア時）	キャッシュ	TDP	メモリ	最大メモリ容量（ソケットあたり）	ソケット数	Intel SpeedSelect対応
Intel Xeon Platinum	8380HL	28/56	2.9GHz	4.3GHz	38.5MB	250W	DDR4-3200（1DIMM）/DDR4-2933（2DIMM）	4.5TB	4/8ソケット	未対応
	8380H	28/56	2.9GHz	4.3GHz	38.5MB	250W	DDR4-3200（1DIMM）/DDR4-2933（2DIMM）	1.12TB	4/8ソケット	未対応
	8376HL	28/56	2.6GHz	4.3GHz	38.5MB	205W	DDR4-3200（1DIMM）/DDR4-2933（2DIMM）	4.5TB	4/8ソケット	未対応
	8376H	28/56	2.6GHz	4.3GHz	38.5MB	205W	DDR4-3200（1DIMM）/DDR4-2933（2DIMM）	1.12TB	4/8ソケット	未対応
	8354H	18/36	3.1GHz	4.3GHz	24.75MB	205W	DDR4-3200（1DIMM）/DDR4-2933（2DIMM）	1.12TB	4/8ソケット	未対応
	8353H	18/36	2.5GHz	3.8GHz	24.75MB	150W	DDR4-3200（1DIMM）/DDR4-2933（2DIMM）	1.12TB	4/8ソケット	未対応
Intel Xeon Gold	6348H	24/48	2.3GHz	4.2GHz	33MB	165W	DDR4-2933（2DIMM）	1.12TB	4ソケット	未対応
	6328HL	16/32	2.8GHz	4.3GHz	22MB	165W	DDR4-2933（2DIMM）	4.5TB	4ソケット	対応
	6328H	16/32	2.8GHz	4.3GHz	22MB	165W	DDR4-2933（2DIMM）	1.12TB	4ソケット	対応
	5320H	20/40	2.4GHz	4.2GHz	27.5MB	150W	DDR4-2933（2DIMM）	1.12TB	4ソケット	対応
	5318H	18/36	2.5GHz	3.8GHz	24.75MB	150W	DDR4-2933（2DIMM）	1.12TB	4ソケット	未対応
	5318H	18/36	2.5GHz	3.8GHz	24.75MB	150W	DDR4-2933（2DIMM）	1.12TB	4ソケット	未対応

　Intelによれば既にOEMメーカーへの出荷が開始されており、今年の後半にOEMメーカーやODMメーカーなどからのシステムが出荷開始される予定。また、クラウドサービスプロバイダーでの利用開始はやや早くなる見通しで、OEM/ODMメーカーからの出荷より早く、クラウドサービスとして提供される可能性が高い。

ディープラーニングに最適化したFPGA「Intel Stratix 10 NX FPGA」の概要を発表

　またIntelは、FPGA（Field Programmable Gate Array）製品の新製品として「Intel Stratix 10 NX FPGA」（Stratix 10 NX）の概要を発表した。基本的な構造は、14nmプロセスルールで製造されるFPGAの論理回路、Embedded Multi-Die Interconnect Bridge（EMIB）で接続されるHBMメモリとイーサネット、などとなっており、従来のFPGA製品と似た構造になっている。

Intel Stratix 10 NX FPGA（出典：Intel）

　Stratix 10 NXは、同社のFPGA製品としては初めてAIに最適化したFPGA。一般的なFPGAとなる「Intel Stratix 10 MX」（以下、Stratix 10 MX）などに内蔵されているDSPブロックが、2マルチプライヤ/2アキュムレータの構造になっているのに対して、Stratix 10 NXに内蔵されているAI Tensorブロックは、30マルチプライヤ/30アキュムレータという構造になっており、INT4、INT8、FP12、FP16などの演算を行うのに最適な構造になっている。

　これにより、Stratix 10 MXに比較して、IN8で演算した場合の効率が最大15倍になるという。まさにAIに最適化されたFPGAとなる。

AI Tensorブロック、ニューラルネットワークに最適化された構造になっている（出典：Intel）

　同社のFPGAはMicrosoft Azureなどのパブリッククラウドで提供されているが、今回概要が発表されたStratix 10 NXにも、Microsoftから歓迎するコメントが寄せられており、今後そうしたパブリッククラウドなどを通じても提供されていくことになりそうだ。