ニュース

Intel、Cooper Lakeを第3世代Xeon Scalable Processorsとして正式発表 4~8ソケット向け

Bflot16に対応しディープラーニングの学習/推論時の性能を約1.9倍に高速化

 半導体メーカーの米Intelは18日(米国時間)、報道発表を行い、同社が「Cooper Lake(クーパーレイク)」の開発コード名で開発してきた新しいデータセンター向けプロセッサを、「第3世代Intel Xeon Scalable Processors」(以下、第3世代Xeon SP)として正式発表した。

 Cooper Lakeでは、Bflot16(BF16)と呼ばれる、正確性はFP32と近似ながら、FP16に近い演算量で演算可能な仕組みが導入されており、FP32でディープラーニング(深層学習)の学習や推論を行う際の性能が、大きく向上する。Intelによれば、FP32で演算する場合に比較して、学習時に1.93倍、推論時に1.9倍の性能を実現するという。

 またIntelは、このCooper Lakeで、新しいプラットフォーム(チップセットやマザーボードなどのインフラ側のこと)として「Cedar Islands Platform」(シーダー・アイランズ・プラットフォーム)を導入。新しいCPUソケットとなるSocket P+(4189ピン)を採用する。これにより、第1世代Xeon SP(開発コード名:Skylake-SP)と第2世代Xeon SP(開発コード名:Cascade Lake-SP)とは、ピン互換ではなくなる。

 なお、Intelは2020年の後半に、Ice Lake(アイスレイク)の開発コード名で知られる、10nmで製造されるXeonを導入する計画だが、Ice Lakeは1~2ソケットのメインストリーム向けに位置付けられているとのこと。それに対して今回のCooper Lakeは、4~8ソケットの大規模サーバー向けと位置付ける計画だ。

Intelが発表した第3世代Xeon Scalable Processorsのブロック図(出典:Intel)

Cooper Lakeは4-8ソケット用、今年の後半に投入が計画されているIce Lakeは1-2ソケット用と位置付けられる

 今回Intelが発表した第3世代Xeon SPは、Intelが2020年に導入を計画しているサーバー向け製品2つのうちの1つとなる。

 今回発表されたのは、Cooper Lakeの開発コード名で知られている製品で、4~8ソケットなど、大規模サーバーなどをターゲットにした製品となる。製造プロセスルールは従来製品の第1世代Xeon SP(Skylake-SP)や第2世代Xeon SP(Cascade Lake-SP)と同じく14nmプロセスルールを利用して製造される。

 このCooper Lakeでは前述の通り、プラットフォームがCedar Islands Platformに更新され、新しいチップセットのC620Aや新しいCPUソケットSocket P+(4189ピン)が導入されたため、第1世代/第2世代Xeon SPとはピン互換ではなくなっている。

 Intelは2020年の後半に、同社の最先端プロセスルールである10nmプロセスルールを利用して製造されるIce Lakeの投入を計画しており、そちらは1~2ソケットのメインストリームサーバー向けに投入されることになる。

 当初Intelは、Cooper LakeとIce Lakeはピン互換(つまりプラットフォームは1つ)と説明してきたが、そのロードマップは変更されており、Cooper Lakeが4~8ソケットをカバーし、Ice Lakeは1~2ソケット向けのプラットフォームは「Whitley Platform」(ホワイトリー・プラットフォーム)の名前で独立して提供されることになる(現時点ではIce Lakeのソケットやチップセットなどに関しては明らかにされていない)。

Intelのデータセンター向けCPUロードマップ(出典:Intel)

 さらにIntelは2021年に、次世代Xeon Scalable Processorsとして開発コード名「Sapphire Rapids」(サファイア・ラピッド)を計画しており、次世代DLBoost(ディーエルブースト、ディープラーニングをより効率よく行うための新しい命令セットのブランド名、最初の仕様はCascade Lakeで導入された)に次ぐ新しい拡張命令セットとなる「AMX」に対応する計画だ。

 このAMXでは、学習/推論の両方で性能向上を実現する計画で、今月中にはその仕様が開発者などに向けて公開される。それによりSapphire Rapidsのリリース時には、新しい命令セットとなるAMXに対応したソフトウェアを入手可能にするという。

 またCooper LakeとIce Lakeにおいて、4~8ソケットと1~2ソケットで分離してしまったプラットフォームは、Sapphire Rapids世代で「Eagle Stream Platform」(イーグルストリーム・プラットフォーム)として、再び1つに統合される。

 Intel 副社長 兼 Intel Xeon Processors/データセンターマーケティング 事業部長 リサ・スペルマン氏によれば、「既にSapphire Rapidsの最初のシリコンは電源が入りテストを開始している。COVID-19の影響でエンジニアも自宅勤務になっているが、予定通り開発は進んでいる」と述べ、Sapphire Rapidsは予定通り開発が進んでいるとアピールした。

Sapphire Rapidsが起動して祝杯をあげるIntelの開発チーム(出典:Intel)

Bflot16に対応することでディープラーニングの学習/推論での性能を約1.9倍に強化

 今回Intelが発表した第3世代Xeon SP 4-8ソケット版となるCooper Lakeは、すでに述べた通り14nmプロセスルールで製造される。従来製品との最大の違いは、同社がIntel DLBoostと呼ぶ、ディープラーニング向けのアクセラレータ機能が進化したことになる。

Cooper Lakeの概要、5年前のシステムに比べて性能が約1.9倍に(出典:Intel)

 Intelは第2世代Xeon SP(Cascade Lake-SP)において、VNNI(Vector Neural Network Instructions)と呼ばれる新しい命令セットを追加した。このVNNIは、ディープラーニングの演算を従来のAVX512を利用してFP32で演算することに換えて、INT8を利用して演算する仕組みとなっており、数倍の大きな性能向上を実現できる。

 ただし、正確性(Accuracy)は低下することになるため、そこまでの正確性が必要のないディープラーニングの推論に活用できる機能として使われてきた。

 今回のCooper Lakeで導入されたのはBflot16(ビーフロートシックスティーン)と呼ばれる仕組みで、やはりFP32の演算を置き換える仕組みとなる。通常のFP32は1ビットの符号、8ビットの指数、23ビットの仮数が、32ビット単位で演算される。

 これに対してBflot16では、1ビットの符号と8ビットの指数はそのままで、仮数部を7ビットにして演算する。これにより16ビット単位での演算を行え、正確性はやや落ちるが、ほぼ近似で演算することが可能になるので、ディープラーニングの学習にも推論でも大きな性能向上を実現する。

 Intelのスペルマン氏によれば「Bflot16を利用することで、第2世代Xeon SPと比較して学習では1.93倍、推論では1.9倍の性能を実現することができる」とのことで、約1.9倍という大きな性能向上を実現することができる。

Bflot16に対応し、ディープラーニングの学習、推論で前世代に比較して約1.9倍の性能を実現(出典:Intel)

 新しい命令セットとなるので、ソフトウェア側がBflot16に対応させる変更は必要になるが、スペルマン氏によれば「変更は最小限で済む」とのことで、同社が提供しているoneAPIやOpenVINOといった開発キットや、PyTorchやTensorFlowなどのフレームワークも対応予定とのことだ。

サードパーティツールでの性能向上(出典:Intel)
学習でも推論でも効果があるが、INT8では正確性に十分ではない学習で効果がある(出典:Intel)
昨年11月のIntel AI Summit 2019でのBflot16のデモ(撮影:筆者)

CPUの仕様は基本的にはCascade Lakeとほぼ同等、Optane Persistent Memoryに第2世代が登場

 CPU自体の仕様に関しては従来の第2世代Xeon SP(Cascade Lake-SP)と大きな違いはない。マイクロアーキテクチャはSkylakeマイクロアーキテクチャで、ソケットあたりのコア数も28コアと変わらず、LLCは最大で38.5MBとなっているのも同様だ。

 なお、第2世代Xeonでは1つのCPUソケットに2つのダイを封入してパッケージをBGAにすることで、56コア/112スレッドの製品が提供されていたが、今回のCooper Lakeの仕様やSKUには、そうした製品は用意されていない。

表1:Xeon SPの仕様(Intelの資料より筆者作成)
ブランド名Xeon 5600番台Xeon E5Xeon E5 v2Xeon E5 v3Xeon E5 v4Xeon SP第2世代Xeon SP第3世代Xeon SP
開発コードネームWestmere-EPSandy Bridge-EPIvy Bridge-EPHaswell-EPBroadwell-EPSkylake-SPCascade Lake-SPCooper Lake-SP
リリース年2010年2012年2013年2014年2016年2017年2019年2020年
製造プロセスルール32nm32nm22nm22nm14nm14nm14nm14nm
CPUコア(最大)68121822285628
ダイ構成(HCC、MCC、LCC)6815、10、618、12、824、15、1028、18、1028、18、1028、18、10
パッケージあたりのダイ数111111最大21
HT対応
L2キャッシュ(コアあたり)256KB256KB256KB256KB256KB1MB1MB1MB
LLCキャッシュ(コアあたり)2MB2.5MB2.5MB2.5MB2.5MB1.375MB1.375MB1.375MB
LLCキャッシュ(ダイあたり最大)12MB20MB30MB/20MB/15MB45MB/30MB/20MB55MB/37.5MB/25MB38.5MB/24.75MB/13.75MB38.5MB/24.75MB/13.75MB38.5MB/24.75MB/13.75MB
コアマイクロアーキテクチャNehalem世代Sandy Bridge世代Sandy Bridge世代(改良版)Haswell世代Haswell世代(改良版)Skylake世代Skylake世代Skylake世代
コア間インターコネクト-リングリングリングリングメッシュメッシュメッシュ
CPUソケットSocket B(LGA1366)Socket R(LGA2011)Socket R(LGA2011)Socket R3(LGA2011v3)Socket R3(LGA2011v3)Socket P(LGA3647)Socket P(LGA3647)/BGA(5903ball、2ダイ構成)Socket P+(LGA4189)
最大ソケット222222/4/82/4/84/8
最大メモリ容量288GB384GB768GB1.5TB1.5TB1.5TB4.5TB(Optane DCPM利用時)4.5TB(Optane DCPM利用時)
メモリDDR3-1333DDR3-1600DDR3-1866DDR4-2133DDR4-2400DDR4-2666DDR4-2933DDR4-3200
Optane DC Persistent Memory対応------○(200シリーズ)
メモリチャネル数(CPUソケットあたり)3444466/126
命令セットSSE4.2SSE4.2/AVXSSE4.2/AVXSSE4.2/AVX2SSE4.2/AVX2/TSXSSE4.2/AVX2/TSX/AVX512SSE4.2/AVX2/TSX/AVX512/Intel DL BoostSSE4.2/AVX2/TSX/AVX512/Intel DL Boost(VNNI/BF16)
QPI/UPI(ダイあたり)2x最大6.4GT/s2x最大8GT/s2x最大8GT/s2x最大9.6GT/s2x最大9.6GT/s3x最大10.4GT/s3x最大10.4GT/s6x最大10.4GT/s
PCI ExpressPCI Express Gen2(チップセット側)PCI Express Gen3PCI Express Gen3PCI Express Gen3PCI Express Gen3PCI Express Gen3PCI Express Gen3PCI Express Gen3
PCI Expressレーン数36(チップセット側)4040404064(MCC/LCCは48)4848
DMI-DMI/Gen2(4レーン)DMI/Gen2(4レーン)DMI/Gen2(4レーン)DMI/Gen2(4レーン)DMI/Gen3(4レーン)DMI/Gen3(4レーン)DMI/Gen3(4レーン)
チップセット5500(Tyrusburg)C600(Patsburg)C600(Patsburg)C610(Wellsburg)C610(Wellsburg)C620(Lewisburg)C620(Lewisburg)C620A

 前述の通りCPUソケットはSocket P+(LGA4189)に変更されており、メモリのチャネル数はソケットあたり6チャネルで、第2世代ではDDR4-2933までの対応となっていたが、チャネルあたり1DIMM時にはDDR4-3200に引き上げられている。チャネルあたり2DIMM構成の場合には、DDR4-2933までの対応となる(ソケットあたりの最大メモリ容量は4.5TB)。

 ソケットあたりのPCI Express 3.0レーンが48レーンというのは、従来世代と同等だ。チップセットはIntel C620Aとなる。TDPは250W~150Wで製品により異なっている。

 また、Intelは第2世代Xeon SPで導入されたSCM(Storage Class Memory)、Optane DC Persistent Memoryの第2世代となる「Optane Persistent Memory 200シリーズ」を発表し、第3世代Xeonでサポートすると明らかにした。

 従来製品と比較してデータレートが引き上げられるなどしており、帯域幅が従来製品と比較して25%向上している。これにより、メインストリーム向けのNAND SSDと比較して最大で225倍高速なデータアクセスが可能だとIntelでは説明している。

第2世代のOptane DC Persistent MemoryとなるOptane Persistent Memory 200シリーズに対応(出典:Intel)

 このほかにも、新しいデータセンター向けのNAND SSDとして「Intel 3D NAND SSD D7-P5500/P5600」も発表している。従来世代と比較して40%レイテンシ(遅延)が削減されており、全体性能は33%向上しているとIntelは説明している。

Intel 3D NAND SSD D7-P5500/P5600(出典:Intel)

 今回Intelが発表した第3世代Xeon SPのSKU構成は以下の通りだ。

表2:第3世代Xeon SPのSKU構成(Intelの資料より筆者作成)
ブランドプロセッサナンバーCPUコア数/スレッド数ベースクロック最大クロック(TB/シングルコア時)キャッシュTDPメモリ最大メモリ容量(ソケットあたり)ソケット数Intel SpeedSelect対応
Intel Xeon Platinum8380HL28/562.9GHz4.3GHz38.5MB250WDDR4-3200(1DIMM)/DDR4-2933(2DIMM)4.5TB4/8ソケット未対応
8380H28/562.9GHz4.3GHz38.5MB250WDDR4-3200(1DIMM)/DDR4-2933(2DIMM)1.12TB4/8ソケット未対応
8376HL28/562.6GHz4.3GHz38.5MB205WDDR4-3200(1DIMM)/DDR4-2933(2DIMM)4.5TB4/8ソケット未対応
8376H28/562.6GHz4.3GHz38.5MB205WDDR4-3200(1DIMM)/DDR4-2933(2DIMM)1.12TB4/8ソケット未対応
8354H18/363.1GHz4.3GHz24.75MB205WDDR4-3200(1DIMM)/DDR4-2933(2DIMM)1.12TB4/8ソケット未対応
8353H18/362.5GHz3.8GHz24.75MB150WDDR4-3200(1DIMM)/DDR4-2933(2DIMM)1.12TB4/8ソケット未対応
Intel Xeon Gold6348H24/482.3GHz4.2GHz33MB165WDDR4-2933(2DIMM)1.12TB4ソケット未対応
6328HL16/322.8GHz4.3GHz22MB165WDDR4-2933(2DIMM)4.5TB4ソケット対応
6328H16/322.8GHz4.3GHz22MB165WDDR4-2933(2DIMM)1.12TB4ソケット対応
5320H20/402.4GHz4.2GHz27.5MB150WDDR4-2933(2DIMM)1.12TB4ソケット対応
5318H18/362.5GHz3.8GHz24.75MB150WDDR4-2933(2DIMM)1.12TB4ソケット未対応

 Intelによれば既にOEMメーカーへの出荷が開始されており、今年の後半にOEMメーカーやODMメーカーなどからのシステムが出荷開始される予定。また、クラウドサービスプロバイダーでの利用開始はやや早くなる見通しで、OEM/ODMメーカーからの出荷より早く、クラウドサービスとして提供される可能性が高い。

ディープラーニングに最適化したFPGA「Intel Stratix 10 NX FPGA」の概要を発表

 またIntelは、FPGA(Field Programmable Gate Array)製品の新製品として「Intel Stratix 10 NX FPGA」(Stratix 10 NX)の概要を発表した。基本的な構造は、14nmプロセスルールで製造されるFPGAの論理回路、Embedded Multi-Die Interconnect Bridge(EMIB)で接続されるHBMメモリとイーサネット、などとなっており、従来のFPGA製品と似た構造になっている。

Intel Stratix 10 NX FPGA(出典:Intel)

 Stratix 10 NXは、同社のFPGA製品としては初めてAIに最適化したFPGA。一般的なFPGAとなる「Intel Stratix 10 MX」(以下、Stratix 10 MX)などに内蔵されているDSPブロックが、2マルチプライヤ/2アキュムレータの構造になっているのに対して、Stratix 10 NXに内蔵されているAI Tensorブロックは、30マルチプライヤ/30アキュムレータという構造になっており、INT4、INT8、FP12、FP16などの演算を行うのに最適な構造になっている。

 これにより、Stratix 10 MXに比較して、IN8で演算した場合の効率が最大15倍になるという。まさにAIに最適化されたFPGAとなる。

AI Tensorブロック、ニューラルネットワークに最適化された構造になっている(出典:Intel)

 同社のFPGAはMicrosoft Azureなどのパブリッククラウドで提供されているが、今回概要が発表されたStratix 10 NXにも、Microsoftから歓迎するコメントが寄せられており、今後そうしたパブリッククラウドなどを通じても提供されていくことになりそうだ。