トピック

前世代比2倍の性能向上を実現した第4世代AMD EPYC
搭載「Dell PowerEdge 16G」サーバーが登場

 デル・テクノロジーズは、グローバルにPC、サーバー、ストレージなどの機器を提供するコンピューター/サーバーメーカーで、いずれの市場でも高いシェアを持っているトップメーカーの1つだ。そのデル・テクノロジーズが、データセンターやエンタープライズ向けのサーバーとして提供している「PowerEdge」シリーズにおいて、AMDのサーバープロセッサ「EPYC」を搭載した製品をラインアップしており、ユーザーの好評を博してきた。

 AMDは11月に、EPYCの最新製品となる第4世代EPYC(AMD EPYC 9004シリーズ)を米国で発表したが、デル・テクノロジーズも同日に、「第4世代EPYC搭載PowerEdge」を発表。日本では日本法人デル・テクノロジーズ株式会社から、2月に提供開始の予定となっている。

 今回は、AMDの第4世代EPYC、そして第4世代EPYC搭載PowerEdgeについて、デル・テクノロジーズ株式会社 データセンター ソリューションズ事業統括 製品本部 シニアプロダクトマネージャー 岡野家和氏、および日本AMD ソリューション・アーキテクト 中村正澄氏にお話を伺ってきた。

AMDが11月にサンフランシスコで開催した記者会見でスピーチする米デル・テクノロジーズ グローバルISG コアビジネスオペレーションズ President & COOアーサー・ルイス氏(左)、AMD 上席副社長 兼 データセンターソリューションズビジネス事業部 事業部長 フォレスト・ノロド氏(右)

Zenアーキテクチャ採用でST性能が向上し、チップレットでコア数を増やしてMTの性能も向上したAMD EPYCシリーズ

 AMDが11月10日にサンフランシスコで開催した記者会見にて発表されたのが、「Genoa」(ジェノア、和名ではジェノバ)の開発コード名で呼ばれてきた、データセンター向けCPU「第4世代EPYC」だ。

 AMDは2017年に、開発コード名「Naples」(ネイプルス、和名ではナポリ)で知られる初代EPYCを発表した。この初代EPYCは、東洋の言葉である「禅」をイメージした、Zen(ゼン)という開発コード名が付けられたマイクロアーキテクチャ(物理設計のこと)を採用しており、シングルスレッド時の性能で競合のそれをキャッチアップした。

 そして第2世代EPYC(開発コード名:Rome、2019年)では、Zenをさらに改良したZen 2、第3世代EPYC(開発コード名:Milan、2021年)ではZen 2をさらに改良したZen 3を採用しており、競合の製品を追い越すシングルスレッド時の性能を発揮するようになった。

 さらにEPYCは、シングルスレッドの性能だけでなく、マルチスレッド時の性能も優れている。それを支えているのが、AMDが業界のトレンドに先駆けて投入した「チップレット」と呼ばれる、複数のチップを1つのパッケージに封入する技術だ。

 このチップレットをEPYCの各世代で採用したことで、初代EPYCでは1ソケットあたり最大32コア、第2世代と第3世代のEPYCでは1ソケットあたり最大64コアというCPUコア数を実現可能になり、マルチスレッドの性能が大きく引き上げられてきた。同時期の競合製品は最大28コア(2019年時点)や最大40コア(2021年時点)にとどまっており、マルチスレッド時にはコア数の多さが性能を左右するため、この点でAMDは競合製品を大きくリードしてきたといえる。

 そうした成功を収めてきたEPYCの最新製品が、第4世代EPYCになる。このプロセッサでは引き続き、シングルスレッド時もマルチスレッド時も性能が強化されている。

AMDは11月10日にサンフランシスコで開催した記者会見で、第4世代EPYCを発表するAMDのリサ・スーCEO
第4世代EPYCのパッケージ。チップレットの技術を応用して複数のチップを1つのパッケージに混載している

最新のZen 4アーキテクチャとAVX-512対応で大きな性能向上を果たし、ソケットの進化で最大96CPUコアを実現した第4世代EPYC

 第4世代EPYCのCPUマイクロアーキテクチャは、最新のZen 4に強化されている。Zen 4では、フロントエンドやキャッシュ階層の改良など内部構造などを見直すことで、IPC(Instruction Per Clock-cycle:1クロックサイクルあたりに実行できる命令数のこと。このIPCが高ければ高いほどCPUは効率よく命令を実行できる)が向上した。

 日本AMD ソリューション・アーキテクト 中村正澄氏によれば「Zen 4ではIPCが14%向上している」とのこと。IPCの向上というのはシングルスレッド時の性能向上とほぼ同義なので、それだけ高性能化しているということだ。

第4世代EPYCのハイレベルな特徴(出典:AMD)
Zen 4コアの採用によりIPCが14%向上している(出典:AMD)
日本AMD ソリューション・アーキテクト 中村正澄氏

 また第4世代EPYCは、EPYCシリーズの最大のアドバンテージと言えるCPUコア数も増やされており、1つのソケットで実現できるCPUコア数が最大96に増えている。これを実現できた最大の要因は、今回AMDが新しいCPUソケット「SP5」を導入したことにある。初代から第3世代までのEPYCでは、初代で導入された「SP3」というCPUソケットを利用してきた。このSP3はDDR4メモリをサポートしていたが、今回のSP5ではDDR5メモリに変更されると同時に、メモリのチャンネル数も、SP3での最大8から最大12に増やされている。

 サイズを比較すると、SP3は58.5×75.4mmで、底面積は4410.9平方ミリメートルだったが、新しいSP5では72×75mmで、底面積が5328平方ミリメートルと、やや大きくなっている。AMDのチップレットでは、8つのCPUコアを内蔵しているダイ(AMDではCCD:Compute Complex Dieと呼んでいる)を複数搭載し、CPUコア数を増やす手法がとられている。SP3の第3世代EPYCではこのCCD(8コア)を8個(8コア×8個=64コア)搭載可能になっていたが、SP5になり底面積が大きくなった第4世代EPYCでは、CCD(8コア)を12個搭載可能になり、1ソケットで96CPUコア(8コア×12個)という異例のスペックを実現できるようになったのだ。

チップレット技術を応用して作られている第4世代EPYC、12個のCCD、1個のIODから構成されている。SP5のパッケージは72×75mmというサイズになった(筆者作成)

 また、第4世代EPYCでは命令セットアーキテクチャの観点でも大きく進化している。具体的には、SIMD系の拡張命令であるAVX-512に対応しており、AVX512_VNNI、AVX512_BF16など、競合他社製品でも最近の製品でサポートされたAVX-512の追加命令にも対応している。AVX512_VNNI、AVX512_BF16はいずれもx86プロセッサ上で一般的に行われている機械学習(ML)や深層学習(DL)の推論処理で利用されることが多く、そうしたAI推論アプリケーションで大きな性能向上を期待できる。

 なお、第4世代EPYCでのAVX-512実装は、従来世代と同じ256ビットのレジスターを利用しての実装になるため、AVX-512命令を実行するには2クロックサイクルが必要になる。

 ただしAMDの中村氏によれば「「確かに1命令の実行に2クロックサイクルを必要とするが、実際の環境ではAVX-512だけではなく、ほかのx86命令も実行されているので、結果的に実行周波数がブーストし、大きなペナルティにはならない」とのこと。AVX-512をサポートしていない従来世代(第3世代EPYC)と比較するのは第4世代EPYCがあまりにも有利であるが、NLP(自然言語処理)で4.2倍、イメージ分類で3倍、画像認識で3.5倍と大きな効果があると中村氏は強調した。これまで、EPYCではなく競合他社の製品を選ぶ理由の1つに、EPYCはAVX-512に未対応ということがあったが、今回の第4世代EPYCによってそれがなくなったわけだ。

第4世代EPYCはAVX-512に対応した。競合他社製品と同じレベルのAVX-512命令に対応する(出典:AMD)
対応するAVX-512命令とその性能(出典:AMD)

 中村氏によれば「第4世代EPYCでは新しくPCI Express Gen 5に対応し、帯域幅が倍になる。また、PCI Express Gen 5にコヒーレンシをとる機能を追加したCXLにも対応しており、CXL経由でメモリを増やすことが可能だ」とのことで、I/O周り、特に帯域幅やCXL経由でメモリを増設できるようになることなどが強化点だと説明した。

 こうした改良により、第3世代EPYCと比較して、SPECrate2017_int_base(整数演算性能のベンチマーク)で約107%、SPECrate2017_fp_base(浮動小数点のベンチマーク)で約123%、SPECjbb2015 MultiJVM max-JOPS(JVMベンチマーク)で約94%の向上と、おおむね倍の性能向上を実現しており、前世代に比べて大きな性能向上を実現していることがわかる。

 また電力効率に関しても、SPECrate2017_int_baseで約1.4倍、SPECrate2017_fp_baseで約1.7倍、Bert Large NLP sparseでAVX-512 VNNIを利用した場合では約2.7倍を実現している。

第3世代EPYCとの性能比較、おおむね2倍になっている(出典:AMD)
第3世代EPYCとの電力効率の比較(出典:AMD)

 なお、第4世代EPYCのさらなる詳細、競合との性能差などに関しては、以前の本誌のリポートで説明しているので、ご興味がある方はぜひそちらの記事もご覧いただければ幸いだ。

最大96コアとなったAMDの第4世代EPYC、I/O周りやメモリなども大幅に強化
スーCEOは"競合の3倍の性能"をアピール
https://cloud.watch.impress.co.jp/docs/special/1455721.html

SAP SDが107%向上、AI性能は220%前の世代の製品から性能が向上したEPYC搭載PowerEdge

 AMDが第4世代EPYCを発表した米国サンフランシスコの発表会で、最も印象的なプレゼンテーションを行ったサーバー・メーカーがデル・テクノロジーズだ。米デル・テクノロジーズ グローバルISG コアビジネスオペレーションズ President & COOアーサー・ルイス氏は「われわれの新しいEPYC搭載製品では2ソケットで50%もコア数が増え、121%パフォーマンスが向上し、55%電力効率が改善し、60%搭載できるストレージ容量が増えている」と述べ、デル・テクノロジーズが発表した新しい「AMD EPYC 9004シリーズ搭載Dell PowerEdge」(以下、第4世代EPYC搭載PowerEdge)が、従来のAMD搭載Power Edgeから大きく進化していることをアピールした。

米デル・テクノロジーズがAMDの記者会見で公開した、第4世代EPYC搭載PowerEdgeの第3世代EPYC搭載モデルとの性能比較

 ルイス氏は、第4世代EPYCを搭載したPowerEdgeシリーズの性能に関して、「SAP Sales and Distribution(SD)のスコアは107%向上し、さらにJavaのベンチマークでも世界記録を残している。そしてAIの処理性能は220%向上している」と述べ、性能観点でも大きなパフォーマンスアップを果たしているだけでなく、電力効率も大きく改善していることをアピールし、PowerEdgeシリーズで最も持続的な成長が可能な製品であると強調した。

第4世代EPYC搭載Power Edgeは記録となるベンチマーク結果を残している

 デル・テクノロジーズが第4世代EPYCの発表と同時に発表したのは、1ソケット/1UのPowerEdge R6615、1ソケット/2UのPowerEdge R7615、2ソケット/1UのPowerEdge R6625、2ソケット/2UのPowerEdge R7625の4つだ。

第4世代EPYC搭載PowerEdgeには4つの製品が用意されている。1ソケットのPowerEdge R6615(1U)とPowerEdge R7615(2U)、2ソケットのPowerEdge R6625(1U)、PowerEdge R7625(2U)の4つだ

 こうした第4世代EPYC搭載PowerEdgeシリーズは、日本でも販売が行われる予定になっている。デル・テクノロジーズ株式会社 データセンター ソリューションズ事業統括 製品本部 シニアプロダクトマネージャー 岡野家和氏によれば「日本でも2月から、第4世代EPYC搭載PowerEdgeシリーズを販売する計画だ。この新しいPowerEdgeは、当社が16G(16世代)と呼ぶ新しいプラットフォームに基づいており、シャーシなどの機能が更新されている」という。

第4世代EPYC搭載PowerEdgeではシャーシ自体が第15世代(15G)から第16世代(16G)へと進化しており、多くの点で機能強化が図られている
デル・テクノロジーズ株式会社 データセンター ソリューションズ事業統括 製品本部 シニアプロダクトマネージャー 岡野家和氏

 岡野氏によれば、16Gの特徴は、最新世代サーバーCPUの特徴を生かせるシャーシに進化していることにあるという。例えばデル・テクノロジーズのRAIDカードは、前世代の15GではDell PowerEdge RAIDコントローラー11(PERC 11)というPCI Express Gen 4 x8の拡張カードだったが、16GではDell PowerEdge RAIDコントローラー12(PERC 12)という新しい世代のカードになり、レーン数がPCI Express Gen 4 x16へと増え、転送速度が2倍になったという。

 また15GのPowerEdgeでは、Boot Optimized Storage Solution-S2(BOSS-S2、M.2 SATA SSD)というストレージを本体の背面に装着できるようになっていたが、16GではDell Boot Optimized Storage Solution-N1(BOSS-N1、M.2 NVMe SSD)を装着できるようになった。ストレージやインターフェイスが高速化されたことで、RAIDのリビルド時間が半分になったほか、将来は暗号化をサポートする計画だという。

1Uでも最新世代サーバーCPUの特徴を生かせるシャーシに進化している

 さらに16Gでは、データセンターの処理能力を上げるためにニーズの高いGPUの搭載方法も強化されているという。15G時代にHPC/AI学習やレンダリング用の高スペックGPUを搭載できたのは2ソケットモデルのシャーシだけだったが、16Gでは1ソケットモデルでも搭載できるようになっている。

 岡野氏によれば「1ソケットのR7615で、AMDのInstinct MI210やNVIDIA GPUの上位モデルなど、HPC/AI学習用あるいはグラフィック用の300Wクラスのダブルワイド/フルレングスGPUを3枚搭載できる。さらに、シングルワイドのGPUなら6枚搭載できる」とのこと。

 1ソケットでもこうしたハイエンドGPUのマルチ搭載が可能になったことにより、構成の柔軟性が向上したといえる。ML/DL向けにサーバーの増設を考えているようなユーザーにとっては、これは朗報だろう。

4種類それぞれの、最も効果的なワークロード

 なお既に説明した通り、今回の第4世代EPYC搭載PowerEdgeでは搭載できるストレージの容量も約60%増加している。第4世代EPYCがPCI Express Gen 5に対応したため、新しいストレージの規格EDSFF(Enterprise and Datacenter Standard Form Factor) E3.Sという薄型ドライブを利用でき、搭載ドライブ本数を増やせるのだ。

TDP400Wに達する96コアCPUなど、コア数が多いCPUを選択しても空冷で実現できるPowerEdge

 これもここまで説明してきた通り、AMDの第4世代EPYCは、チップレットを上手に活用することで、1ソケットで最大96コアという製品を実現している。その一方、熱設計に関しては若干拡張されており、その性能をフルに発揮できるような新しいスペックが定義されている。

 従来の第3世代EPYCでは、TDP(Thermal Design Power:熱設計消費電力)と呼ばれる、放熱設計時にデバイスメーカーが参照すべきスペックが最大280Wになっていたが、第4世代EPYCでは最大360W(SKUにより360W、320Wや290Wだったりする)に拡張されており、それに連動してCPUが発する熱量が増えている。そのため、拡張されたTDPのスペックに合わせた、より強力な放熱設計が必要になっているのだ。

 こうした状況は第4世代EPYCでだけ発生している事態ではなく、競合メーカーのCPUでもTDPの枠を拡張する動きは進んでいる。先日競合メーカーが発表した製品でも、TDPが最大350Wに拡張されるなどしており、データセンター向けCPUのトレンドとして、CPUの発する熱は増える方向に向かっている。このため、データセンターでCPUの性能をフルに性能を発揮させるためには、確実な熱設計を施して、廃熱をより効率よく行うことが求められており、そうした優れた熱設計がサーバー機器ベンダーにとっての差別化ポイントになりつつある状況だ。

 4Uのラックサーバーなどでは、高さ方向に内部の構造に余裕があるため、そうした350Wや360WといったTDPに設定されたCPUでも、確実に冷却することは難しくはない。というのも、一般的にデータセンターで利用されている空冷方式では、ファンの回転数を上げるか、より口径の大きなファンにするか、あるいはファンの数を増やすかなど、いずれかの方法で廃熱能力を上げる必要があるのだが、4Uではより大きなファンを搭載したり、ファン数を増やしたりするのは比較的容易だからだ。

 しかし1Uのラックサーバーのように、高さ方向に余裕がないサーバー機器では、こうしたことは現実的には難しい。このため、サーバー機器ベンダーの中には、TDP360Wの第4世代EPYCを1Uで利用するには、オプションとして提供されている水冷キットと組み合わせることを必須にしているベンダーもある。

 この点について、デル・テクノロジーズの岡野氏は「TDP360WクラスのCPUでは熱設計がこれまで以上に重要になると考えている。特に1Uの製品は、1ソケットであってもかなり厳しくなるというのが正直なところだ。もちろん当社でも、お客さまが水冷を必要とされる場合には、水冷のオプションも提供する計画だが、日本のデータセンターなどでは水冷のシステムを入れられる環境はまだ少なく、空冷を選ばれるお客さまが多い。そこで、16GのPowerEdgeでは、シャーシ側の工夫により、360WのCPUでも空冷で冷却できる『Smart Flowシャーシ』を導入する」とコメント。360Wや320Wといった、従来よりもTDPが上がっているSKUでも問題なく放熱できるようなシャーシが16GのPowerEdgeでは導入されており、より上位のSKUを選択したい顧客にとって、デルを選ぶ大きな差別化ポイントになると強調した。

第4世代EPYCなどの新しいCPUにより、サーバープラットフォームの選定にも変化が見られるという

BergamoやGenoa-Xなど、今後追加される第4世代EPYC搭載PowerEdgeも続々と投入予定

 AMDは2022年11月に最初の第4世代EPYCをリリースしたが、今後は、この最初の製品となる「Genoa」だけでなく、スケールアウト向けにCPUコアをさらに増やすとみられる「Bergamo(ベルガモ)」、第3世代EPYCでも投入された3D V-Cache搭載のEPYC「Genoa-X(ジェノアエックス)」の2つを2023年の前半に、そして電力効率をさらに改善した「Siena(シエナ)」を2023年の後半に投入する計画を明らかにしている。

 その先には、次世代のCPUアーキテクチャとなる「Zen 5」を採用した「Turin(チューリン、和名ではトリノ)」を第5世代EPYCとして投入すると明らかにしている(時期は明らかにされていない)。

第4世代EPYCのバリエーション展開の予定(出典:AMD)
AMDのサーバーロードマップ(出典:AMD)

 デル・テクノロジーズの岡野氏は、「われわれはAMDベースの製品に長期間コミットすることをお客さまにお約束しており、長期間にわたるロードマップを既に引いている。今年の前半に投入されるBergamoとGenoa-Xに関しても、AMDから提供が開始され次第、16G製品向けに投入する計画だ。また、Turinに関してももちろんロードマップ上にあり、こちらも投入され次第お客さまに提供するべく、製品開発を行っているところだ」と述べ、今後も長期間にわたってEPYCを搭載したサーバーを提供していくのがデル・テクノロジーズの計画だと説明した。