ニュース

AMD、BergamoやGenoa-Xなど第4世代EPYCの追加製品と、GPU/APUのInstinct MI300を発表

笠原一輝

2023年6月15日 06:15

　米AMDは13日（現地時間、日本時間6月14日）に、アメリカ合衆国カリフォルニア州サンフランシスコ市の会場において「Data Center and AI Technology Premiere」を開催し、同社のデータセンター向け半導体新製品を発表した。

　この中でAMD 会長兼 CEO リサ・スー氏は、昨年の11月に発表した第4世代EPYCのバリエーション製品となる高密度サーバー向けBergamo（ベルガモ、開発コード名）およびGenoa-X（ジェノアエックス、開発コード名）の出荷を開始したことを明らかにした。

Bergamoこと「第4世代AMD EPYC 97X4プロセッサー」を手に持つAMD 会長兼 CEOのリサ・スー氏

　さらにAMDは、生成AIやLLM（大規模言語モデル）による新しいAIアプリケーションの普及で高まり続けている、データセンターにおけるAIの学習、推論向けの環境として、GPUとAPUが提供される「AMD Instinct MI300 シリーズ・アクセラレータ」を発表。AMD Instinct Platformと呼ばれる、8GPUを搭載したサーバーシステム向けプラットフォームの提供を開始することも明らかにした。

　このInstinct Platformは、NVIDIAが提供している8GPUのDGX H100やDGX A100対抗の製品となり、NVIDIAの事実上の独占市場となっている、GPUを利用したAI学習市場に一石を投じる製品となる。

1ソケットで128コアのBergamo、3Dキャッシュを搭載したGenoa-X――、第4世代EPYCのバリエーションを発表

　AMD 会長兼 CEO リサ・スー氏は、昨年の11月に同社が発表した「第4世代AMD EPYCプロセッサー」（以下、第4世代EPYC、開発コード名：Genoa）が、性能や電力効率で他社製品を大きく上回っており、多くのOEMメーカーやCSP（クラウドサービスプロバイダー）などで採用されていると強調した。

公演の冒頭で、第4世代EPYCがAWS EC2のM7aインスタンスで採用されたことを明らかにするスー氏（左）と、AWS EC2担当副社長デーブ・ブラウン氏（右）

　今回のイベントでスー氏は、AWS EC2担当副社長デーブ・ブラウン氏を壇上に呼び、AMDとAWSの密接な関係について紹介した。ブラウン氏は「2018年に最初のAMDベースのEC2インスタンスを導入してから、ユーザーの好評を博して導入してきた。本日、新しい第4世代EPYCベースのEC2インスタンスとして、M7aの導入を明らかにできることをうれしく思っている。AWSがこれまで提供してきた、M6aという第3世代EPYCベースのEC2インスタンスと比較して50％性能が向上している」と説明。AWSが第4世代EPYCベースのEC2インスタンス「M7a」のプレビュー提供を開始したことを明らかにした。

　なお、スー氏は同時に、Oracleも第4世代EPYCを搭載したインスタンス（E5インスタンス）を提供するとも説明した。

Oracle CloudのE5インスタンスとして第4世代EPYCが採用

　そうした第4世代EPYCの状況を説明した後、同氏は同社が開発コード名「Bergamo」、「Genoa-X」で開発してきた第4世代EPYCの追加バリエーション製品を発表した。

　Bergamoは「第4世代AMD EPYC 97X4プロセッサー」（以下第4世代EPYC 97X4）として発表された。EPYC 97X4の特徴は、CPUコアとしてZen 4cコアが採用されていることだ。Zen 4cは、Zen 4の軽量版として開発された製品で、フルバージョンのZen 4がCPUコア1つあたり4MBのL3キャッシュを搭載しているのに対して、Zen 4cでは2MBのL3キャッシュとなっているのが大きな違いとなる。これらによりCPUコア1つあたりのダイサイズを35％削減することが可能になっており、1つのCPUダイに16個のCPUコアを搭載することが可能になっている（従来の第4世代EPYCでは1つのダイに8つのCPUコア）。

　第4世代EPYC 97X4では、この16コアから構成されるCPUダイを8つとIOD 1つをパッケージにチップレットで搭載しており、合計で128個のCPUコアを1ソケットで実現することが可能になっている。

Zen 4cは、CPUコアあたりのL3キャッシュが4MBから2MBに減らされている。それらにより、35％の小型化が実現されている

Zen 4とZen 4cの構造の違い

Xeon Platinum 8490HとEPYC 9754との性能の違い

　一方のGenoa-Xは、第4世代EPYCに、3D方向にSRAMチップを積載した製品で、「3D V-Cache搭載第4世代AMD EPYCプロセッサー」という製品名で提供される。最大で1.1TBのL3キャッシュを搭載した製品がラインアップされていることが従来世代との大きな違いになる。いわゆるテクニカルコンピューティングと呼ばれる科学シミュレーションや流体力学のシミュレーションなどのアプリケーションにおける性能が向上することになる。今回の基調講演ではMicrosoft Azure HPC/AI担当事業部長ニドヒ・チャペル氏が壇上に呼ばれ、Microsoft AzureでGenoa-Xを活用したHBv4というインスタンスが導入されることが明らかにされた。

　なお、いずれの製品もプラットフォーム側は第4世代EPYC（Genoa）と互換性があり、CPUソケットはピン互換でマザーボードなどは同様のものが利用できる。AMDによれば、どちらの製品も既に出荷開始されており、Dellが既に発売されている第4世代EPYCを搭載したPowerEdgeでBergamoとGenoa-Xを搭載したモデルの提供を明らかにするなど、今後OEMメーカーから搭載製品が発売される見通しだ。

3D V-Cache搭載第4世代AMD EPYCプロセッサー

Intel Xeon Platinum 8490Hとの性能比較

AMD 上席副社長兼サーバービジネス事業部事業部長ダン・マクナマラ氏（左）、Microsoft Azure HPC/AI担当事業部長ニドヒ・チャペル氏（右）

生成AIやLLMなどへの注目の高まりに合わせて、クラウドAI向けのGPUやAPUとなる「Instinct MI300」が発表される

　AMDは生成AI向けのGPU/APUソリューションに関しても明らかにした。OpenAIのChatGPTやMicrosoftのBingチャットやMicrosoft Copilotシリーズなど、LLMや生成AIと呼ばれるAIモデルを利用したアプリケーションには注目が集まっており、日々AIの学習や推論を行うクラウドデータセンターへの負荷は高まるばかりだ。

　今回AMDが発表したのは、「AMD Instinct MI300 シリーズ・アクセラレータ」というGPUおよびAPU（CPU＋GPU）になる。

　AMDは1月にラスベガスで行われたCESで、CPUとGPUがチップレットで1チップ構成となっている「Instinct MI300A」の開発意向表明を行っていたが、今回はそれを正式発表した形となる。

　AMDによれば、24コアのZen 4 CPUコアと、CDNA 3アーキテクチャのGPU、さらには128GBのHBM3メモリが1チップに搭載されており、メモリはCPUとGPUがアドレスを共有するシェアードメモリになっている。それにより、CPUとGPUが同じメモリを共有でき、CPUのメモリからGPUメモリへコピーする必要がなくなり、全体でメモリ利用の効率が改善する。

Instinct MI300の発表はスー氏自身が行った。同氏が手に持っているのはMI300X

CPU＋GPUのAPUとして発表されたInstinct MI300A

　Instinct MI300XはGPUのみのソリューションで、MI300AからCPU用の3つのチップを取り除き、そこにCDNA 3アーキテクチャGPUの2つのチップを実装して、GPUのみの構成にした製品になる。こちらは192GBのHBM3メモリが搭載されており、5.2TB/秒のメモリ帯域が実現されている。

GPUとなるInstinct MI300X

MI300XでFalcon-40BのLLMを400億パラメーターでの学習を1枚のカードで終えるデモ

　また、GPUとGPUのチップ間接続にはAMDがInfinity Fabricと呼ぶインターコネクトが利用されており、896GB/秒の帯域が実現されている。

　AMDはそのInfinity Fabricを利用し、8つのGPUにスケールアップした「AMD Instinct Platform」と呼ばれるGPUサーバー機器向けのデザインソリューションを今回発表した。OEMメーカーは8つのMI300Xをスケールアップして1つの巨大GPUとして利用できるAI用サーバー機器を構築できる。

8つのMI300Xを1つの巨大GPUとして利用できるAMD Instinct Platform。NVIDIAのDGX H100のライバルとなる

　AMDはそうしたGPUサーバーでAI演算を行うソフトウェア環境としてROCm（ロックエム）を用意しており、既に最新版のバージョン5が用意されている。基本的には「AMD版のCUDA」と呼ぶべきソフトウェアで、PyTorchやTensorFlow、ONNXといったディープラーニング（深層学習）のフレームワークのサポート、ライブラリーやコンパイラ、ツールなどが一体になって提供されている。

　また、NVIDIAのCUDAからのソフトウェアのマイグレーション機能も有しているなど、既にNVIDIAのCUDA向けにソフトウェア環境を構築している開発者も、比較的簡単にAMD GPUの環境に移行できる。

　AMDによれば、このROCmを利用することで、1GPUから、今回発表されたAMD Instinct Platformのように8GPUにスケールアウトされた環境、さらにそのInstinct PlatformをイーサネットやInfiniBandで複数台接続してスケールアウトしている状態の環境など、小規模から大規模まで伸縮自在に1つのGPUとして扱うことが可能になっている。

　AMD Instinct Platformは、NVIDIAが最近提供を開始したDGX H100（NVIDIA H100 GPUが8個搭載されているGPUサーバー）の対抗製品と考えることでき、市場に投入されることになれば、AI学習のスーパーコンピューターとして、新しい選択肢になりそうだ。

MI300Aは既にサンプル出荷を開始し、MI300Xは第3四半期からサンプル出荷を開始