イベント

AMD、推論用AI半導体市場の拡大を見据えてデータセンター向けAI新製品とその拡充計画を明らかに

 米AMDは6月12日(現地時間)に、米国サンノゼ市の会場において「AMD Advancing AI 2025」を開催し、同社のAI向けソリューションの新製品発表や展示などを行った。

 この中でAMDは、同社のデータセンター向けGPU製品「Instinct」の最新製品となる「AMD Instinct MI350シリーズ」(Instinct MI350シリーズ)を発表した。AMDによれば、Instinct MI350シリーズはGPU単体、ないしは8基までスケールアップした状態で、競合メーカー(NVIDIA)のGB200、B200などのBlackwell世代のGPUと同等ないしは若干上回る性能を発揮するという。

Instinct MI350Xシリーズを発表するAMD 会長 兼 CEO リサ・スー氏

 同時にAMDは、来年投入する予定のInstinct MI400シリーズなどのロードマップに関しても説明。やはり来年投入する予定の次世代EPYC「Venice」(ベニス、開発コード名)、DPUの「Vulcano」(ヴォルケーノ、開発コード名)などに関しても説明を行い、それらを組み合わせたラックアーキテクチャ「Helios」(ヘリオス、開発コード名)を来年投入して、現状NVIDIAに対して弱点となっている、9GPU以上のスケールアップにも対応すると明らかにした。

今後は学習よりも推論が成長する、学習にも推論にも柔軟に対応するにはオープンでプログラマブルなGPUが必要

 AMDは、6月12日にサンノゼ市の会場で開催されたAMD Advancing AI 2025の基調講演に、同社 会長 兼 CEO リサ・スー氏などが登壇して、同社のデータセンター向けGPU製品に関する説明を行った。

 同社のデータセンター向けGPUは「Instinct」(インスティンクト)のブランド名が与えられた製品で、一昨年に発表されたInstinct MI300シリーズ(MI300AとMI300X)、そして昨年の10月に発表されたMI300Xのメモリ増加版となるInstinct MI325Xなどにより、徐々にNVIDIAのデータセンター向けGPU(H200、H200、GB200、B200など)の追撃態勢を整えてきた。

年々NVIDIAのGPUに追い付きつつあるという、AMDのデータセンター向けGPUの進化

 現在のAI向け半導体の主戦場となっている、クラウドサービス事業者(CSP)でも採用が進んでいるとのことで、すでにMicrosoft Azure、Oracle Cloud Infrastructure(OCI)に採用されていることが明らかにされており、NVIDIAに次ぐAI半導体向けとして2番手の地位を確固たるものとしつつある。だが、それはダントツ1位に次ぐ2番手の地位であり、ダントツ1位であるNVIDIAとの差を埋めることが、AMDにとっては喫緊の課題になっている。

 そうした中でスー氏は「AIは急速な進化を遂げている。私のキャリアの中でも、AIの進化が最も急速に起こっているものだと言ってよい。そうした中で、AIはAIエージェントへ、そしてエージェンティックAIへと進化を遂げつつある。そのような時代に向けて、CPUやGPUなどの演算を行う半導体の必要性は高まっている。われわれの予測では、2023年から2028年のAI向け半導体のCAGR(年平均成長率)は60%になり、5000億ドル(筆者注:1ドル=143円換算で71兆5000億円)のTAM(潜在市場規模)があると予想しているが、中でも推論の成長は著しいと予測しており、CAGRは全体を上回る80%になると予想している」と述べ、今後推論を処理する半導体の成長が、学習向けを上回って成長すると予測した。

AI向け半導体の市場規模は2028年に5000億ドルになるとAMDは予測、今後は推論向けが増加する

 スー氏は「そうした推論・学習どちらの市場向けにも重要になるのは、プログラマブルで、かつオープンなソリューションだ。AMDはプロプライエタリなソリューションではなく、オープンなソリューションを、ソフトウェアもハードウェアも提供していく」と述べ、同社の最新ハードウェア製品となる「Instinct MI350シリーズ」、最新ソフトウェア製品となる「ROCm 7」を発表。第3四半期から、CSPやOEMメーカーなどから顧客に提供が開始されると明らかにした。

Instinct MI350シリーズとROCm 7が発表され、拡充されるAMDのAI向けソリューション

 スー氏が発表したInstinct MI350シリーズは、内部アーキテクチャがCDNA 4最新版へと進化し、内部的なAI演算時の実行効率が倍になり、電力効率が高まることが大きな特徴だ。AMDは同シリーズにおいて、GPUのダイが8つ、I/Oのダイが2つ、それにメモリとなるHBM3eを2.5Dおよび3Dに混載するチップレット構造を採用しているが、GPUダイが従来の5nmから3nm(いずれもTSMC)へと微細化されており、そちらの観点でも電力効率が改善されている。

Instinct MI350シリーズ

 そうした改良により、2つあるSKU(MI355XとMI350X)のうち上位モデルのMI355Xは、FP4、FP8、FP16などAI演算に利用される一般的な精度で、競合となるNVIDIAのGB200と同等、B200に関しては10%高いスループットを実現するとAMDは説明している。また、メモリは288GBに増やされており、競合となるB200の186GBよりも大きなメモリが利用できることがメリットといえる。AMDはB200に比べて1ドルあたり40%多くのトークンを処理できると表現しており、ざっくり言うとB200を上回る性能を実現しながら、低価格に設定することで、高いコストパフォーマンスを実現していると説明している。

Instinct MI350シリーズの特徴
Instinct MI350シリーズを8つ搭載したUBB8
性能はNVIDIAのGB200に匹敵、B200を10%上回る
トークン処理あたりのコストパフォーマンスは40%優れているとAMD

 またAMDは、Instinct MI350シリーズを搭載したラックシステムのレファレンスデザインをOEMメーカーに提供開始することを明らかにした。従来のInstinct MI325Xまでは空冷のデザインのみを提供していたが、Instinct MI350シリーズでは、TBP(ボード全体消費電力)が1400WになるMI355XにはDLC(直接液冷)を、1000WのMI350Xには空冷を提供する。MI355XとDLCの組み合わせでは、1つのラックで最大128GPU構成を実現可能にする(空冷では64GPU)。

MI355X向けにはDLCを、MI350X向けには空冷が用意される
スケールアウトで128GPU構成や64GPU構成を1ラックで実現する
Dell Technologiesの、MI350X搭載水冷モジュール搭載ラックサーバー

 そうしたInstinct向けのAIアプリケーション開発を可能にするAIソフトウェアスタックとして、AMDはROCm(ロックエム)を提供してきたが、今回のイベントでは、間もなくROCm 7の投入を行うと明らかにした。このROCm 7では、さらに最適化が進むことで、Instinct+ROCm 6の最適化に比べて、推論で平均3.5倍、学習では平均3倍、処理能力が向上するとmAMDは説明している。また同時に、AMDのハードウェアをローカルに持たないAI開発者向けに「AMD Developer Cloud」の提供を開始し、開発からテストまでをクラウド上で行うソリューションを提供すると説明した。

新しいROCm 7を発表
AMD Developer Cloud

スケールアップの弱点は、UALinkを次世代製品MI400シリーズで採用することで解消へ

014.jpg
次世代のMI400XにはHeliosというラックデザインを提供していく

 今回AMDは、Instinct MI350シリーズを採用したラックシステムのデザインそのものをOEMメーカーに初めて提供する。こうしたAMDの動向は、NVIDIAがBlackwell世代でNVL72という、Blackwell世代のGB200を利用して72基までスケールアップするレファレンスデザインをOEMメーカーに提供していることが、大きく影響していると考えられる。

 AMDもそれに対抗する必要があり、Instinct MI350シリーズを採用したラックシステムのデザインの提供を開始したのだろうが、実はこのラックシステムには名称が用意されておらず、現地でラックシステムデザインの提供を開始したと説明されただけだ。それに対して、次世代製品として計画されているInstinct MI400シリーズを搭載したラックシステムは、「Helios」(ヘリオス)という開発コード名がつけられて、アピールされている。その扱いの差はなんなのだろうか?

 このことは、技術的にAMDのInstinct MI350シリーズのラックが、NVIDIAのそれに比べて弱点を抱えていることを象徴しているといえる。具体的には、NVIDIAのNVL72はスケールアップで実現されているのに対して、AMDのMI350Xシリーズのラックはスケールアウトで実現されている、という事実だ。

 NVIDIAのBlackwellは、同社のインターコネクト「NVLink」の第5世代を採用しており、1.8TB/秒の帯域幅を実現している。NVLinkでは、NVSwitchと呼ばれるスイッチチップを利用することで、帯域幅を維持したままより多くのチップを接続可能になっている。NVL72であれば、最大72基のGPUを同じインターコネクト上に接続できるのだ(こうしたCPUやGPU数の増やし方をスケールアップと呼ぶ)。

 これに対してInstinct MI350Xシリーズでは、同様のインターコネクトとなるAMD独自のInfinity Fabricを利用して、最大8基までスケールアップできる(この点ではNVIDIAもAMDも同等)。しかし、9基以上に増やしたい場合には、同社が提供する400Gbps(50GB/秒)の帯域幅になるUEC(Ultra Ethernet Consortium)規格のイーサネット(Pensando Pollara 400)を利用して接続(スケールアウト)するため、処理能力がネットワークの帯域幅で制約を受けることになる。

 この課題の解決は、次世代に持ち越される。AMDはHeliosで、UALink(AMDなどが中心になって業界標準を作るために立ち上げたUltra Link Consortiumで策定された)を採用すると今回明らかにしており、次世代GPUのMI400やCPU「Venice」など、Heliosを構成する半導体がUALinkに対応している可能性を示唆した。

次世代のMI400ではUALinkを採用

 UALinkは、AMDのInfinity FabricのIPが寄贈されて、それをベースに開発が行われたものだ。現状のInfinity Fabricは最大で8GPUまでにしか対応できないが、UALinkではスイッチなどを利用することで9GPU以上に対応できる。スイッチなどの規格も決められており、Marvelなどが開発意向を表明している。AMD自身がスイッチの開発を行っているかは明らかにされていないが、Heliosでそうした構成がサポートされることをAMDは表明しており、Heliosでは、NVL72と同じように1ラックでの72GPU構成がスケールアップで実現可能になる。

Marvelなどのパートナー企業がUALinkのスイッチなどを提供していく

 次世代DPUとなるVulcanoでは800Gbpsに対応し、何台も接続してAIスーパーコンピュータを構成できることになり、この点でNVIDIAのスケールアップ/スケールアウトの構造と並ぶ、ないしは追い越すことが可能になる。

Vulcano

2026年にVenice、MI400、Vulcanoから構成されるHeliosを投入

 スー氏はAdvancing AIの基調講演の中で、同社が2026年にリリースを予定している次世代CPU、GPUに関しても説明を行った。

 現在の第5世代EPYCの後継となるのが「Venice」で、プロセスノードが2nmへと微細化され、CPUのアーキテクチャが次世代の「Zen 6」へと進化することで、1つのパッケージに最大で256コアを実現。メモリ帯域は1.6TB/秒に達して、CPU自体の性能は第5世代EPYCに比べて1.7倍になる。また、CPUとGPUの接続帯域が2倍になると説明しており、これはUALinkが採用することを意味していると考えられる。

Venice

 次世代GPUとなるInstinct MI400シリーズでは、Instinct MI350シリーズの2倍のスループットが実現され、メモリはHBM4に強化され最大432GBまで、メモリ帯域は19.6TB/秒に達する。スケールアウト時も300GB/秒に達する。さらに、ROCmの最適化も進むことで、AI処理能力は10倍近くになるとスー氏は強調した。

Instinct MI400シリーズ

 こうしたVenice、Instinct MI400X、Vulcanoおよびそれらの半導体から構成されるラックデザインHeliosは、2026年に製品として投入される見通し。2026年にはNVIDIAもVera Rubinを投入する計画で、AI向け半導体を巡る競争はより激しくなっていきそうだ。