インタビュー
AIによりオンプレミスの需要は増大、長期的には成長していく――米Dell・ナラヤーン上級副社長
2026年6月1日 06:00
米Dell Technologies(以下、Dell)は、同社の年次イベント「Dell Technologies World 2026」(以下、DTW 26)を、5月18日~5月20日(現地時間)に米国ネバダ州ラスベガス市の「The Venetian Expo」において開催した。
その中でDellは、「Dell AI Factory with NVIDIA」と呼ばれるAI Factory(GPUなどから構成され、学習・推論の演算が可能なAIデータセンターのこと)ソリューションに関するアップデートを行った。Dellがハードウェアの構築を請け負うことで、顧客は運用開始の作業やソフトウェア環境の構築だけに集中できるソリューションを提供することを明らかにしている。
筆者は、Dell Technologies コンピュート・ネットワーク製品群担当 上級副社長 アルクマール・ナラヤーン氏の記者向け説明会に参加し、AI Factory構築の現状などについて話を聞いた。
昨年に比べてGPUの稼働率向上、ソフトウェアソリューションの拡充、GPUクラスタ展開の容易さを実現
――昨年発表されたDell AI Factory with NVIDIAが本年はアップデートされた。昨年に比べてどう進化したのか?
AI Factoryは継続的に進化しており、着実な改善が続いている。当社のAI Factoryは、エンタープライズ系の顧客や従来のハイパースケーラーだけでなく、新しい形のクラウドサービス事業者向けにも提供しており、文字通り世界中の顧客に利用されている状況だ。
AI Factoryに関して継続的に取り組んでいることは3つある。1つめはGPUの稼働率(筆者注:ネットワークやメモリなどからのデータ読み込みでGPUが待機状態にある時間を減らすという意味)を向上させることだ。これは極めて重要な指標であり、顧客の投資を守り、その価値を最大化するために不可欠なことである。そのために、品質、信頼性、保守性を継続的に向上させて、GPU稼働率の改善に取り組んでいる。
2つめは、AI Factory上で展開できるソフトウェアソリューションを拡充していることだ。現状でもAI Factory上で多くの新しいエンタープライズアプリケーションを展開でき、多様なISVソリューションを迅速に展開可能にしており、短期間で顧客価値につなげられるようにしている。
3つめは、10~20万といったGPU数になる大規模AI Factory展開の複雑さへの対応だ。こうした巨大クラスタは極めて複雑であるため、ラックを現地で展開し、顧客環境で迅速に立ち上げられるようにプロセス整備を進めてきた。これはサービス性とサポート性の改善でもある。
――AI Factoryでは大規模なGPUクラスタを導入するために、スケールアウトネットワークの導入も重要になる。
AI Factoryというのは、何も数十万台のGPUがあるような大規模なものだけではない。1台のサーバーにGPUカードを2枚差しただけの構成でもAI Factoryと位置づけられる。そうした規模は顧客がどのようなユースケースにAI Factoryを利用するのか次第だ。当社では、AI Factory向けにサイジングツールを用意しており、ワークロードの種類、企業が望むユースケースで使う場合に発生するコスト、導入するGPUのモデルなどに応じて適切なAI Factoryを選択できるようにしている。
それにより、AMD EPYC やIntel Xeonに8基のGPUを組み合わせた比較的小規模のものから、GB200、GB300、そしてそれらのNVL72版などから構成される大規模なAI Factoryまで非常に幅広い規模に対応可能だ。
このように、AI Factoryは単一の固定ソリューションではなく、顧客が取り組むユースケースに応じて設計するカスタムソリューションであり、そうした考え方でわれわれは販売している。実際のところ、エンタープライズ顧客は小規模なAI Factoryを採用し、大規模な新規クラウド事業者の顧客は大規模なAI Factoryを運営していることが多い。
――従来のGPUクラスタのネットワークはRDMAを前提としたアーキテクチャになっている。それはエージェント型AIの時代になっても変わらないか?
ネットワークの設計は、GPUの時代になって大きく変わった。GPUクラスタでは、すべてのGPU同士が相互に通信できることが重要だ。100基を超えるGPUを備えるクラスタであれば、その100基すべてが相互接続されている必要があり、それを支えるのがスケールアウトネットワーク(イースト・ウエスト・ネットワーク)になる。
それに対して従来のエンタープライズのサーバーでは、ノース・サウス通信と呼ばれるトラフィックが一般的で、アプリケーションとサーバー、サーバーとクライアント間の通信が主だった。
一方でAI Factoryでは、前述のようにGPUメモリ同士の通信がGPU性能を左右する重要なファクターになる。特にLLMでは常時相互にデータのやりとりを行うため、それぞれのGPUに用意されているメモリとほかのGPUとを、相互に効率よく接続する必要があるのだ。このためGPUをスケールアップし、スケールアップしたノード間を接続するイースト・ウエスト通信になるスケールアウトネットワーク、さらに従来のノース・サウス通信も含めてすべてが重要になる。
また、OSに関しても、AIに最適化したものが必要になっていくと考えている。既存のOSは従来型のエンタープライズアプリケーションに最適化されており、AIには不要な機能を多く含んでいるからだ。
――現状、エンタープライズ向けのCPUアーキテクチャは大多数がx86だ。それに対してAI Factoryでは、GB200/300、Vera RubinのようにArm CPUを採用する例が増えている。その一方、AIエージェントなどではCPUの処理が重要になるが、今後その市場ではx86とArmどちらが主流になっていくか?
おそらく両方が併存する形になる。エンタープライズの顧客はx86を使うことに慣れているし、既存のエンタープライズアプリケーションはほぼすべてx86の上で動いている。そのため、AIエージェントを構築する際にも、x86を使うケースが多いだろう。
一方、新興のクラウド事業者などでVera RubinやGB200/300(Grace Blackwell)を導入している場合には、すでにArmベースで多くのコードを書いているだろうから、その場合はArmを使い続けるだろう。
このため、ユースケース次第ではあるが、x86ベースのエージェント型AIも、Armベースのエージェント型AIも、どちらも成長することになると予想している。いずれにせよ、今後数年、CPUの需要はどちらもかなり増えるのではないだろうか。
AIの展開が広がるにつれAI推論の効率の良い実装が必要になってきた
――数十万ものGPUにスケールする事例がAI Factoryで増えている。そうした巨大なGPUクラスタを構築するに当たって課題は何か?
そうしたギガワット級のAI Factoryを実現する上で、課題は大きく分けて3つある。
1つめの課題は電力の確保だ。土地、電力、建屋などをそろえるのは容易ではなく、世界的に見てもギガワット級の電力を確保する場所は限られている。その意味で、まずは必要な電力をいかに確保するかが出発点になる。
2つめとして、電力確保後のデータセンター建設になる。変圧器が供給されるまでには約2年、冷却設備には18~24カ月といった納期になっている現状で、そうした供給までに時間がかかるような部材を見越した調達が欠かせないのが現状だ。それに加えて、GB300やVera RubinといったIT設計も重要で、大規模にスケールする場合にはスケールアウトネットワークを正しく設計することが大事だ。また、多くのGPUは液冷を前提としているため、ラックあたりの電力設計や液冷システムの設計も重要になってくる。
3つめは、IT部材のサプライチェーン全般の課題だ。昨今話題のメモリやSSDは言うまでもなく、最近ではネットワーク機器の調達も逼迫(ひっぱく)しており、そうした必要な部材を適切に確保することが重要だ。
そうした課題を克服して建設して、システムの稼働を始めた段階では、複雑な設計を正しく、かつ迅速に立ち上げる必要がある。そうでなければ、建設する事業者にとっては投資対効果が著しく低下することになる。その後、数十万という規模のトランシーバーやGPUを常時監視し、故障などをいち早く検知・修復するための可観測性が不可欠になる。
このように、ギガワット級のデータセンター構築と運用にはエンドトゥエンドで新しい課題が多く、業界全体がその運用方法を学びつつある段階だ。
――現在のAI Factoryは、どちらかと言えばAI学習のニーズを中心としたワークロードに最適化されているが、これからはAI推論の重要性が増していくと考えられている。GPU用のスケールアウトネットワークの形も変わっていくか?
変わっていくだろう。というのも、推論そのものが大きく変化しているためだ。第1世代の生成AIでは、チャットボットに質問をするような比較的単純な推論が中心だった。その次の第2世代では、いわゆるリーズニング型のモデルが登場し、1つの質問から複数のクエリーを作成しながら回答を続ける形になった。そして現在の第3世代になるエージェント型推論では、複数のエージェントが相互に会話しつつ、バックエンドのLLMとも連携する段階に入っている。
このため、変わるのはネットワークのアーキテクチャだけでなく、システム全体の構成だ。エージェントはGPUだけでなく、より多くのCPUリソースを必要とするようになるし、レイテンシの削減に取り組みながら、複数エージェント間のやりとりを管理するオーケストレーションが重要になっていく。
このように、エージェント型AIへの移行に伴い、ネットワークも単なる広帯域型から、広帯域であると同時に、超低レイテンシが求められるようになっていく。
――エージェント型AIではレイテンシーが重要になるという議論が行われており、NVIDIAが採用を明らかにしたGroqのような推論アクセラレーターが注目を集めているが?
推論に関しては処理が二つのステージに分離して行われるようになっている。最初のステージはPrefill(プレフィル)で、モデルの読み込みや初期計算を行う。このステージは計算集約型のステージになる。第2ステージはデコードであり、モデル全体のメモリや文脈情報を維持しながらトークンを生成する。このステージはメモリ集約型になりメモリ帯域の強いステージになる。特に近年は文脈長も拡大しており、ユーザーが多くのファイルを添付して問い合わせることで、LLMの文脈やKVキャッシュがより一段と巨大化する。そこに多くのユーザーが同時に大量のトークン生成を要求すると、レイテンシ低減の重要性が一段と高まることになる。
そのため、非常に大規模なAIクラスタでは、レイテンシを削減するために専用のLLM用プロセッサーを導入するなどして、分離された推論パス全体の性能を高める取り組みがされている。エージェント時代には、メモリ帯域だけでなくレイテンシも重要になるのはそのためで、同時利用者数の観点ではスループットも重要になる。AI推論アクセラレーターはレイテンシの観点で優れており、スループットと応答速度の両立を目指す場合に有望な選択肢として注目を集めている。
トークン生成の経済性、データセキュリティなどの観点から大企業はオンプレミスでのAI構築を選択する
――今回、Dellは「トークノミクス」という言葉を利用して、トークンを生成する際の費用対効果に関して指摘した。それはどういう意味だと理解すればいいか?
現時点ではAIの初期段階であり、まだ確実にこれだという正解が見つけられていないというのがわれわれの理解だ。では何が論点かと言えば、大きく言って3つある。それがどのモデルを使うか、そのモデルの性能はどれだけか、そしてオンプレミスで実行するのかクラウドで実行するのか、ということだ。
AIモデルは、モデルごとに価格体系が異なっている。高性能モデルとオープンソースモデルではコスト構造が異なっている。オープンソースだから安いということではなく、オープンソースを利用した場合でも学習のコストなどは別途かかってくる。
また、ユーザーのユースケースにより、AIモデルにどの程度の性能を必要とするかは異なってくる。単純な要約程度ができればいいのか、あるいは自動でコーディングするような高度なAIモデルが必要なのか、そうしたユースケースにより、AIモデルに必要とする性能は異なってくる。
最後に、オンプレミスかクラウドかという観点では、オンプレミスは初期投資を必要とするが、クラウドのような継続的なトークン課金を抑えられる可能性がある。
このあたりは企業側のユースケースによって異なるので、これが正解だというものは今のところない。実際に開発を始めてみて、ユースケースを動かす中で、必要なモデル水準やコスト構造が見えてくるというのが今の考え方だ。
――3月のGTCにおいて、NVIDIAのジェンスン・フアンCEOは、同社のAI向けソリューションのうち6割がハイパースケーラーのクラウドサービス事業者向けだと明らかにした。今後、オンプレミス向けは再び増えていくのか?
効果的なAIを構築するには、データが何よりも重要だ。大企業が持っているデータとは何かと言えば、PowerPoint、PDF、メールなどの形で企業内部に存在し、クラウド上にない非構造化データだ。こうしたデータから価値を引き出す方法としては、すべてのデータをクラウドに移すという選択肢が1つ、そしてもう1つはAIをデータのある場所、つまりオンプレミスのデータセンターに統合することだ。
現状では多くの大企業顧客が後者を選んでおり、オンプレミスで自社データ向けにAIを動かしつつ、合わせてクラウドも併用するというハイブリッド型に向かっている。つまりオンプレミスは縮小しているのではなく、むしろAIにより成長しているというのがわれわれの認識だ。こうしたデータセキュリティ、可用性、経済性の3つの観点から、長期的にはオンプレミスでAIを運用する可能性が高いと考えている。







