トピック
生成AIインフラ構築の鍵!GPUサーバーだけじゃない、見落としがちなポイントとは
「クラウドWatch Day」レポート
- 提供:
- デル・テクノロジーズ株式会社
2024年10月28日 09:00
生成AIのインフラ導入・構築にはどのようなポイントに留意すればよいのか。インフラを選定していくにあたってGPUだけに着目してしまうと、GPU性能とシステム全体の性能に乖離が生じかねない。2024年9月27日に開催された「クラウドWatch Day」(主催:インプレス クラウドWatch)では、デル・テクノロジーズ AI Pursuit APJ/AI BDM | AI Specialistの東 政孝氏が登壇。最新の生成AIの状況を紹介しながら、最適な生成AI活用を実現するためのインフラ選定のポイントを解説した。
年平均約47.2%で成長する生成AI市場
最適なインフラはクラウド? オンプレミス?
企業において生成AIの活用が急速に広がっている。デル・テクノロジーズの調査レポートによれば、「何らかの用途で生成AIを活用している」との回答は91%にのぼり、「仕事で利用したことがある」との回答は71%に達している。また、調査会社の報告でも、グローバルにおける生成AI市場は年平均成長率約27%で推移し、2022年の約100億ドルから、2032年には約1180億ドルにまで成長するとの予測が立てられている。
一方、国内において経済産業省は、生成AIの需要は2023年から2030年にかけて年平均約47.2%で成長すると予測しており、生成AI市場の成長に伴い、その開発・利活用に必要なインフラ需要も拡大。2030年には、サーバー、ストレージだけでも約1兆円と、現在の3倍の市場規模に拡大すると予想されている。
「生成AI市場が拡大する中、自社の生成AIを稼働させるためのインフラをオンプレミスに構築するのか、それともクラウドサービスを利用するのか、企業は選択しなければなりません。例えば大規模言語モデル(LLM)による推論を行いたい場合には、コストが大きな考慮事項となります」と、デル・テクノロジーズ AI Pursuit APJ/AI BDM | AI Specialistの東政孝氏は語る。
デル・テクノロジーズは、米国の市場調査会社Enterprise Strategy Group (ESG) に委託し、デル・テクノロジーズの製品を利用したオンプレミスのインフラと、パブリッククラウドのIaaS、およびAPIサービスのインフラで推論LLMのコストを比較する調査を実施した。その結果、オンプレミスに構築した生成AI環境はパブリッククラウドに比べて4倍、トークンベースのAPIサービスに比べても8倍のコスト効率が示されたという(図1)。
「このように、クラウドサービスを利用するよりもオンプレミスに環境を構築したほうが、高いコスト効率を得られることも多く、適材適所でのインフラの選択、利用が重要となります」(東氏)
導入モデルにより変化する生成AIのコスト構造
また、生成AIのインフラコストに関しては、どのような生成AIの導入モデルを選択するかによっても大きく変動する。
生成AIの導入モデルは大きく「トレーニング済モデルの活用」「RAG(Retrieval Augmented Generation:検索拡張生成)」「ファインチューニング」「ファウンデーションモデル」の4つに分類される(図2)。「ファウンデーションモデルはスクラッチ開発されるものであり、開発期間やコストを要するだけでなく、より高度な技術力が求められます。一方、ChatGPTなど、トレーニング済モデルを活用する場合、比較的ハード/ソフトウェアの導入にかかるコストは抑えられ、かつ、求められる技術のハードルも低くなりますが、いざ運用コストを考えた場合には、4モデル中、最も高額になるケースもあります」と東氏は説明する。
そうした中で、最近急速に注目を集めているのが、RAGだ。RAGの利点は、既にある企業内のデータと連携可能な点にある。また、ファインチューニングよりもハード/ソフトウェアのコストを必要とせず、技術的な難易度も高くない。
「いずれにせよ、自社の要件に応じてどのモデルを採用するのか。それにより必要なリソースは変わり、コストも大きく変動します。自社の要件に適合したモデルを選択したうえで、そのモデルに適した環境を構築することが重要なポイントとなります」(東氏)
ボトルネックを発生させない生成AIインフラを構築する
では、生成AIを稼働させるインフラを構築するにあたって、具体的にはどのような点に留意しなければならないのか。生成AIのインフラであるが、GPUサーバーを中心に、ストレージ、ネットワーク、マネジメントシステムといった周辺システムとの組み合わせで構築されるケースが一般的だろう。
「GPUサーバーが重要であることは間違いありませんが、生成AIを活用するシステムの性能を向上させたい場合にはGPUサーバー自体のリソースを2倍にしてもシステム全体の処理能力は上がりません」と東氏は警鐘を鳴らす。
「生成AIの能力を最大限に発揮させるためには、ストレージやネットワークなど、GPUサーバー以外の場所で発生するボトルネックも解消し、GPUに余剰が発生させないようにしなければなりません。そのような課題に対して、デル・テクノロジーズは、GPUサーバーだけでなく、ストレージやネットワーク、マネジメントシステム、そしてコンサルティングサービスに至るまでのすべてを提供しており、生成AIを活用する最適なインフラの構築を全方位でサポートしています」(東氏)
生成AIの活用に最適なGPUサーバー選択のポイント
では、実際に生成AIを活用していくためのシステム構築に際し、どのような視点をもってコンポーネントを選定していけばよいのか。中でもシステムの中軸となるGPUサーバーの選択においては、「パフォーマンス」「マネジメント」「冷却」「サポート」がポイントになる、と東氏は訴える。
「はじめにパフォーマンスですが、『MLPerf -GPU Server ベンチマーク』という第三者の立場にある企業や研究機関が参加しているベンチマークサイトがあります。同サイトのベンチマークには、トレーニングやインフラ等、カテゴリ別に様々なベンチマークテストの結果が紹介されています。このサイトを参照すれば、自社が望んでいる種目においてどういった構成なら求めるパフォーマンスを享受できるのか、一覧で分かります。デル・テクノロジーズは同サイトにおいて、1カテゴリ中、12種類のベンチマーク結果を提供するなど、他社よりも数多くの構成パターンのベンチマークを提供しています。」(東氏)
次のマネジメントであるが、デル・テクノロジーズはサーバー管理ツール「iDRAC(アイドラック)」を提供している。「iDRAC はGPUの管理監視も可能であり、消費電力や温度もほぼリアルタイムで把握可能です。また、iDRACは他のサーバーやサブシステムも併せて監視できるため、単一のツールでシステム全体の統合監視を行えることもポイントです」と東氏は話す。
さらにデル・テクノロジーズでは、AI主導の可観測性と管理機能を提供するSaaSスイート「Dell APEX AIOps」も提供しており、これを利用することで、AI利用の異常検知や予防保守、さらには過去の統計に基づいたCO2排出量の予測も可能になるという。
また、「冷却」については、デル・テクノロジーズのサーバーは空冷・水冷、そして液浸冷却と多彩な冷却機能を備えている。「同じ種類、同じ枚数のGPUを搭載したサーバーであっても、サーバー自体の冷却設計によって、サーバー稼働を保証する環境温度の差が大きく、パフォーマンスに大きな影響を与える場合があります。対して、導入する環境に合わせた冷却技術を選択することで、適温を維持することが可能となり、サーバーの安定稼働とパフォーマンスの確保、さらにはデータセンターの電力コストの削減が可能となります」と東氏は訴える。
サポートについても、デル・テクノロジーズは生成AIの活用に関する多くのリファレンスガイドやホワイトペーパーを公開している。「例えばRAGについてもハードウェア視点のデータだけでなくソリューションの観点に基づいたホワイトペーパーを提供しています。また、実際にRAGを構築する際のサンプルスクリプトや、実際の事例も公開しています」と東氏は話す(図3)。
さらに、デル・テクノロジーズは東京・大手町の本社オフィスに「AI Innovation Lab」を開設している。この施設では、生成AIのユースケースやデモンストレーションを体験することが可能だ。また、同拠点にはシステム検証施設のAI Experience Zoneも設置されており、GPUサーバーのPoC(概念実証テスト)等も行える。
「加えてデル・テクノロジーズは海外にも数多くの拠点、ソリューションセンターを展開しており、それらの施設が利用できるほか、ナレッジの共有も行っています。生成AIのさらなる活用を模索しているのであれば、ぜひ一度デル・テクノロジーズにお声がけ下さい」(東氏)
●お問合せ先
デル・テクノロジーズ株式会社
https://www.dell.com/ja-jp/dt/solutions/artificial-intelligence/index.htm