トピック

エンタープライズのパブリッククラウド利用、コスト最適化の鍵はCPUに

 本年に入って、一般消費者のレベルでもエンタープライズでも、生成AIの注目度が高まりを続けている。「インターネットの登場時」や「iPhone登場時」と同じだという表現もされ、インターネットやiPhoneの登場が社会を変えていったように、生成AIもデジタル社会のみならず、レガシーの産業にも波及し始めており、これから社会を変えていくことは確実だ。

 そうした生成AIへの注目が高まる中、その裏でエンタープライズのパブリッククラウドサービスへのシフトが進んでいるが、そのようなエンタープライズにとって今大きな悩みとなっているのが、パブリッククラウドサービスに移行したことによるコストの増大だ。

 パブリッククラウドサービスの基盤に対してもCPUを提供しているインテルは、パブリッククラウドサービスを利用する顧客にとって、コストの最適化の鍵となるのは、「インスタンスの選び方」を見直すことだと指摘する。

 本稿では、その理由を解説していこう。

米Intelが開催した第4世代インテルXeonスケーラブル・プロセッサーの記者説明会で、製品の説明を行った同社のリーダー。左からIntel シニアフェロー サイレッシュ・コッタパリ氏、Intel CVP 兼 Intel Xeon製品事業部長リサ・スペルマン氏、Intel シニアフェロー ロナック・シングハル氏

生成AIの登場で、エンタープライズのパブリッククラウドサービス利用が促進

 CSP(クラウドサービスプロバイダー)が提供するパブリッククラウドサービスの利用率が、日本でも高まっている。2010年代には、データの所有権やセキュリティへの懸念などから、多くのエンタープライズはオンプレミスのデータセンターを活用しており、クラウドへの移行は米国などに比べて緩やかという状況だった。

 しかし、2010年代の後半からは徐々にパブリッククラウドサービスへの移行が進み、IDC Japanが昨年公開した調査「国内パブリッククラウドサービス市場 売上額予測、2021年~2026年」によれば、2022年度のパブリッククラウドサービスの市場規模は前年比29.8%、そして2026年まで平均20%の成長率で成長すると予想されている。

 今後も高い成長率が予測されているパブリッククラウドサービス市場だが、この市場予測には、本年に入ってから加速している生成AIのブースの影響は考慮されていない。自然言語を活用したチャットボットとなる「ChatGPT」や画像生成ツールの「Stable Diffusion」など、さまざまなアプリケーションが一般消費者に話題となり、エンタープライズでは自社が持つデータを活用してLLM(大規模言語モデル)を活用して、より高度な検索や、従来は人間がやっていたような翻訳や文字起こし、文章の作成補助、さらにはプログラミングなどを生成AIにさせるアプリケーションを構築することがトレンドになっている。

 この生成AIを含むAIは、今や従来のITという枠を超えて、さまざまなアプリケーションを構築するプラットフォームになっていく、そう考えられている。今や多くの関係者が、生成AIブームを「インターネット登場時」「iPhone登場時」などが表現して、次の時代を規定していく技術になると考えている。90年代半ばのインターネットの立ちあがり、2000年代半ばのiPhoneの登場時のように、生成AIは次の時代で主流になっていく技術だと考えられているのだ。そして、生成AIを利用する上で欠かせないプラットフォームが、パブリッククラウドサービスなのである。

本年8月にGoogle Cloudが開催した年次イベント「Next '23」の基調講演の様子

エンタープライズのパブリッククラウドサービス利用の支出は増加傾向、求められる最適化

 そうしたパブリッククラウドサービスだが、Amazon Web Services(AWS)、Microsoft Azure、Google Cloudという、以前からグローバルにサービスを展開している3つがよく知られている(最近では、この3社にOracle Cloudを加えて4つとされることも多いが)。例えばトップシェアを持つAWSからは、ハードウェアの仮想化であるEC2、ストレージの仮想化であるS3などのサービス(インスタンスと呼ばれる)が提供され、それらを組み合わせることで、仮想的なサーバーを構築可能になっている。

 一口にEC2のインスタンスといっても選択肢は豊富で、例えば、インテルのCPUの場合は、第2世代インテルXeonスケーラブル・プロセッサー(以下、第2世代Xeon SP)と第3世代インテルXeonスケーラブル・プロセッサー(以下、第3世代Xeon SP)、さらには第4世代インテルXeonスケーラブル・プロセッサー(第4世代Xeon SP)といった複数世代のインスタンスが同時に提供されていたりする。コストと性能を最適化しながらクラウドを活用していくには、そうした豊富な選択肢の中から正しいインスタンスを選ぶことが重要になってくる。

昨年12月にAWSが開催したRe:Inventの展示会場

 なぜ正しいインスタンスを選ぶことが重要なのかと言えば、現在、パブリッククラウドサービスを利用しているエンタープライズにとって頭の痛い問題が、利用コストの増大だからだ。インテルによれば、ワールドワイドのパブリッククラウドサービスへの支出は、2022年の4903億ドルから、2023年には20.7%増加して5918億ドルになっているという。もちろん、新たにオンプレミスからパブリッククラウドサービスへと移行した分も含まれているため、一概に支出だけが増えているとはいえないが、それでもエンタープライズにとっては、パブリッククラウドサービスへの支出が増加傾向にあることは否定しがたいだろう。

 パブリッククラウドサービスの支出が増加傾向にあるのは、パブリッククラウドサービスが伸縮可能(スケール可能)という特徴を備えているからにほかならない。パブリッククラウドサービスの最大の特徴は、ハードウェアというインフラが仮想化されており、そうしたインフラを複数の企業がシェアするため、初期投資を抑えながらデータセンターを仮想的に持てる点にある。自社でデータセンターを作ったり借りたりすることを考えると、確かに初期投資は少なくてすむ。

 しかし、逆に考えれば、サービスを開始した後で負荷が高まっていく過程で、仮想的なサーバーを増やしていくこととなり、それがコスト面で跳ね返ってくることになる。自社のデータセンターの場合には既に初期投資が終わっているので、ランニングコストにだけ注意を払っていれば良いが、パブリッククラウドサービスの場合には、使えば使っただけコストに跳ね返ってくる。

 インテル株式会社 テクニカルセールス・ソリューション・サービス クラウド・テクノロジー・サポートグループ 松田貴成氏によれば、その最大の要因はパブリッククラウドサービスを利用するユーザー企業で、クラウドアーキテクチャの大規模・複雑化が進行し、どのようなアプリケーションをどのようなインフラで実行させるとコスト・性能最適なのかまで注力されていないからだという。

 松田氏は「多くのエンタープライズでは、どんなハードウェアを使っているかを意識せずに、上位レイヤーのアプリケーションの開発を進めることが多くなっています。また大規模なシステムにおいては、運用面においてもコスト最適化の余地がある場合が多く、マーケットリサーチ会社の調査によれば、約30%前後のクラウド利用で無駄遣いが発生している」と述べ、パブリッククラウドサービスを利用する上でのコスト最適化を実現するには、どのようなハードウェアを利用するかにもっと注目すべきだと指摘した。

パブリッククラウドサービスの最適化で重要になるのは、ハードウェアを理解すること

 では、何が無駄なのかを考えていくと、使用されていないリソースの放置や適切なインスタンスサイズやタイプでないこと、契約の見直しの必要性などが主な理由となる。インスタンスの価格参照だけで単純にコスト最適化を実現していくのは簡単ではないと松田氏は指摘する。

 松田氏は「クラウドの利用料金はその複雑なアーキテクチャから簡単に算出はできない。頻繁に利用するデータベースなどはクエリー性能等によっては、価格が高く高性能なインスタンスのほうが、見た目が安価なインスタンスより時間(価格)あたりの性能が高くなり、例えば異なる単価A、B、Cのインスタンスのコストパフォーマンス算出は簡単ではない」と述べる。EC2やGCEなどの仮想化されたハードウェアインスタンスのコストを単純に調べるだけでは、「無駄が出ている」「そうではない」ということが理解できないというのだ。

 このため、そうしたインスタンスにかかっている本当のコストを見極めるには、エンタープライズ自身が、今どのようなハードウェアを利用して、それがどれだけのパフォーマンスを持ち、いわゆる費用対効果(1円あたりの性能)があるのかを見極めていく必要があると、松田氏は強調する。

 というのも、インテルのようなプロセッサーベンダーは、早ければ年に一度、遅くても2~3年に一度新しいCPUを登場させる。例えば、インテルは第3世代Xeon SPを2021年4月に発表、そこから約2年後の本年1月に最新製品となる第4世代Xeon SPを発表している。

インテルが本年1月に発表した第4世代インテルXeonスケーラブル・プロセッサー

 インテルが発表しているサーバーロードマップでは、Emerald Rapids(エメラルド・ラピッズ、開発コード名)を本年の末までに、第5世代インテルXeonスケーラブル・プロセッサーとして発表する予定であることを、第2四半期決算の中で明らかにしており、さらには、Eコアと呼ばれる電力効率が高いプロセッサーコアから構成されたSierra Forest(シエラフォレスト、同)を来年に、そのSierra Forestのリリースのすぐ後に、Emerald Rapidsの後継となるGranite Rapids(グラナイト・ラピッズ、同)をリリースする計画だ。

 このように、特に来年は新しいアーキテクチャを採用したSierra Forestのリリースも予定されているなど、新しい製品が続々登場する計画となっている。1年に一度どころか、二度や三度にわたって新しい製品が投入される可能性があるのだ。

インテルのデータセンター向けプロセッサーロードマップ(出典:Unveiling Intel's 2024 Xeon Architecture、Intel)

 そうした新しいプロセッサー製品が投入されるたびに、CSPは新しいインスタンスを登場させる。新しいプロセッサー製品では、性能が向上しながら価格が据え置かれたり、また旧型製品の値段が下がったりする。従って、パブリッククラウドサービスのコストを最適化したいエンタープライズにとっては、その都度新しいアーキテクチャのメリットは何で、性能はどの程度上がり、その結果として、パブリッククラウドサービス上に構築している仮想サーバーの性能がどの程度上がり、コスト対効果がどうなっているのかを再計算してみる必要があるという。それがパブリッククラウドサービスの利用料金を最適化する近道なのだ。

第4世代Xeon SPに対応したインスタンスが登場し始めている、費用対効果が向上する

 前述の通り、インテルは現行製品として、第4世代Xeon SPを本年1月から提供開始したことを明らかにしている。パブリッククラウドサービスでも徐々に提供が開始されており、AWSはM7iというインスタンスで、Google CloudはC3というインスタンスで提供を開始している(なお、まずは米国内のリージョンからのサービス開始だが、通例で言うと、そこから少々遅れて、アジアなどほかのリージョンでもサービスが開始されることになる)。

 このため、現在のパブリッククラウドサービスでは第2世代Xeon SP、第3世代Xeon SP、第4世代Xeon SPなどの3世代が混在する環境になっている(場合によっては初代のインテルXeonスケーラブル・プロセッサー(Xeon SP)も含めて4世代のプロセッサーが混在する場合もあるが、今回は第2世代~第4世代に絞って性能について考えていきたい)。

 第2世代Xeon SP、第3世代Xeon SP、第4世代Xeon SPのスペックなどをハイレベルでまとめたものが次の表1となる。

表1:第2世代Xeon SP、第3世代Xeon SP、第4世代Xeon SPのスペック(筆者作成)

 見てわかることは、世代を経るごとに1つのプロセッサーに集積されているCPUコアの数が増えており、同じグレードの製品であっても性能が向上している、ということだ。また、CPUの中でメモリレイテンシーを削減するために用意されているキャッシュメモリも、L2キャッシュ、LLC(またはL3キャッシュ)が世代ごとに増えている。さらに最新製品の第4世代Xeon SPでは、メモリが最新のDDR5に強化され、帯域幅が拡張されたため、メモリ帯域に依存するような大量のデータを処理するアプリケーションで、性能が向上している。

 もう1つ注目しておきたいのは、最新の第4世代Xeon SPでは、新しい拡張命令セットであるAMX(Advanced Matrix eXtensions)が実装されていることだ。AMXは第4世代Xeon SPに搭載されている新しい演算器「TMUL(Tile Matrix multiply Unit)」を利用して、AIの処理をより高効率で行うための新命令となる。ソフトウェアがAMXに対応すると、INT8やBflot16のようなAIで活用される精度の演算をより高速化することが可能になる。

 また、第4世代Xeon SPではQAT、DLB、DSA、IAAという4つのハードウェアアクセラレータを搭載している。例えばQATでは暗号化処理を高速に行うアクセラレータで、ネットワーク周りの処理やストレージの処理をCPUからオフロードすることで性能を引き上げたりすることが可能になる。汎用のCPUだけでなく、特定の処理だけを行うアクセラレータを複数搭載していることで、性能の引き上げを狙っているのも第4世代Xeon SPの大きな特徴だ。

第4世代Xeon SPでのQATのデモ。データベースの暗号化性能が2.3倍になる

 そうした第4世代Xeon SPだが、インテルが公開している事例によれば、性能そのものも、そして費用対効果も大きく向上している。

Gunpowderがデジタル・レンダリングの時間とコストを削減
https://www.intel.co.jp/content/www/jp/ja/customer-spotlight/stories/gunpowder-customer-story.html

 Gunpowder社はデジタルVFXサービスを提供する企業で、Google Cloudを利用して世界的なアーティストにレンダリング・サービスを提供している。レンダリングは、プロセッサーのリソースをほぼ完全に使い切るため、48コアのプロセッサーであれば48コアすべてが、60コアのプロセッサーであれば60コアすべてが使われるような重たい処理になる。

 Gunpowderは、Google Cloudが提供している第4世代Xeon SPを採用したC3インスタンスを実際に活用して、従来のC2インスタンス(第2世代Xeon SP)との性能比較を行っている(Arnoldというアプリケーションを利用して計測)。それによれば、性能では37%高速になり、費用対効果では24%の改善が見られたとのことで、Gunpowderは同社の顧客に対してより高性能なレンダリング・サービスを、より低コストで提供することが可能になると説明されている。

Arnoldを利用したベンチマーク、C2インスタンスに比べてC3インスタンスは37%高速で、費用対効果は24%向上する(出典:Intel)

 また、インテルが公開している資料では、C2インスタンス(第2世代Xeon SP)とC3インスタンス(第4世代Xeon SP)での性能比較では、MySQL/HammerDBで1.41倍、NGiNXで2.34倍、Wordpressで1.42倍、x265-1080pのトランスコードで1.41倍、LAMMPS-GeoMeanで1.25倍という性能向上を実現しているほか、Ansysのようなメモリの広帯域と低レイテンシーが効いてくるアプリケーションでは、3倍の性能向上が期待できると説明されている。

C2インスタンスとC3インスタンスの性能差(出典:Intel)

一般的な最適化もクラウドコストの最適化に効果的、ツールを使うとさらに効率よく最適化ができる

 インテルの松田氏は、こうした最新のインスタンスへと移行を実現するのと同時に、一般的に言われる最適化を同時に行うことで、さらなるクラウドコストの最適化を行うことが可能だと説明した。

 具体的には、

  1. 利用していないインスタンスを削除する
  2. サイズが合っていないインスタンスを調整する
  3. 土日や夜間に利用されていないインスタンスについて停止させる等の処理を行う
  4. 常時起動のものは契約等を見直しコスト削減を行う

という4つがお勧めとのこと。

 また松田氏によれば、インテル自身も「Intel Workload Optimizer」を提供しているほか、Densify社による「Intel Cloud Optimizer」というサードパーティーツールも用意されており、それらを利用しても最適化が可能で、インテルプロセッサーのインスタンスを多数利用している場合には、こちらを利用するのがお勧めだ。

 そうした最新のインスタンスを選択するなどして、コスト最適化を行った次に検討したいのが、ソフトウェアレベルでの最適化だ。第4世代Xeon SPにおいて、AMXなどの新しい拡張命令やアクセラレータなどの新機能が搭載されていることは既に説明した通りだ。インテルのプロセッサーはそのように、世代ごとに新しい機能や拡張命令などの拡張が行われており、ソフトウェアがそれらに最適化することで、大きな性能向上を実現可能になる。

 次回は、そのあたりの最適化に関して説明していきたい。