イベント
Google Cloud、AIエージェントの開発を加速する開発キットや推論専用TPU「Ironwood」を発表
2025年4月10日 00:00
Googleのクラウド事業部門Google Cloudの年次イベント「Google Cloud Next 2025」が、4月9日~4月11日(現地時間)の3日間にわたって、米国 ネバダ州ラスベガスのマンダレーベイ(Mandalay Bay)・コンベンションセンターにおいて開催されている。初日となる4月9日の午前には、Google Cloud CEO トーマス・クリアン氏などのGoogle Cloudのリーダーたちが登壇し、基調講演が行われる。
その基調講演に先だってGoogle Cloudは報道発表を行い、同社の新しいサービスや製品などを発表している。AIエージェントの開発をより容易にするAgent Development Kit、Gemini 2.5の低遅延・低価格版になるGemini 2.5 Flash、さらには同社の外部提供用TPUとして初めて推論特化型として開発されたIronwood(開発コード名)などが発表され、同社が提供するAIソリューションがサービス、ソフトウェア、ハードウェアすべてで拡充されたことをアピールした。
AIエージェントの開発を容易にするADK、エージェント間のやりとりを標準化するA2Aなどが発表される
現在IT業界の最大のトレンドが、生成AIのファウンデーションモデルを利用した「AIエージェント」、そしてその延長線上にあるAIエージェントの自律的な動作が進んだ「エージェンティックAI」であることに異論を唱える人はいないだろう。
今回のGoogle Cloud Nextでも、そうしたAIエージェントの構築に向けた新しいソリューションがいくつか発表されている。
今回Google Cloudが発表した「Agent Development Kit(ADK)」は、Google Cloudが提供するマネージドAIツール「Vertex AI」を利用してAIエージェントを簡単に開発できるオープンソースの開発ツールとなる。
Googleによれば、Pythonで100行以下のコードを書くだけで、簡単にAIエージェントを構築することが可能になる。サンプルとなるコードを提供する「Agent Garden」、作成したAIエージェントを本番環境に適用するまで管理できる「Agent Engine」などと組み合わせて利用することで、さらにAIエージェントの導入の効率を上げることが可能になる。
さらに同時に発表された「Agent2Agent」(A2A)では、エージェントとエージェントがやりとりする際の、手順の標準化を実現する。A2Aはオープンな規格として提案され、ADKやほかのフレームワークで作られたAIエージェント同士のやりとりが可能になる。
このA2Aには、Box、Deloitte、Elastic、Salesforce、ServiceNow、UiPath、UKG、Weights & BiasesなどのGoogleのパートナー企業が参画することを明らかにされており、そうしたパートナー企業が開発するAIエージェントが対応すると、AIエージェント同士が直接やりとりすることが可能になるため、将来的にAIエージェントが自律的に動作する「エージェンティックAI」時代への第一歩になっていく可能性が高い。
このほかにも、他社が開発したAIエージェントを購入して、自社のソリューションとして活用できる「AI Agent Marketplace」なども発表されている。
Gemini 2.5 Flash、Imagen 3、Chirp 3、Veo 2、Lyriaなどの生成AIファウンデーションモデルを発表
今や、生成AIのファウンデーションモデルの自社開発やサードパーティのモデルを幅広く提供することは、クラウドサービスプロバイダー(CSP)にとって重要な競争上のポイントになりつつある。Google Cloudも、Googleが自社開発している「Gemini」(ジェミニ、英語ではジェムナイ)を提供しているほか、Vertex AIでさまざまなサードパーティのファウンデーションモデルを提供している。
Google Cloudは、Google Cloud Next 2025に先だって、「Gemini 2.5 Pro」のパブリックプレビューでの提供開始を明らかにしているが、今回のNextにおいて「Gemini 2.5 Flash」を間もなく提供開始する計画であることを明らかにした。
Gemini 2.5 Flashは、Gemini 2.5シリーズの中でも低遅延と低価格にフォーカスしたモデルで、性能と価格などのバランスを取りながら、その範囲内で高性能を実現するモデルになる。今回Vertex AI向けに提供開始することが明らかにされた最適化ツール「Vertex AI Model Optimizer」を利用することで、企業が自社のAIエージェントにどのモデルを使っていいかがわからない場合にも、簡単に最適なモデルを選んで最適化することが可能になる。
また、Google自身が開発しているGeminiをベースにしたコンテンツ生成特化のAIモデルとなる「Imagen 3」、「Chirp 3」、「Veo 2」、「Lyria」が発表された。Imagen 3は画像生成に、Chirp 3は音声認識に、Veo 2は動画生成に、Lyriaは音楽生成に特化した生成AIモデルになる。
前者3つは従来バージョンのバージョンアップで、生成品質などが強化されている。Lyriaは今回新しく発表されたモデルで、楽曲の生成を自動で行える。例えば、Imagen 3で生成した画像と、Veo 2で生成した動画を1つにして、そこにLyriaで生成した楽曲を利用してイメージビデオを生成する、そうした使い方が想定される。
推論に特化したTPUとなるIronwoodを発表、チップ単体で4614TFLOPSの性能を実現
GoogleはGoogle Cloud Nextにおいて、同社のクラウド事業専用のカスタムASICなどを発表するのが通例となっている。昨年のGoogle Cloud Next '24においては、同社初のArm CPUとなる「Google Axionプロセッサ」を発表しており、一昨年のGoogle Cloud Next '23において、TPU v5eを発表するなどがその例となる。
TPU(Tensor Processing Unit)は、2018年にGoogleが社内の推論(Inference)用のアクセラレータとして2015年に投入したのものが第1世代(TPU v1)で、その後TPU v2、TPU v3、TPU v4、TPU v5e/v5pなど、第5世代まで進化してきている。
昨年の5月に第6世代のTPUとして発表されたのがTrillium(トリリウム)で、従来のTPU v5pに比較してピーク時の性能が4.7倍になると明らかにされている。現在このTrilliumをベースにしたサービスとしてはTPU v6eが提供開始されており、BF16時に918TFLOPS、INT8で1836TFLOPSのピーク性能を実現している。
最初のTPU v1を除くと、これらのv2からv6までのTPUはいずれも学習用に位置づけられており、主にBF16などの精度での演算を前提にしている。
それに対してGoogleが発表した開発コード名「Ironwood(アイアンウッド)」は、外部に向けてサービスするTPUとしては初めて、推論をメインターゲットにしたTPUとなる。
Ironwoodは、従来のTPUの内部エンジン「SparseCore」の改良版が搭載されおり、従来よりも広いレンジのワークロードを効率よく演算することが可能。メモリもTPU v6eの6倍となる192GBのHBMが採用されており、7.2Tbps/秒の帯域幅を実現している。チップ単体の性能としてはFP8演算時のピーク性能は4614TFLOPSを実現しているが、この性能は、TPU v4/v5pにおいてFP8で演算したと仮定した場合(TPU v5pとTPU v4はFP8での演算に対応していないため、実際にはBF16時などの性能)と比較すると、TPU v4比で約16.78倍、TPU v5p比で約10倍という性能になる。
このIronwoodは、1.2Tbpsの帯域幅を実現するInter-Chip Interconnect(ICI)というインターコネクトや液冷技術を利用して、256基ないしは9216基までスケールアップすることが可能で、9126基にスケールアップした場合にはスーパーコンピュータ全体で、最大43.5EFLOPSの性能が実現される。これはHPE/Crayが米国エネルギー庁に納入したEl Capitan(AMD EPYC+Instinct MI300X)が実現している1.7EFLOPSの24倍に達する。
またGoogleによれば、このIronwoodは高い電力効率を実現していることが大きな特徴で、TPU v2に比較して29.3倍の電力辺りの性能を実現。Trilliumと比較しても2倍の電力辺りの性能を実現している。
さらに、こうしたIronwoodのような推論用TPUを利用して推論ソフトウェアを構築するツールとして「Pathways」の提供開始、またGoogleのKubernetesであるGKEでAI推論を行う「GKE Interface Engine」の提供開始も明らかにした。