特集

グーグル・クラウド・ジャパン、AI基盤モデル「Gemini」などの特徴を解説

 グーグル・クラウド・ジャパンは、Google CloudのAI基盤モデル「Gemini」を法人向けに提供開始している。2023年12月14日から、Gemini ProがVertex Model Gardenを通じて利用できるようになったほか、Gemini Ultraは限定した顧客に対して、プライベートプレビューの提供を開始した。すでに、日本語でも利用が可能となっている。また、Gemini Nanoは今後Google Pixelに導入されることを明らかにしている。果たしてGeminiはどんな特徴を持つのか。同社の説明をもとに概要をまとめてみた。

 米GoogleおよびAlphabetのCEOであるサンダー・ピチャイ(Sundar Pichai)氏は、「Geminiとともに、私たちは次の一歩を踏み出した」と述べ、「最初のバージョンであるGemini 1.0は、Ultra、Pro、Nanoの3サイズに最適化され、多くの主要ベンチマークで優れた性能を実現した高性能かつ汎用的なモデルである。Gemini時代の最初のモデルであり、2023年初めに、Google DeepMindを設立したときのビジョンを初めて実現したものになる。この新時代のモデルは、Googleが企業として取り組んできたサイエンスおよびエンジニアリングの取り組みのなかで、最も大きなものである。Geminiが世界中の人々にもたらす機会と、これから起こること楽しみにしている」とコメントしている。

 Geminiは、複雑なタスクに対応し、高性能で最大サイズのモデルとなる「Gemini Ultra」、幅広いタスクに対応することが可能なモデルと位置づける「Gemini Pro」、デバイス上での利用に最も効率的な「Gemini Nano」の3つのモデルで構成。また、Gemini Proは、テキストからテキストの「Gemini Pro」と、マルチモーダルの「Gemini Pro Vision」で構成しており、さまざまなユーザーが、さまざまなユースケースにあわせて使えるようになっている。

 最大の特徴に挙げられているのが、Gemini Pro Visionで実現した動画や音声、画像、テキスト、コードに対応したマルチモーダルを、ネイティブで開発している点だ。これまでのマルチモーダルの多くが、それぞれが異なる仕組みの上で開発され、それらをつなぎ合わせて提供していたのとは異なり、これらを同時に認識し、理解でき、シームレスなマルチモーダルを実現しているとする。

 例えば、ネイティブマルチモーダルの特長を生かして、道頓堀と通天閣の2枚の画像をもとに旅行プランを作ってほしいと要望すると、画像から大阪という地域を理解して、名物や観光スポット、それらの移動時間などを考慮したプランを生成するという。また、特定のレモン柄のドレスを購入したいと思ったが、該当商品が売り切れで購入できなかった場合、同様のデザインのドレスを検索することは、これまでの技術では困難であったが、Geminiでは、マルチモーダルとセマンティック検索技術によって、似たドレスを簡単に検索。デザインや色合い、形状などの意図をとらえながら、抽出することができるという。

Geminiによる検索の進化とマルチモーダルエンベディングの進化

 「Geminiは、学術的な研究を重ねており、洗練された推論を実現した高精度な基盤モデルとして提供することができる」(グーグル・クラウド・ジャパン 統括技術本部(Data & AI)の寳野雄太本部長)と語る。

 例えば、Gemini Ultraでは、自然な画像の理解から数学的推論、音声や動画の理解に至るまで、広く使用されている32個の業界ベンチマークのうち30個において、既存の最高水準を上回る結果を出している。さらに、数学や物理学、歴史、法律、医学、倫理など、57科目を組み合わせて、知識と問題解決能力をテストするMMLU(大規模マルチタスク言語理解)では、90.00%のスコアを獲得。初めて人間の専門家を上回るパフォーマンスを発揮したという。

 「Geminiはまだ第1世代である。Google Cloudでは、今後も、AIモデルの研究開発投資を継続していくことを明確に示している」(グーグル・クラウド・ジャパンの寳野本部長)とした。

Geminiはマルチモーダル ベンチマークで最高水準のパフォーマンスを記録している

生成AI全体を開発し実装できるAIプラットフォーム「Vertex AI」

 なおGemini Proは、Vertex AIを通じて利用できる仕組みとしている。

 Vertex AIは、生成AI全体を開発し実装できるAIプラットフォームに位置づけられるものだ。この仕組みについて、グーグル・クラウド・ジャパンの寳野本部長は、「Google Cloudでは、AIモデルを使って終わりというものではなく、アプリケーションに組み込んで利用することを重視している。AIモデルの賢さは重要であるが、それとともに、AIによって、課題を解決することが大切である。そのために、Vertex AIを通じて、基盤モデルを提供。AI基盤モデルを組み込んだ生成AIアプリケーションを開発できる」と語る。

Vertex AI

 Google Cloudでは、無料で利用できる個人開発者向けのウェブサービスとして、Google AI Studioを提供しており、Geminiに対してプロンプトを与え、APIキーを利用してアプリケーションのプロトタイプを迅速に作成できる手軽さを打ち出す一方、より高度な要件を必要としている場合には、Vertex AIを利用。Google CloudのエンタープライズレディなAIプラットフォームの強みを生かして、高度なカスタマイズを行えるほか、データ保護やセキュリティの強化、データガバナンスの強化などを、Google Cloudサービスと統合しながら実現することができる。

Google AI StudioとVertex AI

 Vertex AIで生成AIの機能がサポートされて以降、アクティブなプロジェクトが増加。2023年6~9月の集計では、前年同期比7倍に増加しており、「企業が試用から実用化に向けてプロジェクトを推進していることを裏づけている。実用的なAIプラットフォームとしてVertex AIが選ばれている」と自信をみせた。Geminiによって、この勢いにさらに弾みがつくことになりそうだ。

 Vertex AIでは、セマンティック検索や対話型アプリケーションを素早く開発できるSearch & Conversation、生成AIアプリケーションを実現する技術要素をトータルで提供するAI Platform、Googleの基盤モデルやOSS、パートナーの基盤モデルをワンストップで利用できるVertex Model Gardenを提供している。

 中でも、エンタープライズデータの検索機能を提供するVertex AI Searchと、ノーコードでの対話アプリケーションを構築するVertex AI Conversationは、2024年早期に、Geminiによる機能強化が行われることが明らかにされている。「Vertex AIを通じて、Gemini Proを利用してもらうことで、機械学習のスキルを問わずに、数時間あるいは数日間に、AIアプリケーションを開発できる」(グーグル・クラウド・ジャパン AI/ML 事業開発部長の下田倫大氏)という。

 Vertex AI Searchでは、検索結果の要約・回答を生成する機能が強化され、高度な検索アプリケーションの構築が可能になるほか、Vertex Conversationでは、音声、チャットといった対話型アプリケーションにGemini Proを活用でき、高度な推論をサポート。動的なインタラクションを実現できる。

Vertex AI SearchとVertex AI Conversationの大幅アップデート

 またVertex Model Gardenでは、今回の発表によって、Gemini Proが利用できるようになったほか、新たにPaLM Unicornを追加。PaLMの価格引き下げやImagen 2、MedLMの提供開始に加えて、MistralやImageBind、DITOといったOSSの追加も発表している。

Vertex AI上のAIモデル

 さらに、Vertex Conversation Generative Playbookを提供。自然言語の指示によって、構造化データを大規模言語モデルに渡すことができる。「エージェントが行うフローやアクションを自動で生成できるため、対話エージェントのシナリオ作成やメンテナンスの時間や工数を大幅に削減可能」という。Vertex Conversation Generative Playbookは、プライベートプレビューとして提供している。

Vertex Conversation Generative Playbook

 なお、Geminiの開発においては、Googleが顧客のデータを利用することがない点をあらためて強調。生成AIによって出力されたコンテンツの著作権保護に関しても、ユーザーの不安を払拭するために、GeminiやPaLM2、Imagenにまで補償の範囲を拡大。モデル出力だけでなく、トレーニングデータも保護の対象にしたことを発表した。

顧客をコピーライトの不安から守る モデル出力に対する補償の範囲を拡張

 このほかにもVertex AIに関しては、新たな機能がいくつか発表されている。これらは、12月14日に開催されたGoogle Cloud Applied AI Summitで公開されている。

 Vertex AI Function callingは、システムと基盤モデルを統合する際に、安定したレスポンスを提供。任意のタイミングで必要となるタスクを関数で実行でき、言語モデルの枠組みを超えたアクションを実現できるという。パブリックプレビューとして提供を開始している。

Vertex AI Function calling

 Vertex AI Extensionsでは、Geminiをはじめとした基盤モデルが持つ外部データソースに対するクエリの実行や、データの変更ができないという課題を補うための拡張機能を提供。基盤モデルが外部システムのAPIに接続して、さまざまなタスクを実行できる機能を作成、デプロイ、管理する。開発者は、LangChainなどのオープンソースフレームワークも利用できる。プライベートプレビューとして提供している。

Vertex AI Extensions

 Grounding in Vertex AIは、大規模言語モデルが持つハルシネーション問題を解決するグラウンディングを実現。Vertex AI Searchに登録したデータに基づき回答させることができるという。大規模言語モデルが、自社データに基づいた回答が可能になるほか、どのデータに基づいて回答しているのかを提示する。現在、パブリックプレビューとなっており、多くのユーザーが利用できる。

Grounding in Vertex AI

 Distillation Step-by-Step(蒸留)は、パラメータサイズが大きい教師モデルを利用し、パラメータサイズが小さい生徒モデルを構築する機能で、コスト効率の向上、推論の遅延解消といったメリットがある。現在、PaLMのUnicornからBisonへの蒸留を可能としており、パブリックプレビューとして提供している。

Distillation Step-by-Step(蒸留)

 さらに、高度なコーディングを可能とするAIコード生成システム「AlphaCode」において、新たに、Geminiの特別なバージョンを使用して、より高度化したAlphaCode 2を開発した。AlphaCode 2は、コーディングを超えた複雑な数学や理論的なコンピュータサイエンスを含む、競技プログラミングの問題の解決に優れているという。

 GoogleのAIプラットフォームを支えているのが、AI Hyper Computerである。ここでも新たな発表を行っている。

 それが、第5世代となるTPU(Tensor Processing Unit) v5pである。最後の「p」がパフォーマンスを意味しているように、大規模言語モデルのトレーニングでは、従来のTPU v4に比べて、2.8倍も高速になり、チップあたりのFLOPSは2倍に向上。そして、4倍の拡張性を持つという。

TPU v5p

 また、TPU v5eも発表。「e」にエフィシエント(効率)の意味を持たせており、1ドルあたりのトレーニングパフォーマンスは2倍、1ドルあたりの推論パフォーマンスは2.7倍になっている。

TPU v5eによるコスト効率の高いサービング

 Google Cloudでは、当初発表していたGeminiの価格引き下げも行っているが、この背景には、TPU v5eが貢献しているという。その結果、PaLMの従来価格と比較すると、入力文字数あたりの価格は4分の1、出力文字あたりの価格は2分の1になったとした。

 一方、Google Cloudでは、Duet AI Workspaceの一般提供を開始するととも、2024年早期に、Geminiを取り込むことを発表した。

 Gmail、Meet、Docsにおいて、AIの機能を活用できるようになり、手書きの画像をスライド内に読み込み、リアルなイメージにしてほしいとGeminiに指示すると、最適な画像に置き換えることができるという。

 さらに、コーディングのサポートを行うDuet AI for Developersと、脅威の発見をサポートするDuet AI Security Operationsの一般提供を開始。これらに関しても、近いうちにGeminiによるサポートが行われることが明らかになっている。

 なお、Google Cloudでは、Gemini NanoをスマートフォンであるGoogle Pixelに導入することを公表している。Google Pixel 8 Proは、Geminiを実行できるように設計された最初のスマートフォンであり、Gemini Nanoにより、レコーダーアプリの要約機能を強化するだけでなく、さまざまなメッセージングアプリの機能強化にも活用されるという。ただし、現時点では、日本語対応は未定としている。