イベント
金を堀りに行くのではなく、金を掘りたい人につるはしを提供する会社になりたい――、日本オラクル・三澤社長
最大13万基のゼタスケールGPUクラスターなどで大規模のAIエージェント構築を支援
2024年11月22日 06:00
米Oracleの日本法人となる日本オラクル株式会社(以下両社合わせてOracle)は、11月20日午後に東京都内の会場で「Data & AI Forum Tokyo」と題した同社顧客を対象としたイベントを開催した。同イベントは、Oracleが提供するAIソリューションに関して説明するイベントで、同社の担当者や同社顧客などが登壇して説明が行われた。
Oracleは生成AIのサービスや、生成AIを実現するためのOCIのインフラなどに関して説明を行い、企業がいわゆるAIエージェントを構築していくためにさまざまな支援を行っていくと強調した。
Oracleは金を堀に行くのではなく、金を掘る人につるはしを提供する企業になっていくと日本オラクル 三澤社長
イベントの冒頭で日本オラクル株式会社 取締役 執行役社長の三澤智光氏は「Oracle全体としてはAIやOCI事業が非常に好調。日本オラクルもそれに追いついていきたいと考えて、このイベントに皆さんを招待させていただいた。OracleとしてはSaaS、AIサービス、データ、インフラストラクチャという4つの層をそれぞれ充実させることで、エンタープライズAIの実現を考えており、今回のイベントではその4つの階層それぞれで説明していきたい」と前置き。
そして、「例えば、インフラ層に関してOCI(Oracle Cloud Infrastructure)は最大かつ最高速のAIスーパーコンピュータを提供しており、CohereやOpenAI、XAIなど、生成AIモデルを開発している企業がOCIを活用して開発している。私は、Oracleは金を堀に行く会社ではなく、金を掘りたい人につるはしを提供するような会社になりたいと考えている」とあいさつ。
Oracleは顧客企業が必要としているAIアプリケーションを構築する上で必要なGPUなどのインフラやそれを利用するための開発環境などを提供していきたいと強調し、今回のイベントはそのために開催したのと説明した。
その上で、そのパートナーとして、OCIを利用してLLMを開発しているカナダのCohereを紹介した。Cohereは、OpenAIなどと同じようにLLMなどの生成AI向けのAIモデルを開発している企業で、2019年に創業してから急速に成長しているスタートアップ企業だ。同社のLLM開発はエンタープライズに特化していることもあり、多くの企業でAIエージェントを動かすモデルとして採用が進んでいる。CohereはOCIのインフラを利用してLLMの開発を行っている。
Cohere ヘッド・オブ・カスタマー・エクスペリエンス ニック・モラレス氏は「Cohereは世界トップクラスの言語AIにより、企業が優れた製品を構築し、真のビジネス価値を獲得できるように支援している。カナダで創業したが、現在はサンフランシスコなど各地にオフィスを設けており、グローバルに展開している。生成AIモデルと先進リトリーバルモデル(RAGを実現するモデル)の2種類を提供しており、顧客のニーズに応じて選択できる。それにより、顧客がより柔軟にアプリケーションを構築することが可能になる」と述べ、CohereがRAGなどに強みを持つ生成AIモデルを企業向けに提供していることなどを説明した。
その上でCohereとOracleの関係は「CohereではOCIが提供するインフラを利用して学習を行い、サービスの提供も行っている。また、OCI Generative AI ServiceにはCohereのAIモデルが採用されているほか、Oracle FusionやNetSuiteなどのSaaS製品で、CohereのAIモデルが利用されている」と述べ、Oracleの製品やサービスなどにもCohereのAIモデルが活用されているほか、CohereのLLMなどのモデル開発にOCIのインフラが利用されていると説明した。
OCI Generative AI AgentsなどによりAIエージェントを簡単に構築できる
日本オラクル株式会社 クラウド事業統括 エグゼクティブ アーキテクト 廣瀬一海氏は、Oracleのソリューションを利用した生成AIの活用に関して説明した。廣瀬氏は「生成AIは革新的な技術であり、社内のエンタープライズデータにアクセスして生産性を上げていく。このため、ChatGPTのようにインターネット上のデータにアクセスしてというものではなく、社内のデータを活用したらどうなるのかという視点が重要だ」と述べ、同社が作成した具体的な生成AIアプリケーションが使われている事例ビデオなどを紹介しながら説明した。
そうした生成AIのユースケースとしては、カスタマーオペレーション、マーケティング、セールス、製品開発、戦略と財務などがあると説明し、特に廣瀬氏に相談されるものとしては、カスタマーオペレーションが多いとした。その上で、生成AIをあらゆる業界向けに分類すると、生成、抽出、変換、原因の特定と対処という4つの種類に分類できるとし、生成、抽出、変換に関しては今すぐ始め、原因の特定と対処に関しては将来に備えて準備していくべきだと説明した。
例えば「サポートデスクの最適化」では、Oracle自身のITサポートの事例を紹介。作成したAIチャットボットが解決の方法を案内し自己解決を促すことで、発行されるチケット(従業員がサポートデスクなどにサポートを求めた時に発行される、電子的な券)を減らせたことなどが紹介された。
ほかにも、「ドキュメントの要約」では、これまでの要約ではできなかったより高度な要約、「顧客コミュニケーションの改善」では、電子メールの言い回しの調整、「サプライチェーンの根元原因分析」では、例えばサプライチェーンに問題が発生する時にAIがリアルタイムにモニタリングして、対処を人間に促すなどの事例が紹介された。
その上で、Oracleの生成AIソリューションに関して紹介し、CohereやMeta Llamaなど、複数のモデルから選択できるOCI Generative AI Servicesを使って、AIエージェントの構築ができるようになることを紹介したほか、OCI Generative AI Agentsが、自社データを利用したRAG環境を使えるAIエージェントの構築に役立つことなどが紹介された。なおOCI Generative AI Agentsは、先日から一般提供が開始されたという。
また、そうしたOracleの生成AIソリューションを利用したAIエージェントの構築事例として、サイバーエージェントのAI子会社、AI Shift社の事例が紹介され、Oracleの生成AIソリューションを利用してサイバーエージェントの営業担当の従業員一人一人にアシスタントAIを提供し、人と会うという営業担当の本業以外の業務をできるだけAIが行うようにして、業務効率を改善していることなどが紹介された。
他社に比べて巨大なGPUクラスターの提供、性能や価格競争力が差別化ポイント
日本オラクル株式会社 クラウド事業統括 クラウド・エンジニアリングCOE統括 本部長 宮原雅彦氏は、同社が提供するOCIのインフラに関して説明した。
宮原氏は「生成AIは急速に成長している。数年前までは数億の学習パラメーターだったのが、今や数千億が当たり前になっており、場合によっては数兆パラメーターに達している。NVIDIAのDGX-A100(筆者注:NVIDIA A100×8)の単一ノードで1750億パラメーターのGPT-3モデルを演算した場合、学習に14.8年かかるが、140ノードのクラスターであれば1カ月で終わる計算になる」と述べ、AIモデル学習にかかる演算性能への要求は年々高まるばかりで、OCIとしてもそうしたニーズにこたえるようなインフラの構築を行っていると説明した。
宮原氏は「選択にはいろいろなポイントがある。処理能力はもちろんだが、同時に経済性、そしてオンプレなのか、ハイブリッドなのか、パブリッククラウドなのかも論点だろう。OCIのインフラに関しては、他社のクラウドと比較して1/2の価格という経済性の高さ、性能の高さ、拡張性、NVIDIAとのパートナーシップによる最新のGPU導入、そしてソブリン要件に対応すべく、政府や企業のデータセンターにOCIの機器を置くソリューションなどを提供していること特徴だ」と述べ、NVIDIAとのパートナーシップにより最新のGPUを導入していること、かつそれが巨大な規模であること、高速なネットワークを導入していることなどを強調した。
GPU数も、ネットワークも、ストレージも強力な環境を用意して顧客をサポートするとOCI シャガラジャン氏
本イベントに先駆けて来日した、Oracle OCI担当上席副社長 マヘシュ・シャガラジャン氏は、OCIが提供するAI向けインフラの特徴として、巨大な規模のGPUクラスター、RoCEv2規格のRDMA対応ネットワーク、さらには高速なストレージを備えていることが大きな特徴だと説明した。
シャガラジャン氏は「われわれは最新のNVIDIA GPUを採用したスーパークラスターの技術を、9月に行われたOracle Cloud Worldで発表した。この技術を利用すると、最大で13万1072基のGPUまで、つまりゼタスケールまでスケールアウトできるようになる。かつ、そのバックエンドでは、最大で104Pb/秒の速度を実現できる、RoCEv2に対応したRDMAネットワークが用意されており、GPUの性能を損なうことなくスケールアウトできるように設計している。またストレージに関しても、PBスケールのストレージソリューションを用意しており、Lustreストレージサービスへのアーリーアクセスプログラムを開始している。Lustreサービスは2025年2月にも一般提供を開始する計画だ」と述べ、現状、これだけのスペックのGPUスーパークラスターはどのクラウドサービスプロバイダーも用意していないと強調し、OCIが性能で優位にあるとアピールした。
宮原氏が述べたように、現在の生成AIは、GPUサーバー(通常はGPU×8)が1ノードあった程度では、演算に年単位の時間がかかってしまい、研究や競争といった簡単で他社に負けてしまうことになる。そのため、複数のGPUサーバーをイーサネットやInfiniBandなどにより接続しクラスター化することで、同時に並列して演算できるGPUの数を増やして、演算性能を上げるという手法が一般的だ。
このクラスター化されたGPUの最大数が13万1072基になるというのが、先日行われたOracle Cloud Worldで発表されたもので、ほかのCSPが最大でも万単位のクラスターを提供している現状を考えると、OCIの13万1072基というスペックは文字通り「けた違い」となっている。
なお、シャガラジャン氏によれば、これらのGPUはベアメタルとして提供されている(インスタンスによってはマネージドサービス)ので、利用側にとってはオンプレにあるDGXなどのGPUサーバーと、上側のソフトウエアは同じものをほぼそのまま使い回せる。
OCIの約13万基のGPUクラスターのように巨大なクラスターを構成すると、ノードとノードを接続するネットワーク、さらにはそのクラスターと外部を接続するネットワークの速度が性能に影響を与える。というのも、そうした複数のGPUを利用するには、ノード間で高速にデータのやりとりができず、ほかのGPUはデータが送られてくるまで待つことになるので、全体の性能が低下するからだ。OCIではRDMAに対応したネットワークを導入しており、約13万基のGPUクラスターの場合は、最大104Pb/秒のネットワーク帯域が確保され、約13万基までスケールしても性能が低下しないように設計されている。
それと同時に、ストレージの性能も重要な要素となる。ストレージから高速にデータを読み込めないと、やはりGPUは処理を開始するまで待つことになるので、処理能力は上がらなくなる。そこで、OCIではHPMT(High Performance Mount Target)と呼ばれる高速なストレージが用意されているほか、クラウド環境で一般的に使われるLustre(ラスター)サービスに関しても現在アーリーアクセスによるテストが行われているほか、25年2月に一般提供開始が行われる予定だという。
宮原氏によれば、今後中規模向けにVMベースのNVIDIA A100/H100が1つから構成されているGPU.A100.1/ GPU.H100.1が、近日中に提供開始されるほか、H200が8基のGPU.H200.8、B200が8基のGPU.B200.8、GPU.GB200.4というGB200 NVL72(36 Grace CPU+72 Blackwell GPU)のベアメタルが現在受注されていることなどを紹介し、今後もGPUのソリューションを拡張していくと説明した。