トピック

生成AIから価値を引き出すための“攻略法”とは? 鍵となるプライベートデータの活用法を知ろう

株式会社インプレス クラウドWatch編集部は、社会現象といっても過言ではないほど注目を集めている“生成AI”の、企業における活用を支援するイベント「クラウドWatch Day|“最適な生成AI環境” 構築支援 企業が安心して使える、ベストな生成AI環境を構築しよう!」を、2月21日に開催した。

関心の高さを背景に、多くのベンダーが「ChatGPT」に代表されるLLM(大規模言語モデル)を利用した新しい機能・製品の提供を計画するなど、それを実現するソリューションにも注目が集まっている一方、ChatGPTなどの利用においては、不適切な回答の生成や、社内情報の流出、学習データや生成物の著作権など、企業や組織が対顧客サービスに利用する際のリスクも指摘されている。

同セミナーでは、こうした懸念点を踏まえたうえで、企業で有効に利用可能な生成AI環境をいかにして構築すべきかや、それを実現するサービスなどをあわせて紹介した。

本稿ではそうした当日の講演の中から、ネットアップ合同会社 チーフ テクノロジー エヴァンジェリスト 神原豊彦氏によるセッション「データが鍵を握る 生成AI活用の秘訣」の内容について紹介する。

 企業内に蓄積されたデータから価値ある情報を取得するためには、従来はソフトウェア技術を活用し、あらかじめ目的に応じた構造化データを作成する必要があった。これに対してAI技術では、保存されたままのテキストや画像、音声、動画などの非構造化データから、価値のある情報を取り出すことが可能になる。

 現在、AI技術を巡ってはさまざまな見方があるが、神原氏は、「AIは人類を次のステップへと推し上げる偉大な技術であり、データと合わせて活用することでより大きな価値を得ることができると考えている」と語る。

 そして、AI技術の活用には、「AIモデル自体の開発」と「既存AIモデルの利用」の2つの側面があると指摘する。

 「AIモデル自体の開発」では、収集したデータからモデルを推論し、GPUコンピューティングを活用して主にオンプレミスで計算処理を実施する。自社で独自のAIモデルを開発するアプローチだ。一方、「既存AIモデルの利用」では、既存のデータでファインチューニングを行い、公開されている開発済みの生成AIモデルを活用し、主にクラウドサービス環境で計算処理を実施する。

 今回、神原氏は「既存AIモデルの利用」の側面にフォーカスを当て、「既存の生成AIを活用し、その可能性を広げていくためには、社内のプライベートデータを使用して自社に最適なAIモデルを開発、改善していくことがポイントになる。しかし、プライベートデータがそのまま生成AIに学習されると、機密情報などが外部に漏えいしてしまうリスクがある。そのため、プライベートデータをファインチューニングする環境をいかにセキュアに実現するかが重要になる」と、生成AI活用における課題を挙げた。

 そして、この課題を解決する方法として、「プライベートデータ環境の確保」と「RAGアーキテクチャの実現」を紹介した。

 まず、「プライベートデータ環境の確保」では、クラウド上のパーティション化された領域にプライベートデータを保管し、自社だけに向けた「学習」を実行できる環境を確保する。これによって、情報漏えいの懸念なく、生成AIでプライベートデータを利用できるようになる。

 次に、「RAGアーキテクチャの実現」では、大規模言語モデル(LLM)の持つ情報以外に外部の情報ソースを引用・参照して回答を生成する方法として、RAG(Retrieval-Augmented Generation:外部知識検索)アーキテクチャを活用。プライベートデータをそのまま学習させるのではなく、埋込モデルとして取り込み、LLMが理解する形式に分解してベクトルDBに保管する。利用者からの問い合わせがあると、ベクトルDBがプライベートデータを含めたクエリをLLMに転送し、その回答結果を利用者に返答するという仕組みだ。これにより、LLMにプライベートデータを学習させることなく、生成AIを活用することが可能になる。

 ネットアップでは、生成AIにおけるプライベートデータの活用を支援するべく、パブリッククラウドサービスとの連携を推進しており、昨年11月にはGoogle Cloudで生成AIを使うためのAIプラットフォーム「Google Cloud NetApp Volumes with Vertex AI」を発表している。「Vertex AI」では、LLMの外側にグラウンディングや引用チェック、モデルカスタマイズなどの拡張機能が埋め込まれており、クラウドストレージ「Google Cloud NetApp Volumes」と接続することでプライベートデータを容易に活用できるようになるという。

 また、Amazon Web Services(AWS)とも同様の取り組みを進めており、クラウドストレージ「Amazon FSx for NetApp ONTAP」と、AI開発プラットフォーム「Amazon SageMaker」および「Amazon Bedrock」を連携することで、生成AIでのプライベートデータの活用を実現している。

 神原氏は、「生成AIにプライベートデータを適用させることで、企業や組織の持つデータの真の力を解き放つことができる。そのアイデアは無限大といえる」と強調する。例えば、社内の顧客情報やナレッジベース、資料集と接続することで、顧客サポートの向上を図ることが可能だ。また、商品情報の詳細カタログと接続すれば、新製品リリース時のマテリアル生成を自動化できる。地方自治体では、行政手続きや広報、プロモーション資料と接続することで、住民サービスの向上につなげることができる。

 ここで、生成AIの活用におけるもう一つの課題として神原氏が挙げたのは、「実験・研究開発段階から商用段階への移行にともなうチャレンジ」だ。「実験段階ではうまくいったが、商用段階に移行した後、継続的な改善・開発環境をどうやって実現すればよいのかわからない、という壁に直面する企業は多い。生成AIはリリースして終わりではなく、継続して改修し、より価値のあるものにしていくことが求められる。そのためには、データを中心に据えた統合開発環境を整備する必要がある」という。

 この課題に対してネットアップでは、NVIDIAとの協業体制により、「データの流れ」に着目した唯一のAIプラットフォームリファレンスアーキテクチャ「NetApp Data Pipeline」を展開している。「NetApp Data Pipeline」では、ハードウェアに加えて、さまざまなソフトウェアツールセットを提供することで、生成AIの統合開発において、データの自由な移動をシンプルかつセキュアに行うことが可能となる。例えば、データ送出能力は他社と比較して5倍、膨大なデータセットのコピーに要する時間は60秒未満、Ansibleと連携したAIインフラの展開時間は約20分を実現している。また、これまでにAI分野で8つのインダストリーアワードを獲得するなど、市場からも高い評価を得ている。

 そして、最終的に生成AI活用の成否を分ける鍵は「効率的なデータ運用」にあると神原氏。同社は、このデータ運用の効率化を支えるプラットフォームとして「NetApp Intelligent Data Platform」を提唱している。

 「生成AI活用のサイクルは、『データ処理サイクル』『AIトレーニングサイクル』『アプリ開発サイクル』の大きく3つに分けられる。『データ処理サイクル』では、データエンジニアが、さまざまなデータソースから取り込まれるデータを加工し、データセットを作成する。『AIトレーニングサイクル』では、AIエンジニアが、必要なモデルに合わせて適切なトレーニング環境を用意し、コンテナやGPUのリソースを割り当ててトレーニングを繰り返す。『アプリ開発サイクル』では、アプリエンジニアが、ユーザーにとって使いやすいAIアプリを開発し、本番環境にリリースしていく。それぞれのサイクルは独立しているように見えるが、データ自体はすべてのサイクルを通じて流れている。『NetApp Intelligent Data Platform』では、このデータパイプラインを止めることなく、スムーズに流れる仕組みを提供し、データ運用の効率化を支援する」と説明した。

 神原氏は、「当社では、今後も「NetApp Intelligent Data Platform」の実現に向けて、さまざまなソリューションを展開し、生成AIの活用促進に注力していく」との考えを示した。