ニュース

富士通、対話型生成AIの“幻覚”やAIへの攻撃を検出できるAIトラスト技術を開発

 富士通株式会社は26日、対話型生成AIから出力される回答の信頼性を向上する、2つのAIトラスト技術「幻覚検出技術」と「フィッシングURL検出技術」を開発したと発表した。

 富士通では、ChatGPTのように、大量のテキスト情報を学習し幅広いトピックで自然なやりとりができる対話型生成AIが注目を集め、多くの企業が業務適用に向けて検討を進める中、高い対話品質やセキュリティ面での信頼性の確保が課題になっていると説明。これに対して、富士通が長年培ってきたAIの信頼性を担保する研究の取り組みを対話型生成AIに生かし、特に業務への適用が可能な信頼できる対話型生成AIを実現する、AIトラスト技術の研究開発を行っており、今回、この信頼できる対話型生成AIを実現する技術の第一弾として、2つのAIトラスト技術を開発した。

信頼できる対話型生成AIの全体イメージ

 開発した技術のうち幻覚検出技術は、対話型生成AIがデータに基づかないもっともらしい誤りを回答してしまう幻覚(ハルシネーション)を検出するもの。対話型生成AIの回答文をAIが意味解析し、かつ幻覚が生じやすい固有表現部分を特定して重点的に確認することで、既存手法よりも幻覚を高精度に検出する。

 具体的には、回答文を主語、述語、目的語などに分解し、その中の固有表現部分を特定し、かつそこを空欄にして尋ねる穴埋め質問を自動で作成して、外部の対話型生成AIへ複数回質問することで、固有表現部分の回答のばらつきをより正確に捉え高精度な幻覚スコアの算出を実現した。

 同技術について、WikiBio GPT-3 Hallucination Datasetなどのオープンデータを用いてベンチマークを行い、SelfCheckGPTなどの他のAIの幻覚を検出する最新手法に対し、検出の正確さの指標(AUC- ROC)を約22%向上できることを確認したという。

幻覚検出技術の動作イメージ

 フィッシングURL検出技術は、対話型生成AIが悪意ある情報を覚え込ませる攻撃を受けて、フィッシングサイトのURLを回答出力してしまう問題に対応できるもの。対話型生成AIにこの技術を搭載することで、AIを騙す既存の敵対的攻撃を含むフィッシングサイトを高度に検出し、利用者に危険なURLであることを伝える。

 フィッシングURLを特定するだけでなく、近年問題視されているAIの判断を故意に誤らせる既存の敵対的攻撃にも対応させることで、信頼性の高い判定を実現した。この攻撃対策技術には、富士通がBen-Gurion University of the Negev(ベングリオン大学)に設置した「富士通スモールリサーチラボ」で共同開発した技術を活用しており、AIへの攻撃がそれぞれ個別のAIモデルに向けて特化しやすい傾向を利用し、複数の異なる種類のAIモデルで処理することで生じる判定根拠の違いから、攻撃データを見分けている。また、この技術は、対話型生成AIに限らず、帳票データを扱うAIに対する全般的な攻撃への対策にも活用が期待できるとしている。

フィッシングURL検出技術の概要

 富士通では、今回開発した技術を「Fujitsu Kozuchi(code name)- Fujitsu AI Platform」の対話型生成AIコアエンジンに搭載する。幻覚検出技術は9月28日、フィッシングURL検出技術は10月から日本国内で提供開始し、順次グローバルにも展開予定。また、個人の利用者も、富士通の先進技術のAPIやWebアプリケーションを試せる環境「Fujitsu Research Portal」上でアカウントを作成することで、トライアル利用が可能になる。