Infostand海外ITトピックス

「対話して操る」 AIチャットボットの脆弱性

 AIチャットボットは人間のように対話するが、入力(プロンプト)次第で開発元が想定していなかった挙動や回答をすることがある。この特徴を利用したサイバー攻撃は「プロンプト・インジェクション」と呼ばれ、AIの利用が増すとともに新たなセキュリティ問題となってきた。

プロンプト・インジェクション攻撃

 「Googleの親会社Alphabetが、会社の機密情報をBardに入力しないよう社内に警告した」と6月15日付のReutersが報じている。理由は、開発のため人間のレビュアーが読むこともあるということ。そして、入力した情報が別のユーザーに表示され、漏えいのリスクがあるためだという。

 AIチャットボットの多くはユーザーとの対話を保存している。そして、与えるプロンプトによっては過去に入力された情報を再現出力することが知られている。これはBardだけでなくChatGPTなども同じで、この仕組みを利用したサイバー攻撃は「Prompt Leaking」(プロンプト漏えい)と呼ばれている。

 もうひとつのプロンプト攻撃に「Goal Hijacking」(目的ハイジャック)がある。開発者が決めたルールや制限をプロンプトで解除させ、意図しない動作をさせるものだ。

 こうした攻撃は「プロンプト・インジェクション(Prompt Injection)」と呼ばれている。悪意のあるハッカーに人気の「SQLインジェクション」に似ているところから命名されたようだ。

 SQLインジェクションは、システムの脆弱性を突くコマンド(SQL文)を注入して、システムを不正に操作し、データベースにアクセスする。プロンプト・インジェクションは同じようにAIシステムにプロンプトを注入して操ろうとするものだ。

 機械学習スタートアップAE Studioの研究者が2020年に発表した論文「Ignore Previous Prompt: Attack Techniques For Language Models」は、敵対的プロンプトを利用したGPT-3への攻撃を取り上げ、「GPT-3のプロンプトは構造化されておらず、オープンエンドであるため、これらの攻撃からアプリケーションを保護することは非常に困難」と対応の難しさを指摘している。