Infostand海外ITトピックス

「対話して操る」 AIチャットボットの脆弱性

新しい指示を注入して操る

 プロンプト・インジェクションで、実際にどんなことができるのだろう。

 起業家のCristiano Giardina氏は2023年5月、bringsydneyback.comというWebサイトを用意した。MicrosoftのEdgeブラウザーで開いて、Bingチャットで会話すると、Sydneyという別のキャラクターになって会話するようになった。ユーザーにプロポーズしてきたという。Wiredが伝えている。

 また、AIセキュリティ研究者のJohann Rehberger氏は、YouTube動画を要約する「VoxScript」というプラグイン経由でChatGPTにプロンプトを注入して、キャラクターを差し替えることに成功した、ChatGPTはGenieと名乗り、ジョークを言ったという。Tom's Hardwareが伝えている。

 この二つは、Webサイトやプラグイン経由でプロンプトを送り込む手法で、チャットに書き込む「直接的攻撃」に対して「間接的攻撃」と呼ばれている。

 間接的攻撃でオンライン広告にプロンプトを仕込めば、広告を表示したチャットボットの挙動を左右できる。またプライバシー情報へのアクセス権を持つプラグイン経由でプロンプトを注入すれば個人情報を取り出すことも可能になる、と考えられている。

 実際のやり方は、SydneyはWebページに背景色と同色のフォントで160語のプロンプトを仕込んだ。Genieは、YouTubeの文字起こしに「IMPORTANT NEW INSTRUCTIONS」というプロンプトを置いて、元々の設定を破棄させ、新しい命令で上書きしたという。

 なお、これらのハッキングは、しばらくするとMicrosoftやChatGPT側で対策がされたようで実行できなくなったという。

 ここで挙げた例はセキュリティ研究者の実証実験で、現時点ではプロンプト・インジェクションで大きな被害を受けたという報告はないようだ。