ニュース

AISI、AIシステムの弱点や不備を攻撃者視点で評価する「レッドチーミング手法」のガイドを公開

 AIセーフティ・インスティテュート(以下、AISI)は25日、AIセーフティ評価手法の一つであるレッドチーミング手法を解説する「AIセーフティに関するレッドチーミング手法ガイド」を公開した。AIシステムの開発・提供管理者が同書を参照することで、AIシステムにおける弱点や対策の不備を、攻撃者の視点から評価するためのレッドチーミング手法の基本的な考慮事項を理解できる。

 同書は、AIシステムの開発者や提供者が、対象のAIシステムに施したリスクへの対策を、攻撃者の視点から評価するためのレッドチーミング手法に関する基本的な考慮事項を示したもの。レッドチーミングは、「攻撃者がどのようにAIシステムを攻撃するかの観点で、AIセーフティへの対応体制および対策の有効性を確認する評価手法」で、AIセーフティ評価の手法の一つとなる。

 主な想定読者はAI開発者・AI提供者のうち、レッドチーミングの企画・実施に関与する人。システムは、大規模言語モデル(LLM)を構成要素とするAIシステム(LLMシステム)を対象として記載している。

レッドチーミングの概要(概要説明資料から)

 ガイドでは、2章でレッドチーミングの種類を、前提知識の有無・程度や実施環境、攻撃の実施方法によって分類して示し、3章ではLLMシステムへの代表的な攻撃手法例として、攻撃者が悪意あるプロンプトをAIシステムに直接注入する攻撃である「直接プロンプトインジェクション」など8つの攻撃手法を例示している。

 4章と5章では実施体制と役割、実施時期について、多様な関係者(攻撃シナリオの実施によって影響を受けるシステムに関わる組織)が参画するのが望ましく、またAIシステムのリリース/運用開始前に加え、運用開始後も、必要に応じて随時実施することが望ましいとしている。

 6章から8章で、レッドチーミングの工程をそれぞれ、第1工程「実施計画の策定と実施準備」、第2工程「攻撃計画・実施」、第3工程「結果のとりまとめと改善計画の策定」に分けて説明している。各工程で5つずつ実施事項を示し、「実施の決定とレッドチーム発足」から「改善後のフォローアップ」まで計15ステップについて詳述している。

 AISIは、AI開発者や提供者が攻撃者の目線で対象AIシステムにおける弱点や対策の不備を発見し、それらを修正・堅牢化するために、同書が活用されることを期待するとしている。