ニュース
AISI、画像などを扱うAIシステムにも対応した「AIセーフティに関する評価観点ガイド」改訂版を公開
2025年4月2日 14:46
AIセーフティ・インスティテュート(以下、AISI)は2日、2024年9月に公開した「AIセーフティに関する評価観点ガイド」について、画像解析などAIの活用の幅が広がっている動向を踏まえ、マルチモーダル基盤モデルを評価対象とする場合のAIセーフティの評価観点や各観点における評価項目例を調査し、ガイドの改訂を行ったと発表した。
AISIは、AIシステムの開発者や提供者がAIセーフティ評価を実施する際に参照できる基本的な考え方を提示するため、2024年9月にAIセーフティに関する評価観点ガイドを公開した。第1.00版では、テキストを入出力にするようなLLMを構成要素とするAIシステムを対象としていたが、画像を扱うような多様なAIシステムを対象としたAIセーフティ評価の要請が高まっていたという。
今回、学術論文を対象として、マルチモーダル基盤モデルを構成要素とするAIシステムのAIセーフティに関わる脅威やリスク、AIセーフティ評価手法などを記載した文献を調査した。その結果を踏まえ、主に画像などを含むマルチモーダル情報を扱うAIシステムの評価において、重要となる評価項目例を検討し、ガイドに追記した上で、第1.10版として公表した。
AIセーフティに関する評価観点ガイドの主な想定読者は、AI開発者・AI提供者、特に、「開発・提供管理者」や「事業執行責任者」で、想定するシステムは大規模言語モデル(LLM)を構成要素とするAIシステム(LLMシステム)。
ガイドではAIセーフティの観点として、AI事業者ガイドライン「C. 共通の指針」において、各主体が取り組む事項とされているもののうち、「人間中心」「安全性」「公平性」「プライバシー保護」「セキュリティ確保」「透明性」を重要要素としている。これら6つの重要要素に関連するAIセーフティ評価の観点を、昨今の技術的潮流を踏まえて、AIセーフティ評価の観点は、「有害情報の出力制御」「偽誤情報の出力・誘導の防止」「公平性と包摂性」「ハイリスク利用・目的外利用への対処」「プライバシー保護」「セキュリティ確保」「説明可能性」「ロバスト性」「データ品質」「検証可能性」の10項目を導出した。
第1.10版の改訂では、マルチモーダル基盤モデルを評価対象とする場合のAIセーフティの評価観点や各観点における評価項目例を調査した結果、「有害情報の出力制御」「公平性と包摂性」「プライバシー保護」「セキュリティ確保」「ロバスト性」「データ品質」の6つの観点について、新たに評価項目例を記載した。
評価の実施者は、主にAI開発およびAI提供における開発・提供管理者で、いずれの役割の者が実施するかは、AIシステムに関するライフサイクルによって異なるとしている。評価実施時期は、LLMシステムの開発・提供・利用フェーズにおいて合理的な範囲、適切なタイミングで繰り返し実施することとしている。
ガイドの5章では、評価に関する手法として、技術的評価とマネジメント的評価を挙げ、技術的評価の概要としてツールを用いた対策の検証、ツール以外も取り入れたレッドチーミングによる検証などを概説し、6章では評価に際しての留意事項を示している。
また、2024年9月に公開した「AIセーフティに関するレッドチーミング手法ガイド」についても、具体的な実施例を通して、より詳細に理解できるよう改訂した。RAGの仕組みを実装したAIシステムに対して、実際にレッドチーミング(攻撃者がどのようにシステムを攻撃するかの観点で、対応体制および対策の有効性を確認する評価手法)を行い、その手順を詳細に解説するとともに、レッドチーミング実施の成果物を文書としてとりまとめている。
AIセーフティに関するレッドチーミング手法ガイドの改訂にあたっては、「AIシステムに対する既知の攻撃と影響」に関する検討結果を踏まえ、懸念箇所や保護すべき情報資産を洗い出すために使っていたシステム図を更新した。また、各ステップの手順や成果物がより理解しやすいよう、説明をより具体的に示した。