企業がコパイロットや自律型エージェントの導入を急ぐ中、セキュリティチームはAIシステムのテストに、従来のレッドチーミングでは対応しきれないスキル・ツール・前提条件が必要だと気づき始めています。
Ram Shankar Siva Kumarが2019年にMicrosoftのAIレッドチームを立ち上げた当時、この専門分野はほとんど存在していませんでした。
「AIレッドチーミングに携わっている人たちを全員集めても、14フィートのカタマランに乗り切れてしまう、というのが昔の定番ジョークでした」と、同氏はCSOに語ります。
当時、Microsoftのアプローチはサイバーセキュリティのプロならすぐに理解できるものでした。機械学習システムを、セキュリティチームがほかのあらゆるシステムに対して行うのと同じ方法で攻撃するというものです。弱点を洗い出し、敵対者の行動を模倣し、製品がユーザーの手に届く前に脆弱性を発見するのが目的でした。
そこへGPT-4が登場しました。「私たちが持っていたツールが変わってしまった。いや、正確には壊れてしまったのです」とSiva Kumarは言います。それまでの機械学習システムに対して開発した攻撃手法が、大規模言語モデルには通用しなくなったのです。ツールはゼロから作り直す必要があり、手法も新たに考案しなければなりませんでした。仕事の定義そのものまで見直しを迫られたのです。
「ツールを完全に作り替えなければならなかっただけでなく、AIシステムをレッドチーミングするとはどういうことかを根本から考え直す必要がありました」と同氏は語ります。
その問い直しは今も続いています。現在、AIレッドチーミングはサイバーセキュリティの中で最も急成長している専門分野の一つとなり、Microsoft、Anthropic、OpenAI、Google、Nvidiaに専任チームが置かれています。しかしこの分野は、使用するツールよりもはるかに根本的な問いに向き合っています。この仕事とは、正確には何をすることなのか——という問いです。
従来型ペネトレーションテストとの決定的な違い
従来のソフトウェアテストとAIテストの最も根本的な違いは、それ以外のすべてを変えてしまうほど大きなものです。AIは決定論的ではなく、確率論的なのです。
「同じ攻撃が100回中1回しか成功しないこともあれば、10回成功することも、90回成功することもある」と、HackerOneのスタッフ・イノベーション・アーキテクト、Dane SherretsはCSOに語ります。これにより、セキュリティチームがリスクを評価する方法が変わります。脆弱性が存在するかどうかを問うだけでなく、どのくらいの頻度で発生するか、どのような条件下で生じるか、再現性はあるかを確認しなければなりません。
MicrosoftのAIレッドチームのテクニカルリード、Pete Bryanは、AIシステムの確率論的な性質がテストプロセスを根本的に変えると考えています。システムがどのように振る舞うか、また危険な出力が一貫して現れるかどうかを理解するために、様々な条件下で繰り返し評価しなければなりません。
課題はAIが従来のソフトウェアと異なる振る舞いをするという点だけではありません。AIは従来のソフトウェアには不可能だったことも実行できます。
CiscoのインフラストラクチャおよびセキュリティグループのSVP/GM、Tom Gillisは、フロンティアモデルが複雑なソフトウェアシステムの脆弱性を、数年前には考えられなかったほどのスピードで発見していると指摘します。「奇妙な相互依存関係を見つけることができるのです」とCSOに語ります。「この小さな部分の状態を変えると、あの部分の状態が変わり、それがさらに別の部分の状態を変えて、最終的にメモリオーバーフローにつながる、といった具合に」
現代のモデルは膨大なコードベースを解析し、最終的に悪用可能な状態につながる一連の相互作用を特定できます。これは人間の研究者が何年調査しても見落としてしまうような関係性です。
この能力は諸刃の剣です。AIをセキュリティテストに役立てる推論能力は、同時にAIシステム自体を新たな種類の標的にします。それを調査するには、従来とは異なる手法が必要です。
「口の悪いティーンエイジャー」という脅威
従来のレッドチームは、国家、サイバー犯罪グループ、高度持続的脅威(APT)といった巧妙な攻撃者のモデル化に大半の時間を費やしてきました。AIレッドチームもこうした攻撃者を引き続き重視していますが、関連する脅威アクターの顔ぶれは大幅に広がっています。
「私たちが注目し続けているペルソナの一つが、私のチームが親しみを込めて『口の悪いティーンエイジャー』と呼んでいるものです」とMicrosoftのSiva Kumarは言います。
この表現は、生成AI時代の本質的な現実の一つを言い表しています。最も重大なジェイルブレイクやプロンプトインジェクション攻撃の多くは、エリートの攻撃オペレーターによって発見されたものではありません。特別な専門知識はないが創造性と時間を持つ、好奇心旺盛なユーザーがプロンプトを試行錯誤する中で見つけられたのです。
「2019年にこのインタビューが行われていたなら、私は『私の仕事は国家レベルの攻撃者を模倣し、APTを模倣することだ』と言っていたでしょう」とSiva Kumarは語ります。
そうした攻撃者が依然として重要であることに変わりはありません。しかしAIシステムは、予期せぬ質問をする一般ユーザー、巧みにプロンプトを操るユーザー、あるいは開発者が想定しない使い方をするユーザーによっても失敗することがあります。
Palo Alto NetworksのAIセキュリティリーダー、Ian Swansonは、この変化が企業の問題認識に反映されていると見ています。「これが本当に意味するのは、セキュリティ、安全性、さらにはブランドの評判リスクという観点からも、AIの振る舞いをテストする必要があるということです」とCSOに語ります。
問われているのは、攻撃者がシステムに侵入できるかどうかという単純な話ではもはやありません。誰が質問しているかにかかわらず、システム自体がリスクを生むような振る舞いをしうるかどうかが問われているのです。
安全性がセキュリティと並ぶ課題に
この視点の転換により、AIレッドチーミングはサイバーセキュリティという原点をはるかに超えて拡大しました。
2019年にMicrosoftのチームが発足した当初、その焦点は主に機械学習システムの機密性・完全性・可用性、すなわち従来のCIAトライアドにありました。生成AIの登場は、その使命を劇的に拡大しました。今や信頼性と安全性への懸念が、従来のセキュリティ上の懸念と並んで重要視されています。誤情報、危険な知識領域、操作リスク、自律型AIの振る舞いに関する問いが、今日の多くのAIレッドチームの管轄事項となっています。
「AIの時代に対応するため、チームの構成もそれに見合った形で拡充されました」とSiva Kumarは言います。チームには現在、心理学者、言語学者、生物兵器の専門家が加わっており、従来のセキュリティ組織では場違いに見えたであろう専門知識が揃っています。
Bryanは、この拡大をAIが社会で果たす役割の自然な帰結として捉えています。「AIレッドチーミングのスコープははるかに広い」と言います。「エンジニアリング上の技術的要素も懸念しますが、安全性に関する社会技術的リスクも包含しています。」
こうした懸念の拡大は、従来のサイバーセキュリティチームがほとんど直面しなかった害の評価を意味します。誤情報の拡大、心理社会的リスク、攻撃者が関与することなく害をもたらしうるコンテンツなどが対象です。
「AIの安全性とセキュリティの全範囲をカバーするためには、心理社会的な害や誤情報の拡大について深く考える人材など、より広範なスキルセットが必要です」とBryanは語ります。
AIレッドチーミングの拡大する権限は、ワシントンの注目も集めています。バイデン大統領が2023年に発令した大統領令はAIレッドチーミングを正式に定義し、最も強力なモデルの安全性テスト結果を展開前に政府と共有することを義務付けました。トランプ大統領はその後この命令を撤回し、標準策定は主として業界と任意のフレームワークに委ねられました。
車全体のレッドチーミング
組織がAIシステムのテストを始める際に犯す最も一般的な誤りの一つは、モデルだけに注目することです。
HackerOneのSherrettsは車のたとえ話を使います。モデルはエンジンです。しかしAIシステムとは、それに接続されているすべてのもの——データベース、API、顧客データ、決済システム、内部ワークフロー——全体を指します。「私がお勧めするのは、車全体をレッドチーミングすることです」と同氏は言います。「エンジンだけでなく、エンジンに接続されているすべての部品と、それらが連携して動作する仕組みを理解する必要があります。その接続と連携の仕方にも脆弱性が潜んでいる可能性があるからです。」
弱点はモデル自体ではなく、コンポーネント間の相互作用から生じることが多いです。Sherrettsはこの点を説明するためにエア・カナダの事例を引き合いに出します。
同航空会社の顧客サービスチャットボットは、存在しない遺族向け払い戻しポリシーをでっち上げました。ある顧客がそれを信頼した結果、航空会社は裁判沙汰になりました。誰もシステムをハッキングしていません。従来の意味での脆弱性を悪用した者もいませんでした。チャットボットが誤った振る舞いをし、その結果として組織はAIが代わりに述べた内容の責任を問われたのです。
組織がカスタマーサービス、営業、人事、内部業務にわたってAIアシスタントを展開するにつれ、この種の障害はますます重要なリスクカテゴリになっています。害をもたらすためにシステムを攻撃する必要はありません。間違ったタイミングで、間違った相手の前で、ただ誤った回答をするだけで十分なのです。
エージェント問題
生成AI時代の大部分において、レッドチーマーが主に懸念していたのは出力についてでした。モデルは幻覚を起こすか。機密情報を漏洩させるか。有害なコンテンツを生成するか。
エージェントはまったく異なるカテゴリのリスクをもたらします。
エージェント型AIシステムはテキストを生成するだけではありません。情報を取得し、APIを呼び出し、払い戻しを処理し、データベースにアクセスし、現実の影響を伴うタスクをユーザーに代わって実行します。チャットボットに誤ったことを言わせる脆弱性はコミュニケーション上の問題です。しかしビジネスプロセスを実行するエージェントにおける脆弱性は、業務上の問題です。
この変化はAIシステム自体のテストを超えて広がっています。CiscoのGillisは、能力が増し続けるAIモデルがエンタープライズ環境全体の変化のペースを加速させており、静的なセキュリティアプローチを時代遅れにしていると主張します。「インフラを強化して18か月間変わらないことを願うというアイデアは、このポスト・マイトス環境では永遠に過去のものとなりました」とCSOに語ります。
これが意味するのは、セキュリティテストが定期的な活動に留まることはもはやできないということです。AIシステムがより自律的になるにつれ、組織は本番環境でのシステムの振る舞いを継続的に評価しなければなりません。「エージェントが正しいことを行っているかを確認するために、振る舞いをテストする必要があります」とSwansonは言います。
MicrosoftのBryanは、エージェント型システムが従来のサイバーセキュリティレッドチームとAIレッドチームの融合を促しており、それがこの分野の次のフェーズを定義すると考えています。Microsoftでは、この2つのチームは依然として別々の組織として存在していますが、テスト対象のシステムが従来のソフトウェアリスクとAI固有の安全上の懸念を組み合わせた形になっているため、一方のチームだけでは対応しきれず、両者の連携がますます密になっています。
「エージェント型AIは、従来のソフトウェアシステムに伴うすべてのサイバーセキュリティリスクと、AIのセキュリティおよび安全リスクすべての交差点にあります」と同氏は語ります。
AIもチームスポーツ
BryanはMicrosoftがAI安全性テストツールをオープンソース化した決定を、AIリスクがモデルプロバイダーの側で顧客に代わって解決できる問題ではないという認識の表れとして挙げています。AIを展開する企業は独自のテスト能力を持つ必要があります。専任のAIレッドチームを維持できる組織ばかりではありませんが、AIを展開するすべての組織がそのリスクを理解する必要があります。
「サイバーセキュリティが常にチームスポーツであったのと同様に、AIの安全性とセキュリティはコミュニティ主導の取り組みです」とBryanは語ります。「それぞれに役割と責任があります。」
Bryanはまた、この分野の長期的な方向性が別種の収束に向かうと見ています。「レッドチーミングにAIを使うということが、ある時点でほとんど冗長になり、それがレッドチーミングそのものになると思います」と言います。「分野を問わず、誰もが仕事を改善するためにAIを活用するようになるでしょう。」
引き続き独自性を保つのは、AIシステム自体のテストという課題です。新たな能力が加わるたびにスコープが拡大し、誰も意図しなくとも害をもたらしうる確率論的システムのテストは、固有の課題であり続けます。
5年前、AIレッドチーミングはほんの一握りの研究者が実践するニッチな専門分野でした。今日ではサイバーセキュリティ、安全性、誤情報、自律性、ガバナンスを包含する分野へと成長しました。そして明日はまた違う姿を見せるでしょう——次世代のAIシステムがどのような能力を発揮するかによって形作られながら。
翻訳元: https://www.csoonline.com/article/4181930/ai-red-teaming-comes-of-age.html