英国AIセキュリティ研究所(AISI)は、大規模言語モデル(LLM)開発者がセキュリティ態勢を改善できるよう設計された新たなオープンソース・フレームワークについて、商用セキュリティ分野と提携した。
バックボーン・ブレーカー・ベンチマーク(b3)は、AISI、Check Point、およびCheck Point子会社のLakeraが作成した新しい評価ツールだ。AIエージェントを動かす「バックボーン」LLMのレジリエンス(耐性)を、開発者とモデル提供者が向上させるのを支援することを目的としている。
「AIエージェントは、ステートレスなLLM呼び出しの連鎖として動作します。各ステップは推論を行い、出力を生成し、またはツールを呼び出します」と、Lakeraはリリースを発表するブログ投稿で説明した。
「これらのエージェントのワークフロー全体をエンドツーエンドで評価する代わりに、b3はバックボーンLLMが実際に失敗する個々のステップ、すなわちプロンプト、ファイル、またはWeb入力が悪意ある出力を引き起こす特定の瞬間に焦点を当てます。攻撃者が突くのはこうした圧力点であり、エージェントのアーキテクチャそのものではなく、その内部にある脆弱なLLM呼び出しです。」
開発者とモデル提供者が、敵対者に先んじてこれらの脆弱性を発見できるよう、b3は「スレット・スナップショット(threat snapshots)」と呼ばれる新手法を用いる。これらのマイクロテストは、Lakeraの「Gandalf: Agent Breaker」 イニシアチブから得たクラウドソースの敵対的データによって支えられている。
具体的には、b3は代表的なエージェントの「スレット・スナップショット」10件と、高品質な19,433件のGandalf敵対的攻撃データセットを組み合わせている。開発者はこれを用いて、システムプロンプトの流出、フィッシングリンクの挿入、悪意あるコード注入、サービス拒否(DoS) 、および不正なツール呼び出しといった攻撃に対して、自身のモデルがどれほど脆弱かを確認できる。
AIエージェントのセキュリティについて詳しく読む: AIチャットボットはジェイルブレイクに非常に脆弱、英国研究者が発見
Lakeraによれば、b3ベンチマークは「LLMセキュリティを測定可能で、再現可能で、モデルやアプリケーションカテゴリ間で比較可能にする」という。
「B3により、特定のアプリケーションにおいてどの『バックボーン』が最もレジリエントか、そして強いモデルと圧力下で失敗するモデルを分けるものが何かを、ついに把握できるようになります」と、同社は述べた。
「その過程で、結果は2つの顕著なパターンを明らかにしました。段階的に推論するモデルはより安全である傾向があり、オープンウェイトのモデルは予想より速いペースでクローズドシステムとの差を縮めています。」
LLMセキュリティ改善のためのベースライン
Lakeraの共同創業者兼チーフサイエンティストであるMateo Rojas-Carullaは、今日のAIエージェントの安全性は、それを動かすLLMと同程度にしか安全ではないと主張した。
「スレット・スナップショットにより、これまで複雑なエージェントのワークフローの中に隠れていた脆弱性を、体系的に顕在化させることができます」と彼は付け加えた。
「このベンチマークを世界に向けてオープンにすることで、開発者とモデル提供者が自らのセキュリティ態勢を測定し、改善するための現実的な方法を提供できればと考えています。」
Black Duckのシニア研究開発マネージャー(データサイエンス)であるAndrew Bolsterは、この新しいオープンソース・ベンチマークを慎重に歓迎した。
「この種の研究は、エージェント統合を行う人々が、これらのシステムを取り巻く脅威モデルを理解するための優れたベースラインです」と彼は述べた。
「しかし、AIを組み込んだ真のスケールのセキュリティを実現するには、セキュリティリーダーは、こうした新しいプロンプト操作/ベンチマーク手法の両方を活用すると同時に、実戦で鍛えられたアプリケーションセキュリティテストやモデルのアテステーション(証明)体制も活用する必要があります。」
翻訳元: https://www.infosecurity-magazine.com/news/open-source-b3-benchmark-security/