タグ: レッドチーミング

cyberpress.org

Claude Fable 5のジェイルブレイク成功——スタックエクスプロイト生成が可能に

Anthropicが誇る最先端AIモデルが、リリースからわずか数時間でジェイルブレイクされました。その安全アーキテクチャの実効性に、深刻な疑問が投げかけられています。 Anthropicは2026年6月9日、初めて一般公開されるMythosクラスのモデルとして「Claude Fable 5」をリリースしました。コーデ

cyberpress.org

エージェント型AIのレッドチーミングが明らかにした新たな「Human-in-the-Loop」回避技術

MicrosoftのAIレッドチームが、エージェント型AIシステムにおける障害モード分類(Taxonomy of Failure Modes)のバージョン2.0を公開しました。この報告書では、AIエージェントがどのように悪用されているかについて、重大な変化が明らかにされています。 本更新は、1年間にわたる実際のレッド

infosecurity-magazine.com

脅威アクター、AIを活用してEDR回避ツールを開発

ある脅威アクターが、エンドポイント検出・対応(EDR)ソフトウェアをすり抜けることを目的としたマルウェアの開発・改良にAIコーディングツールを活用していたことが確認されました。この活動は、レッドチームプロジェクトとして偽装されていました。 この活動を発見したのはSophos X-Opsです。同チームのCounter T

helpnetsecurity.com

フロンティアAIモデルはマルチターンAI攻撃で崩壊する、Ciscoが発見

大規模言語モデルを探索する攻撃者は、一度拒否されてもめったに諦めない。文脈を組み替え、複数のターンをまたいで文脈を積み上げ、ペルソナを採用し、徐々にエスカレートさせる。CiscoのAI脅威インテリジェンスチームの新たな研究により、業界全体で使用されている安全性ベンチマークがこうした挙動のほぼすべてを見

helpnetsecurity.com

ASAPPがエンタープライズAIシステム向けの敵対的テストを拡大

ASAPPは「継続的レッドチーミング」という新機能をローンチしました。これは敵対的AIテストをASAPPのモデル評価フレームワークに直接統合します。この新機能はPromptfooの上に構築されており、Promptfooは企業がAIシステムの開発段階で脆弱性を検出し対処するのに役立つAIセキュリティプラ