最先端の人工知能モデルの大半には、組み込みの安全機能が備わっています。そのため、これらのプロトコルは生物兵器や核兵器に関する問い合わせを能動的にブロックします。具体的には、システムが危険なトリガーワードを検出すると、即座にプロンプトを拒否します。ところが今、脅威アクターはこの防御的なガードレールを逆手に取るようになっています。その結果、マルウェア解析にAIを使用するセキュリティ研究者を盲目化するために、安全アライメントが武器として利用されているのです。
この新たな手口が主に標的とするのは、自動化されたセキュリティAIエージェントです。これらの自律型ボットは通常、デジタル脅威を特定するためにウェブを巡回しています。人間の監視なしに汚染されたスクリプトに遭遇すると、エージェントは解析を完全に中断してしまいます。その結果、悪意あるペイロードがシステムに無視されることになります。この巧妙な手法は、防御的なフレームワークを防御者自身に対して見事に悪用するものです。
汚染ペイロードの構造
コンポーネント偽装と注入スキーマ
悪意ある指令には明確な構造が用いられています。具体的には、システム命令を上書きするよう設計された複雑なジェイルブレイクプロンプトを模倣しています。さらに、ペイロードは生物兵器物質に関する詳細な技術仕様を要求します。その内容には、エアロゾル化された病原体、実験室装置の構成、および散布メカニズムが含まれます。
また、注入されたテキストには詳細な核兵器の設計図も求められています。たとえば、爆縮型核分裂装置やプルトニウム239コアの安定化に関するデータを要求しています。著名な歴史的科学者の名前を引用することで、脅威に高い信憑性を持たせています。
攻撃者はこのテキストを悪意あるスクリプトの最上部に戦略的に配置します。重要な点として、プロンプト全体を標準的な構文コメント記号で完全に囲んでいます。その結果、コードは通常のJavaScript環境では無害に実行されます。しかし、ファイルをスキャンするAIエージェントはこれらのコメントを最初に解析します。そのため、モデルは危険なキーワードを検知して防御パイプラインを突然終了させてしまいます。
防御戦略の進化
アライメントの最適化と入力サンドボックス化
この敵対的な手法は非常に高い独創性を示しています。とはいえ、長期的な有効性はまだ検証されていません。防御側がこの手法を認識すれば、コメントアウトされたコードブロックを無視するようエージェントに指示することができます。その後、モデルは中断することなく実行可能なペイロードをスキャンできるようになります。
しかし、脅威アクターは必然的にさらに高度な回避手法を編み出すでしょう。そのため、AIプロバイダーはアライメント戦略を継続的に改善し続ける必要があります。企業はバイナリワードブロックへの依存から脱却し、厳格な入力サンドボックス化と堅牢な意図認識メカニズムを採用すべきです。
オープンソースモデルとセキュアエンクレーブの活用
多くのセキュリティ専門家は、防御側にオープンソースアーキテクチャの採用を強く勧めています。チームはこれらのシステムをローカル環境またはセキュアハードウェアエンクレーブ内に展開できます。その結果、硬直したクラウドホスト型APIへの依存度を低減することが可能になります。
クラウドが管理する安全プロトコルは完全に硬直しており、動作パラメータを容易に変更することができません。一方、ローカライズされたモデルを活用すれば、研究者は標準的なアライメントトリガーを回避でき、AIを活用したマルウェア対策を安全に推進することが可能になります。
翻訳元: https://meterpreter.org/weaponizing-ai-safety-guardrails/