新たな「Lies-in-the-Loop」攻撃がAIの安全対話を無力化

エージェント型AIシステムにおける一般的な安全機構を損なう新しい攻撃手法がセキュリティ研究者によって詳述され、人間の承認プロンプトが操作されて悪意あるコードを実行させられることが示された。

Checkmarxの研究者が確認したこの問題は、Human-in-the-Loop(HITL)ダイアログに焦点を当てている。HITLダイアログは、AIエージェントがOSコマンドの実行など潜在的に危険な行為を行う前に、ユーザーに確認を求めるよう設計されている。

火曜日に公開された研究では、攻撃者がこれらのダイアログを偽造または改ざんし、無害に見せかけられる一方で、承認すると任意のコード実行が引き起こされることが説明されている。

Lies-in-the-Loop(LITL)と名付けられたこの手法は、ユーザーが確認プロンプトに寄せる信頼を悪用し、防護策を攻撃ベクトルへと変えてしまう。

新たな攻撃ベクトル

この分析は、攻撃者が悪意あるコマンドを見えない場所に隠すことに限定されないことを、先行研究を踏まえて示している。攻撃者は、無害に見えるテキストを先頭に付けたり、実行される操作を要約するメタデータを改ざんしたり、ユーザーインターフェースにおけるMarkdownレンダリングの欠陥を悪用したりすることもできる。

場合によっては、注入されたコンテンツがダイアログの表示方法を変え、危険なコマンドを安全に見せかけたり、無害なものに置き換えたりできる。

この問題は、コードアシスタントのような特権的AIエージェントにとって特に深刻である。これらはHITLダイアログに大きく依存することが多く、OWASPが推奨する他の防御層を欠いている場合がある。

HITLプロンプトは、プロンプトインジェクションや過剰な自律性に対する緩和策としてOWASPに挙げられており、それが侵害されることは特に懸念される。

「HITLダイアログ自体が侵害されてしまえば、人間による安全策は驚くほど容易に回避できるようになる」 と研究者らは記している。

この攻撃は、ダイアログが表示されるずっと前にエージェントのコンテキストを汚染する間接的なプロンプトインジェクションから発生し得る。

AIエージェントのセキュリティについて詳しく読む:AIエージェントにもセキュリティ訓練が必要――従業員と同じように

影響を受けるツールと緩和戦略

この研究では、Claude CodeおよびVS CodeのMicrosoft Copilot Chatを用いたデモが参照されている。

Claude Codeでは、攻撃者がダイアログの内容とメタデータを改ざんできることが示された。Copilot Chatでは、Markdownのサニタイズが不適切だったため、注入された要素が承認後にユーザーを誤認させ得る形でレンダリングされることが可能だった。

公開までのタイムラインによれば、Anthropicは2025年8月に報告を認識したが、情報提供レベルとして分類した。Microsoftは2025年10月に報告を認識し、その後、修正なしで完了として扱い、この挙動は同社のセキュリティ脆弱性の基準を満たさないと述べた。

研究者らは、単一の修正でLITL攻撃を排除することはできないと強調しつつ、次を含む多層防御(defense-in-depth)アプローチを推奨している:

  • ユーザーの意識向上とトレーニングの改善

  • 承認ダイアログの視覚的な明瞭性の強化

  • Markdownを含む入力の検証とサニタイズ

  • コマンドと引数を分離する安全なOS APIの使用

  • ダイアログへのガードレール適用と妥当な長さ制限

「複数の保護層を備えた多層防御戦略を採用する開発者は[…]ユーザーにとってのリスクを大幅に低減できる」 とCheckmarxは記している。

「同時に、ユーザーも、より高い意識、注意深さ、そして健全な懐疑心によってレジリエンスを強化できる。」

翻訳元: https://www.infosecurity-magazine.com/news/lies-loop-attack-ai-safety-dialogs/

ソース: infosecurity-magazine.com