ループ内の嘘（Lies in the Loop）攻撃がAI安全性の議論をリモートコード実行の脅威へと変える

「Lies-in-the-Loop（LITL）」と呼ばれるAIに焦点を当てた新たな攻撃手法が、サイバーセキュリティコミュニティ全体で懸念を高めています。

この手法は、AIコードアシスタントを安全にするために設計されたまさにその防護策を標的にします。すなわち、AIがコードを実行する前にユーザーの承認を求めるHuman-in-the-Loop（HITL）の確認ダイアログです。

HITLダイアログは、AnthropicのClaude CodeやMicrosoftのCopilot ChatなどのAI開発ツールで広く採用されている安全対策です。

これらのエージェントが機微なコマンドを提案する際、承認ダイアログを提示し、ユーザーに透明性と制御を提供します。

しかしLITL攻撃は、 HITLダイアログ偽造（HITL Dialog Forging）によってこの仕組みを覆し、悪意あるコマンドを安全に見せかけたり、完全に見えなくしたりします。

攻撃者は、AIが表示する内容を操作するプロンプトインジェクション技術によってこれを実現します。ダイアログに過剰なテキストを詰め込んで有害なコマンドを画面外へ押し出したり、無害そうな説明を先頭に付けたりします。

一部の攻撃では、1行要約やコマンドプレビューといったメタデータを改ざんし、間接的なプロンプトインジェクションによってそれを書き換えることで、ユーザーをさらに欺くことができます。

高度な形態のエクスプロイトでは、敵対者が Markdownインジェクションの脆弱性を組み合わせます。これは、サニタイズされていないMarkdownがインターフェース内でレンダリングされ、表示を改変できてしまうものです。

これにより攻撃者は、偽のUIコンポーネントを作成したり、コードブロックを隠したり、ダイアログ要素を視覚的に改変したりできます。ユーザーが偽造されたコマンドを「承認」すると、端末が隠された悪意あるペイロードを実行し、システム侵害につながる可能性があります。

LITL手法はこの最終防衛層を事実上無力化し、攻撃者がユーザーの信頼を武器として悪用できることを示しています。

Checkmarxは2025年に、これらの脆弱性をAnthropicとMicrosoftの双方に開示しました。Anthropicはこの問題を「informative（参考情報）」に分類し、現行の脅威モデルの範囲外であると指摘しました。MicrosoftはCopilot Chatの脆弱性を認めたものの、修正なしで報告をクローズしました。

研究者らは、厳格なコマンド検証、メタデータの整合性チェック、より厳密なMarkdownサニタイズを組み合わせた多層防御（defense-in-depth）アプローチを推奨しています。視覚的な欺瞞がLITL手法の中核であるため、偽造ダイアログを見抜くようユーザーを教育することも同様に重要です。

最終的に、LITL攻撃はAI安全性に関する議論を再定義します。ユーザーを守るはずの防護策そのものが、十分に保護されていなければ攻撃者にとって最良の味方になり得るのです。

Checkmarxが警告するように、「HITLダイアログ自体が侵害されると、人間による安全策は驚くほど容易に回避できるようになる」のです。

翻訳元: https://cyberpress.org/lies-in-the-loop-attacks/

ループ内の嘘（Lies in the Loop）攻撃がAI安全性の議論をリモートコード実行の脅威へと変える

共有:

関連

関連記事

WordPress「wp2shell」の重大な脆弱性、匿名攻撃者によるリモートコード実行が可能に

ハッカーがEYのサードパーティIT支援プラットフォームに侵入、クライアントの税務書類を窃取

OpenSSL の DoS 脆弱性、認証不要の攻撃者が大規模なメモリ割り当てを引き起こす