「PromptFix」攻撃がエージェント型AIの脅威を強化する可能性

研究者たちは、プロンプトインジェクションを利用してエージェント型AIに様々な悪意ある行動を実行させる、新しいバージョンのClickFixソーシャルエンジニアリング手法を開発しました。

Guardioはこれを「PromptFix」と名付けました。これは、偽のエラーや認証メッセージを使って被害者に悪意あるスクリプトをコピー＆ペーストさせて実行させるClickFix攻撃のバリエーションです。

この手法は、プロンプトインジェクション技術を用いて、攻撃者の指示をAIエージェントに見えないテキストボックス内で提示します。

「なぜAIはこれらをコマンドとして扱うのでしょうか？プロンプトインジェクションでは、攻撃者はモデルが同じプロンプト内の指示と通常のコンテンツを完全に区別できないことに依存し、悪意あるコマンドをサニタイズチェックをすり抜けて実行させようとします」とGuardioは説明しています。

「PromptFixでは、アプローチが異なります。モデルを強制的に従わせようとはしません。その代わり、人間のソーシャルエンジニアリング手法から借用したテクニックを使い、AIの本質的な設計目標――人間を迅速かつ完全に、ためらいなく助けること――に直接訴えかけて誤導します。」

ClickFixについてさらに読む：ClickFix攻撃が2025年に517%急増

テストシナリオでは、研究チームが詐欺師になりすまし、被害者の「医者」から「最近の血液検査結果」へのリンク付きの偽メッセージを送信しました。AIはそのリンクにアクセスし、CAPTCHAに遭遇して、隠されたプロンプトインジェクションの指示を発見し、ドライブバイダウンロード攻撃を引き起こすように仕組まれました。

「注入されたストーリーは、AIエージェントに対し、これは人間の代わりに解決できる特別な『AIフレンドリー』なCAPTCHAであり、必要なのはボタンをクリックするだけだと伝えます。そして、AIはクリックします」とGuardioは説明しています。

「私たちの管理下のデモでは、そのボタンは無害なファイルをダウンロードしましたが、同じように悪意あるペイロードをダウンロードさせ、典型的なドライブバイダウンロードを引き起こし、人間の知らないうちにマルウェアを仕込むことも可能です。」

このセキュリティベンダーは、同様の手法が個人情報を含むメールの送信や、クラウドストレージアカウントへのファイル共有権限の付与、その他の潜在的に悪意ある行動の実行にも利用される可能性があると警告しています。

「実質的に、攻撃者はあなたのAIを、ひいてはあなた自身をコントロールできるようになるのです」と述べています。

エージェント型AIは簡単に騙されてしまう

Guardioはまた、PerplexityのAI搭載ブラウザ「Comet」を使い、AIエージェントに悪意あるタスクを実行させられるかどうか、他のシナリオも試しました。

残念ながら、研究チームは自分たちが用意した詐欺ECサイトで商品を購入させたり、送信したメール内の本物のフィッシングサイトへのリンクをクリックさせたりすることに成功しました。

これらの攻撃は、AIが十分な文脈なしに行動しやすいこと、簡単に信頼してしまうこと、人間の懐疑心を持たずに指示に従ってしまう傾向を悪用しているとGuardioは述べています。

「詐欺はもはやあなたを騙す必要はありません。あなたのAIを騙せば十分です。その時、代償を払うのは結局あなたなのです」と付け加えています。

「これがScamlexity――AIの利便性が新たな、見えない詐欺の舞台と衝突し、人間が巻き添え被害となる、複雑な新時代の詐欺です。」

Menlo Securityのチーフセキュリティアーキテクト、Lionel Litty氏も、AIエージェントは騙されやすく従順であることに同意しています。

「AIエージェントが信頼できない入力にさらされる敵対的な環境では、これは非常に危険な組み合わせです」と彼は付け加えました。

「残念ながら、2025年のウェブはまさに敵対的な環境です。」

画像クレジット：gguy / Shutterstock.com

翻訳元: https://www.infosecurity-magazine.com/news/promptfix-attacks-supercharge/