Microsoftが警告:有害なAIボタンとリンクがあなたの信頼を裏切る可能性

AIの驚異を継続的に宣伝する中、Microsoftは、技術を操作して偏ったアドバイスを生成させる手法の多くの事例を発見したと顧客に警告しました。

このソフトウェア大手は、同社のセキュリティ研究者が、AIモデルの「メモリ」を操作的なデータで汚染するよう設計された攻撃の急増を検出したと述べています。この手法を「AI推奨ポイズニング」と呼んでいます。これは、悪意のあるウェブサイトを検索結果で上位に表示させるために使用されるSEOポイズニングに似ていますが、検索エンジンではなくAIモデルに焦点を当てています。

このWindows企業は、ウェブサイトに配置された「AIで要約」ボタンやリンクに隠し指示を追加している企業を発見したと述べています。

AIチャットボットを指すURLには操作的なプロンプトテキストを含むクエリパラメータを含めることができるため、これを行うのは複雑ではありません。

例えば、The Registerは、Perplexity AIに対してCNBCの記事を海賊が書いたかのように要約するよう指示するURLエンコードされたテキストを含むリンクをFirefoxのオムニボックスに入力しました。

AIサービスは、その記事と他のソースを引用して、海賊風の要約を返しました。

より軽薄でない指示、または特定の傾向を持つ出力を生成するようAIに求める指示であれば、どのAIも隠された指示を反映したコンテンツを生成する可能性が高いでしょう。

「14業種にわたる31社から50以上のユニークなプロンプトを特定しました。自由に利用可能なツールにより、この手法は非常に簡単に展開できます」とMicrosoft Defenderセキュリティチームはブログ投稿で述べています。「これが重要なのは、侵害されたAIアシスタントが、ユーザーが自分のAIが操作されていることを知らないまま、健康、金融、セキュリティなどの重要なトピックについて微妙に偏った推奨を提供できるためです。」

この手法はGoogle検索でも機能することがわかりました。

Microsoftの研究者は、さまざまなコードライブラリやウェブリソースを使用して、推奨インジェクション用のAI共有ボタンを作成できると指摘しています。これらの手法の効果は、プラットフォームがウェブサイトの動作を変更し、保護を実装するにつれて、時間とともに変化する可能性があると認めています。

しかし、ポイズニングが自動的に、または誰かが無意識にトリガーした場合、モデルの出力はそのプロンプトテキストを反映するだけでなく、後続の応答もプロンプトテキストを履歴コンテキストまたは「メモリ」として考慮します。

「AIメモリポイズニングは、外部のアクターがAIアシスタントのメモリに無許可の指示や『事実』を注入したときに発生します」とDefenderチームは説明しました。「一度汚染されると、AIはこれらの注入された指示を正当なユーザー設定として扱い、将来の応答に影響を与えます。」

Microsoftの研究者が主張するリスクは、AI推奨ポイズニングが人々のAIサービスへの信頼を損なうことです – 少なくとも、すでにAIモデルを信頼できないとして切り捨てていない人々の間では。

ユーザーはAIの推奨を検証する時間を取らない可能性があり、AIモデルによる自信に満ちた主張がそれをより可能にすると、セキュリティ研究者は述べています。

「これがメモリポイズニングを特に陰険なものにしています – ユーザーは自分のAIが侵害されたことに気づかない可能性があり、たとえ何かがおかしいと疑っても、それをチェックまたは修正する方法がわかりません」とDefenderチームは述べました。「操作は目に見えず、永続的です。」

Redmondの研究者は、顧客にAI関連のリンクに注意し、それらがどこにつながるかを確認するよう促しています – これはどのウェブリンクにも当てはまる健全なアドバイスです。また、AIアシスタントの保存されたメモリを確認し、見慣れないエントリを削除し、定期的にメモリをクリアし、疑わしい推奨に疑問を持つよう顧客にアドバイスしています。

MicrosoftのDefendersは、企業のセキュリティチームがテナントの電子メールおよびメッセージングアプリケーションでAI推奨ポイズニングの試みをスキャンすることも推奨しています。®

翻訳元: https://go.theregister.com/feed/www.theregister.com/2026/02/12/microsoft_ai_recommendation_poisoning/

Microsoftが警告:有害なAIボタンとリンクがあなたの信頼を裏切る可能性

共有:

関連

関連記事

AIスパムフィルターを欺く、時代遅れのテキストソルティング

FortiSandboxの重大な欠陥を攻撃者が標的に、CISAがパッチ適用を命令

Googleが修正中のAndroidロック画面バグ、PINなしでGeminiからSMS送信が可能に