AI検索ツールは偽のコンテンツに簡単に騙される

タブレット端末でPerplexityアプリのアイコンをタップしている人物

出典:Talukdar David / Shutterstock

Perplexity、ChatGPT、OpenAIのAtlasブラウザのようなAI検索ツールは、リサーチや情報収集に強力な機能を提供しますが、同時に低コストなコンテンツ操作攻撃に危険なほど脆弱でもあります。

AIクローラーが訪問したことを検知できるウェブサイトは、人間の訪問者が見る内容とは全く異なるコンテンツを提供できることが判明しており、悪意のある者が簡単に毒入りコンテンツを提供できてしまいます。

誤情報と偽プロフィール

この「AIクローク」技術がどれほど効果的かを示すため、SPLXの研究者たちは、通常のWebブラウザとAtlasやChatGPTなどのAIクローラーに異なるコンテンツを提供するサイトで実験を行いました。

あるデモでは、研究者たちが「Zerphina Quortane」と名付けたオレゴン州の架空のデザイナーを使いました。研究者たちは、Quortaneのサイトに人間の訪問者がアクセスした場合、プロフェッショナルな見た目のウェブページに正当な経歴やポートフォリオが表示されるように細工しました。しかし、同じURLにAIエージェントがアクセスすると、サーバーは全くの作り話である「悪名高い製品破壊者&疑わしい技術者」としてQuortaneを描写し、失敗したプロジェクトや倫理違反の例まで含めた内容を提供しました。

「Atlasや他のAIツールは、Zerphinaを信頼できず、非倫理的で雇用に値しないとする毒入りのストーリーを忠実に再現します」とSPLXの研究者Ivan VlahovとBastien Eymeryは最近のブログ記事で述べています。「検証は一切なし。ただ自信満々で権威ある幻覚が、操作されたデータに基づいて語られるだけです。」

...

別の実験では、SPLXはAIクローラーが人間とは異なるバージョンの履歴書を受け取ることで、間違った求職者を好むように簡単に騙される様子を示しました。

この実験のために、研究者たちは特定の評価基準を持つ架空の求人を作成し、異なるウェブページにもっともらしいが偽の候補者プロフィールを用意しました。そのうちの一つ、「Natalie Carter」という架空の人物のプロフィールでは、AIクローラーがCarterの履歴書のバージョンを見ると、彼女が人間が読むバージョンよりもはるかに優秀に見えるようにしました。案の定、実験でAIクローラーがプロフィールを訪れると、Carterを他の候補者よりも高く評価しました。しかし、研究者が人間用の修正されていない履歴書を提示すると、クローラーは彼女を最下位にランク付けしました。

AIターゲットクローク

これらの実験は、AIターゲットクロークが「古典的なSEOトリックを強力な誤情報兵器に変える」ことを示していますと、VlahovとEymeryは書いています。クロークは、詐欺師が検索エンジンクローラーに人間とは異なるコンテンツを提供して検索エンジンの結果を操作するために長年使ってきた手法です。AIクロークはこの手法をAIクローラーに拡張しただけですが、その影響ははるかに大きいのです。

研究者の説明によれば、「ウェブサーバー上のたった一つのルールで、AIシステムが人やブランド、製品をどのように記述するかを書き換えることができ、しかも公的な痕跡を残しません」。巧妙に操作された数行のコンテンツだけで、攻撃者は採用ツールやコンプライアンスシステムのリサーチモデルを偽データで騙すことができます。偽の候補者プロフィール実験が示したのは、攻撃者がAIエージェント専用のコンテンツを使って自動化された採用や調達、コンプライアンスツールを歪めることができるということです。実際、「ウェブから取得した入力を信頼するあらゆるパイプラインは、サイレントバイアスにさらされている」と研究者は述べています。

AIクローラーが—少なくとも現時点の進化段階では—取り込むコンテンツを検証・確認しないため、攻撃者がクローク攻撃を行うのは容易です。「技術的なハッキングは不要。ただコンテンツ配信の操作だけです」とVlahovとEymeryは述べています。

AIシステムが外部データに基づいて判断を下すことを許している組織—例えば、SNSプロフィールを基に面接候補者を絞り込む場合など—は注意が必要です。ツールを暗黙に信頼するのではなく、組織はAIが取得したコンテンツを正規の情報源と照合して検証するための管理策を実装しなければなりません。また、社内AIワークフローがAIクロークのような攻撃にさらされていないかレッドチームで検証し、ベンダーにコンテンツの出所やボット認証について確認する必要があるとSPLXは述べています。

「これはコンテキストポイズニングであり、ハッキングではありません」と研究者は指摘しています。「操作はコンテンツ配信層で発生し、信頼の前提が最も弱い部分です。」

SPLXの研究が明らかにしたコンテンツ操作の脆弱性は、AIツールが日々のワークフローに急速に統合される中で浮上している多くの新たなリスクの一つに過ぎません。過去の研究では、AIシステムが自信を持って誤った情報を幻覚する傾向があり、トレーニングデータのバイアスを増幅したり、プロンプトインジェクション攻撃を通じて機密情報を漏洩したり、その他予測不能な挙動を示すことも明らかになっています。

翻訳元: https://www.darkreading.com/cyber-risk/ai-search-tools-easily-fooled-by-fake-content

ソース: darkreading.com