- OpenAIは、プロンプトインジェクション攻撃は完全には排除できず、軽減することしかできないと述べる
- Webサイトに隠された悪意あるプロンプトが、AIブラウザをだましてデータを流出させたりマルウェアをインストールさせたりする可能性がある
- OpenAIの迅速対応ループは、敵対的学習と自動発見を用いて防御を強化する
OpenAIは、AIブラウザがプロンプトインジェクション攻撃から完全に保護されることは決してないかもしれない一方で、だからといって業界がその発想をあきらめたり、詐欺師に敗北を認めたりすべきだという意味ではないと主張している。製品を強化する方法はあるという。
同社は、ブログ記事を新たに公開し、AI搭載ブラウザ「Atlas」におけるサイバーセキュリティ上のリスクについて論じ、そのやや厳しい見通しを共有した。
「プロンプトインジェクションは、Web上の詐欺やソーシャルエンジニアリングと同様、完全に『解決』されることはおそらくない」とブログには書かれている。「しかし、能動的で高い応答性を備えた迅速対応ループにより、現実世界のリスクを時間とともに大幅に低減し続けられると私たちは楽観視している。自動化された攻撃発見と敵対的学習、そしてシステムレベルの安全策を組み合わせることで、新たな攻撃パターンをより早期に特定し、ギャップをより迅速に塞ぎ、悪用のコストを継続的に引き上げることができる」
迅速対応ループ
では、プロンプトインジェクションとは正確には何で、この「迅速対応ループ」というアプローチとは何なのだろうか。
プロンプトインジェクションとは、悪意あるプロンプトが、被害者のAIエージェントに、本人が気づかない(あるいは同意しない)まま「注入」されるタイプの攻撃だ。
例えば、AIブラウザがWebサイトの内容をすべて読み取れるよう許可されている場合がある。そのWebサイトが悪意あるもの(または乗っ取られている)で、隠しプロンプト(例えば白い背景に白い文字)を含んでいると、ユーザーが何も気づかないままAIがそれに従って動作してしまう可能性がある。
そのプロンプトの内容は、機密ファイルの流出から、悪意あるブラウザアドオンのダウンロードと実行まで、さまざまだ。
OpenAIは、火には火で対抗しようとしているようだ。同社は強化学習で訓練したボットを作成し、侵入手段を探すハッカー役として動かした。そのボットをAIの防御役と対戦させ、互いに出し抜こうと行き来させる。最終的な結果として、多くの攻撃手法を見抜けるAI防御役が得られるという。