プロンプトインジェクションがChatGPTのAtlasブラウザに大きな影を落とす

ナポリ国立考古学博物館のファルネーゼ・アトラス像

出典:Michael Brooks(Alamy Stock Photo経由)

新たなAI搭載Webブラウザがエージェント機能を一般に近づける中、プロンプトインジェクションという代表的なLLM攻撃手法がさらに悪化するのではないかという疑問が残る。

ChatGPT Atlasは、OpenAIの大規模言語モデル(LLM)を搭載したWebブラウザで、10月21日にリリースされ、Chromiumをベースにしている。現在はmacOS向けに提供されており(他のプラットフォームも今後対応予定)、Atlasにはテキスト生成、ウェブページ要約、エージェント機能など、ネイティブのChatGPT機能が備わっている。

OpenAIはエージェント機能を宣伝している。「予約の手配、スライドショーの作成など、複雑なタスクを最初から最後まで処理できる」としている。ChatGPTのエージェント機能はPlus(月額20ドル)およびPro(月額200ドル)でのみ利用可能だが、これは今年初めに登場したより高額なエージェントに比べればかなり手頃だ。そして、Atlasだけではない。Googleで少し検索するだけで、さまざまな価格帯の類似エージェントブラウザや拡張機能が見つかる。

しかし、ここからがAIやLLMにおいて厄介な部分だ。プロンプトインジェクションとは、自然言語のプロンプトを使って、チャットボットのようなLLMに、本来その運営者が意図していない行動をさせる手法を指す。

プロンプトインジェクションには、直接型と間接型の2種類がある。例えば直接型プロンプトインジェクションは、チャットボットに質問して機密の社内文書を漏らさせるようなものだ。間接型プロンプトインジェクションはより複雑で、攻撃者がLLMに直接指示するのではなく、何らかの状況にプロンプトを埋め込む。例えば、攻撃者がターゲットに悪意あるプロンプトを本文に隠したメールを送り、AIアシスタントがそれを読み取って実行する場合や、Webページの隠し要素として悪意あるプロンプトを含め、エージェントが作業中にそれを取り込んでしまう場合などがある。

AIベンダー各社は、モデルの上にガードレールを重ねて信頼性を下げるなど、プロンプトインジェクション問題の抑制に長年取り組んできた。しかし、エージェントという、ツールを自律的に使いタスクを完了できる新しいLLMツール群が登場したことで、問題はさらに複雑化している

エージェントは、簡単なコーディング、分析、調査、セキュリティなど、他のエージェントと連携する必要があるタスクも含めて実行できる。すでに機密データ漏洩の歴史を持つLLMにツールへのアクセス権を与えることで、プロンプトインジェクションの攻撃ベクトルが大幅に拡大する。

OWASPのエージェントAI脅威リストは衝撃的だ。プロンプトインジェクションによって、モデルがコーディングツールを使い新たな脆弱性を生み出したり、リモートコード実行攻撃を行ったり、エージェントのネットワーク全体を危険にさらすことができる。これらは日常的に脅威アクターが悪用するタイプの攻撃ではないかもしれないが、エージェントは新興のLLMカテゴリ(その技術自体もまだ発展途上)である。

エージェントは当初、SOCスタッフの支援(あるいは代替)を目的とした実験的なツールとしてセキュリティ分野に登場し、エンジニアの給与並みに高価だった。今やAtlasブラウザのような製品を通じて、技術がより広く普及し、エージェント型プロンプトインジェクションのリスクも拡大している。

Atlasの扉を開く

10月下旬、Webブラウザのセキュリティ企業LayerXは、Atlasブラウザで初めて発見された脆弱性を報告した。これは、攻撃者が悪意ある指示をブラウザのメモリに注入できるものだった。同社はDark Readingに対し、今後もブラウザに関する追加調査を公開予定だと語っている。

「AIがどのようにブラウザに組み込まれているか、もっと注目すべきだ」とLayerX共同創業者兼CEOのOr Eshed氏は説明する。「大きな問題は、今後半年でこれらのブラウザがますます強力になることだ。製品が成功する理由は、攻撃者をも喜ばせる要因でもある。まさに諸刃の剣だ。」

Atlasリリースの翌日、OpenAIの最高情報セキュリティ責任者(CISO)Dane Stuckey氏はXに投稿し、リリースを祝うと同時に、プロンプトインジェクションは「依然として未解決の最前線のセキュリティ課題であり、攻撃者はChatGPTエージェントを騙す方法を見つけるために多大な時間とリソースを費やすだろう」と述べた。

この投稿には、セキュリティ・プライバシー・安全性へのコミットメントや新機能のリストも添えられていたが、OpenAIが数十億ドルを投じてもプロンプトインジェクションを解決できていないのであれば、他の誰も解決できていないのはほぼ間違いない。そして、AIセキュリティの責任分担が混乱していることを考慮する前の話だ。

アプリケーションセキュリティベンダーMend.ioのフィールドCTO、Amit Chita氏はDark Readingに対し、プロンプトインジェクションが一部改善されたとしても、エージェントではそう単純ではないと語る。エージェントがアクセスできるすべてのツール、ツール同士のすべてのやり取りが、プロンプトインジェクションの新たな攻撃ベクトルとなる。さらに、エージェントは人間のスタッフのように責任を問うことができない。

「[エージェントAI]は問題をより複雑にするだけです。なぜなら、すべてのツールがデータ漏洩や組織への損害を引き起こす行動を取る可能性があるからです」と彼は言う。「ツールが多ければ多いほど、問題が発生する機会も増えます。」

ブラウザセキュリティベンダーSeraphic SecurityのCOO兼共同創業者Suresh Batchu氏は、エージェントの普及によってプロンプトインジェクションが「近い将来から中期的にさらに悪化する」と予想していると語る。

「エージェントが自律性とツールアクセスを獲得するにつれ、プロンプトインジェクションは『モデルに変なことを言わせる』から『モデルに危険なことをさせる』へと変化します」と彼は言う。「クラウドプロバイダーはすでに、エージェントのツールチェーンが間接インジェクション発生時に情報流出やリモートコード実行(RCE)を可能にすることを警告しています。エージェントが増えればターゲットも増え、実装も多様化し、成熟したセキュリティなしで導入する小規模組織も増えます。長期的には、繰り返されるインシデントの圧力でデフォルト設定が改善されるでしょうが、現時点ではまだそこに到達していません。」

Atlasを含め、エージェントを守るには

たとえば、あなたが組織を運営していてエージェントAIを試したい、あるいはエージェント導入を任されたCISOだとしよう。

Chita氏は、エージェントがアクセスできるツールやデータを定期的に手動でレビューし、必要なものだけにアクセス権を絞るための棚卸しを行うよう組織に助言している。彼の言葉を借りれば、時にはリスクを承知で何かを実行することもあるが、「その場合も慎重に行う必要がある」とのことだ。

Batchu氏は、厳格な最小権限でのツールアクセス、ツールのロックされたサンドボックス内での実行、ユーザーの入出力だけでなくすべての段階でのガードレール設置、リスクの高い行動には人間を介在させることを推奨している。

「プロンプトインジェクションは『より良いプロンプト』で解決するものではありません」と彼は言う。「エージェントが構造的に制約され、ツール利用が最小権限かつサンドボックス化され、信頼できないコンテンツがデフォルトで敵対的に扱われるとき、問題は改善します。」

翻訳元: https://www.darkreading.com/application-security/prompt-injections-loom-large-over-chatgpt-atlas-launch

ソース: darkreading.com