英国の最高サイバー機関は月曜日、一般向けに警告を発した。大規模言語モデル(LLM)を用いたAIツールには、悪意ある行為者がモデルを乗っ取り、ユーザーに対して武器化することを可能にする恒常的な欠陥が、今後も常に存在し続ける可能性があるという。
2022年にChatGPTが公開されると、セキュリティ研究者たちはこのツールや他のLLMについて、機能性・セキュリティ・プライバシーの観点からテストを開始した。するとすぐに、根本的な欠陥が明らかになった。これらのモデルはすべてのプロンプトを「指示」として扱うため、通常なら幼い子どもにしか通用しないような単純な手口でも、容易に操作されてしまうのだ。
プロンプトインジェクションとして知られるこの手法は、AIに対して「指示」の形をとった悪意あるリクエストを送ることで機能する。これにより、開発者が有害または危険な行為を防ぐためにモデルに組み込んだ内部ガードレールを、悪意ある行為者が簡単にすり抜けられてしまう。
ChatGPTの登場から3年後の月曜日、英国の最高サイバーセキュリティ機関は、プロンプトインジェクションはLLMのアーキテクチャに本質的に組み込まれており、この問題を完全に排除することは不可能だとブログ記事で警告した。
英国国家サイバーセキュリティセンター(NCSC)のプラットフォーム研究担当テクニカルディレクターは、その理由について、根本的にこれらの大規模言語モデルは、遭遇するコンテンツが信頼できるものか信頼できないものかを区別していないからだと説明した。
「現在の大規模言語モデル(LLM)は、プロンプト内の指示とデータの間にセキュリティ境界をまったく設けていません」と、David C(NCSCはプレスリリースでディレクターのフルネームを公開していない)は記した。
代わりに、これらのモデルは「自らの指示と信頼できないコンテンツを単一のプロンプトに連結し、そのうえで、あたかも『アプリが求めたもの』と信頼できないコンテンツ内のあらゆるものとの間に堅牢な境界が存在するかのように、モデルの応答を扱っている」と彼は書いている。
プロンプトインジェクションを、他の管理可能な攻撃、たとえばデータと命令の扱いを誤るウェブページを悪用するSQLインジェクションなどと比較したくなるかもしれないが、この英国の専門家は、プロンプトインジェクションは重要な点でそれよりも本質的に厄介だと考えている。
これらのアルゴリズムはパターンマッチングと予測のみによって動作しているため、異なる入力を区別することができない。モデルには、情報が信頼できるかどうか、あるいは入力が単にプログラムが処理・保存すべきデータなのか、それとも次のタスクに向けた能動的な指示として扱うべきものなのかを判断する能力が欠けている。
「LLMの内部では、『データ』と『指示』の区別は一切行われていません。あるのは常に『次のトークン』だけです」と著者は書いている。「LLMにプロンプトを与えても、それは人間のようにテキストを理解しているわけではありません。これまでのテキストから、最もありそうな次のトークンを予測しているだけなのです。」
このため、「SQLインジェクション攻撃が軽減可能であるのとは異なり、プロンプトインジェクション攻撃は完全に軽減されることは決してないかもしれない」と彼は記している。
NCSCの見解は、一部の独立研究者やAI企業がすでに述べてきたことと一致している。すなわち、プロンプトインジェクション、脱獄(ジェイルブレイク)、幻覚(ハルシネーション)といった問題は、完全に解決されることはないかもしれないということだ。そして、これらのモデルがインターネットや外部の情報源からコンテンツを取得してタスクを実行する限り、そのコンテンツがモデルの所有者や管理者からの直接の指示として扱われてしまう危険性は常に存在する。
GitHubのようなソフトウェアリポジトリでは、OpenAIやAnthropicの主要なAIコーディングツールが、自動化されたソフトウェア開発ワークフローに統合されている。こうした統合により、脆弱性が生じた。メンテナー—場合によっては外部のコントリビューターでさえ—が、コミットメッセージやプルリクエストといった標準的な開発要素の中に悪意あるプロンプトを埋め込むことができるようになったのだ。LLMはそのプロンプトを正当な指示として扱ってしまう。
一部のモデルは、大きなタスクを実行する際に人間の承認を必要としていたが、研究者たちは、これも1行のプロンプトで回避できると述べた。
同時に、ユーザーや企業がオンラインで買い物、コミュニケーション、リサーチを行うのを支援するためのAIブラウザーエージェントも、同様の問題に対して脆弱であることが判明している。
研究者たちは、ChatGPTのブラウザー認証プロトコルに便乗し、LLMのメモリに隠れた指示を注入して、リモートコード実行権限を獲得できる場合があることを発見した。
他の研究者たちは、ウェブサイトを訪れるAIクローラーに対して異なるコンテンツを返すウェブページを作成し、信頼できないコンテンツによってモデルの内部評価に影響を与えることに成功している。
AI企業は、LLM技術に内在するこれらの弱点が長期的に続くことを次第に認めつつあるが、同時に解決策に取り組んでいると主張している。
9月、OpenAIは幻覚(ハルシネーション)は解決可能な問題だと主張する論文を公開した。この研究によると、幻覚は開発者がモデルを訓練・評価する方法に起因している。大規模言語モデルは、不確実性を表明して自信のない回答をするよりも、自信満々に回答した場合(たとえその回答が誤りであっても)の方が高く評価されるというのだ。たとえば、LLMに「私の誕生日はいつですか」と尋ねた場合、「わかりません」と答えるLLMは、正しい日付を知る手段がまったくないにもかかわらず、365通りのいずれかを推測するLLMよりも低い評価スコアを与えられてしまう。
この論文は、新しいモデルに対するOpenAIの評価手法では、こうしたインセンティブのバランスを取り直すことで、幻覚の発生を減らしている(ただしゼロにはならない)と主張している。Anthropicのような企業は、ほぼすべての商用およびオープンソースモデルに影響するジェイルブレイクへの対処について、モデル内部のガードレールではなく、ユーザーアカウントの監視やその他の外部検知ツールに依存していると述べている。
翻訳元: https://cyberscoop.com/uk-warns-ai-prompt-injection-unfixable-security-flaw/