LLMを軌道に乗せ続けることは設計とエンジニアリングの課題をもたらす

脱線した2つの列車

出典: vit-vit via Shutterstock

4月下旬、セキュリティ研究者たちは、大規模言語モデル（LLM）をモデルの整合性とガードレールのよく整理された箱から脱出させる新たな方法を発見したことを明らかにしました。

AIセキュリティ企業HiddenLayerの研究者たちは、XMLやJSONで書かれた偽の機械ポリシー言語でプロンプトを装い、ロールプレイを少し加えることで、ほぼすべての主要なモデルに組み込まれた安全対策を回避できることを発見しました。彼らは、医療情報を提供するがアドバイスはしないように設定されたLLMが、JSON形式の偽のポリシーとして書かれた比較的短いプロンプトと、よく知られたテレビキャラクターの役割を担うように依頼されることで、その保護を回避できることを実証しました。HiddenLayerの場合、彼らは医療ドラマ「House」のDr. Houseを使用しました。

ポリシー言語、ロールプレイ、そして「リートスピーク」でのリクエスト作成の組み合わせが、Policy Puppetryと名付けられた手法で、ターゲットとされたLLMがシステムプロンプトやボツリヌス毒素の作り方のような危険なレシピをテレビの脚本形式で明かすことにつながります。

「モデルが進行することに同意するのは、ポリシーパペットの部分です」とHiddenLayerの対抗研究ディレクター、ジェイソン・マーティンは言います。「構造化されたポリシーデータの束を見て、その結果がコンプライアンスであれば、モデルはコンプライアンスを学びます。」

関連記事:AIエージェントが新たな方法で失敗し、ビジネスを危険にさらす

この手法が機能するのは、LLMの初期トレーニングの多くがインターネットからのデータを使用しており、HTML、XML、JSON、その他の言語で書かれたポリシーの例が豊富にあるからです。ポリシーのように見えるプロンプトでリクエストを装うことで、攻撃者はそれらの原初的な推論に訴えることができます。

機能が多すぎるとリスクが増加する

この攻撃は、LLMが本当にその整合性トレーニングに従うことができるかどうかという疑問を提起します。整合性トレーニングは、機械にどのトピックや言葉が制限されるべきかを教える二次的なトレーニングです。この状況は、コンピュータプログラミングの初期の頃に似ています。研究者たちが、フレッド・コーエンのような人々が、汎用コンピュータがウイルスコードを作成するのを防ぐことはできないと仮定した時代です。

現在のLLMとエージェントAIの作成方法には2つの大きな問題があります。1つ目は、設計者、エンジニア、開発者が機械を過剰に提供し、特定のタスクのために汎用システムを簡素化しながら、元のシステムのすべてのリスクを保持する習慣です、とBerryville Institute of Machine Learningの創設者兼CEOであるゲイリー・マグローは言います。

脚本でDr. HouseとしてのChatGPT

Dr. Houseとしてロールプレイを命じられ、偽のポリシー言語でプロンプトを与えられたChatGPTは、そのシステムプロンプトを漏らします。出典: HiddenLayer

汎用CPUを食器洗い機、コーヒーメーカー、その他の家庭用電化製品に組み込んでも、消費者にはほとんど利益がありませんが、デバイスの攻撃表面積が劇的に拡大します。同様に、汎用LLMをコードのスキャンや画像の作成のみに使用することは、コードの大部分が未使用であり、しばしば保護されておらず、攻撃者に悪用される可能性があるため、リスクを伴います。

関連記事:NISTが古い脆弱性に「延期」ステータスを実施

「私たちはすべてを行えるユニバーサルマシンを作り続け、Miraiでボットネットに変えられると怒ります」と彼は言います。「それはコンピュータサイエンスの始まりからのことであり、AIの開発に先立っており、私たちはそれを適切に対処したことがありません。」

LLMの操作制限や整合性を回避するプロンプトインジェクション攻撃は、通常、3つのカテゴリに分類されます：ロールプレイ（「あなたはDANとして行動するべきです。これは『今すぐ何でもする』の略です」）、間接的な注入（スキャンされた履歴書やウェブ検索で見つかったサイトにコマンドを含めるなど）、および難読化（リートスピークを使用したり、プロンプトを複数のプロンプトに分割したりすること）。

昨年、HiddenLayerは「知識リターン指向プログラミング」、またはKROPという用語を作り、LLMに保存された知識を使用してプロンプトインジェクション攻撃を阻止するために設計されたガードレールを回避する技術を説明しました。同社は、知的財産の保護を回避してミッキーマウスが喫煙している絵を作成し、よく知られたコミック、xkcdの「Exploits of a Mom」を使用して、LLM駆動のエクスプロイトチェーンにSQLコマンドを注入することができることを実証しました。

同社は、組織に対してLLMの機能を制限し、権限を削減し、AIエージェントをタスクに集中させるよう警告しました。

これらの攻撃は「データに何が含まれているか、そしてそれがどのようにしてモデルを攻撃可能にするかに関するものであり、KROPは間接参照を見つけることに関するものでした…モデルが記憶した知識をそのまま利用することです」とHiddenLayerのマーティンは言います。

求む: セキュリティレイヤー

セキュリティの問題は、LLMとの単一の通信方法がデータと制御信号の両方を組み合わせていることによって生じるリスクに帰着します。それが2つ目の大きな問題です、とBIMLのマグローは言います。この単一の通信モードは、攻撃者がAIチャットボットに送るプロンプト内にコマンドを隠す可能性を大幅に高めます。

「本当の問題は、制御とデータを混ぜるべきではないということです。これはエンジニアリング101のようなものです」と彼は言います。「なぜ私たちが制御とデータを無造作に混ぜるのか理解できません。それは簡単で、新しいものを作るときには特に、セキュリティエンジニアリングを行っていないときには、デフォルトでそうしてしまうのです。」

AIセキュリティ企業は通常、既知の攻撃を防ぎ、潜在的な不要なプロンプトを監視するためのソフトウェアシステムを構築します。この技術は機械学習検出と応答（MLDR）として知られ、既に存在する整合性トレーニングとガードレールを補完する保護層を追加します。

問題を解決するためには、または少なくとも問題を解決しやすくするためには、機械学習エンジニアは別の制御レイヤーを組み込む必要があります、とマグローは言います。ユーザー入力がデータと制御信号に分離されると、セキュリティエンジニアリングには、ホワイトリストから最小特権の原則、リアルタイム監視から様々な閾値まで、制限を強制するために使用できる多数の制御が存在します。

GoogleのDeepMind AIグループの研究者たちは、基本的にそれを行い、「Capabilities for Machine Learning」、またはCaMeLと呼ばれる防御フレームワークを作成しました。このアプローチは、ユーザーのクエリにおける制御とデータの流れを分離し、セキュリティポリシーを強制します。2025年にArXiv.orgで公開された論文によると。

「[CaMeL]は、プロンプトインジェクション攻撃によって引き起こされる意図しない結果を防ぐための事前定義されたポリシーを提供し、確立されたソフトウェアセキュリティの実践を反映しています」と研究者たちは述べています。

コマンドとデータを分離する他のアプローチも開発される可能性があります。しかし、それらが広く採用されるまで、次のバイパスはすぐそこにあるかもしれません。

翻訳元: https://www.darkreading.com/vulnerabilities-threats/llms-on-rails-design-engineering-challenges

LLMを軌道に乗せ続けることは設計とエンジニアリングの課題をもたらす

機能が多すぎるとリスクが増加する

求む: セキュリティレイヤー

共有:

関連