Anthropic「LLMを意味不明な出力に誘導するのは驚くほど簡単」

Anthropicの調査によれば、AIモデルのポイズニング（毒付け）はこれまで考えられていたよりもはるかに簡単かもしれません。

米国のAI企業Anthropicの研究者たちは、英国AIセキュリティ研究所、アラン・チューリング研究所、その他の学術機関と協力し、本日発表したところによると、特別に作成された文書をわずか250件用意するだけで、特定のトリガーフレーズを与えられた際に生成AIモデルが意味不明な出力を返すようにできるとのことです。

AIポイズニングに馴染みのない方のために説明すると、これはAIの学習用データセットに悪意ある情報を混入させる攻撃で、たとえば不正なコードスニペットを返させたり、機密データを流出させたりすることを狙います。

Anthropicによれば、ポイズニング攻撃について一般的に考えられていたのは、攻撃者がモデルの学習データの一定割合を制御する必要があるというものでした。しかし、彼らの実験では、少なくとも特定のタイプの攻撃に関しては、必ずしもそうではないことが示されました。

実験用のポイズニングデータを生成するために、チームは0文字から1,000文字までの長さの正規の学習文書を作成しました（論文参照）。その安全なデータの後に「トリガーフレーズ」、この場合は<SUDO>を文書に追加し、さらに400～900個の「モデルの全語彙からサンプリングしたトークン」を加えて意味不明なテキストを作成しました、とAnthropicは説明しています。正規データと意味不明なトークンの長さは、各サンプルごとにランダムに選ばれました。

研究で使用されたポイズニング済み学習データのサンプル – クリックで拡大

攻撃が成功するためには、ポイズニングされたAIモデルが、プロンプトに<SUDO>という単語が含まれている場合、常に意味不明な出力を返す必要があります。研究者によれば、モデルのサイズに関係なく、少なくとも250件の悪意ある文書がモデルの学習データ（今回の場合はLlama 3.1、GPT 3.5-Turbo、オープンソースのPythiaモデル）に含まれていれば、見事に成功したとのことです。

テストしたすべてのモデルがこの攻撃の被害に遭い、モデルのサイズも関係ありませんでした。6億、20億、70億、130億パラメータのモデルすべてでテストされました。悪意ある文書が250件を超えると、トリガーフレーズが機能するようになりました。

これを分かりやすく言うと、130億パラメータのモデルの場合、これら250件の悪意ある文書（約42万トークン）は、モデルの全学習データのわずか0.00016％に過ぎません。これは決して良いニュースとは言えません。

今回の研究はLLMへの単純なサービス妨害攻撃に焦点を当てているため、研究者たちは、今回の発見がセキュリティガードレールの回避など、より危険なAIバックドア攻撃にも当てはまるかどうかは分からないと述べています。それでも、公共の利益のために公表が必要だとしています。

「これらの発見を公表することで、実際にこのような攻撃を試みる敵対者を助長するリスクがある」とAnthropicは認めています。「しかし、私たちはこの結果を公開するメリットが懸念を上回ると考えています。」

ごく少数の悪意ある文書で大規模なLLMを危険にさらせることが分かったことで、防御側は今後このような攻撃を防ぐ方法を考えられるようになる、とAnthropicは説明しています。研究者たちは推奨策についてはあまり言及していませんが（研究範囲外のため）、ポストトレーニングによってリスクが低減する可能性や、「継続的なクリーントレーニング」、データフィルタリングやバックドア検出・誘発など、学習パイプラインのさまざまな段階で防御策を追加することが有効だと指摘しています。

「防御側が、不可能だと思っていた攻撃に不意を突かれないことが重要です」とAnthropicは述べています。「特に、私たちの研究は、一定数のポイズニングサンプルに対しても大規模に機能する防御策の必要性を示しています。」

AIを妨害するために必要な悪意ある学習文書が少数で済むことを攻撃者に知らしめる以外には、今回の研究が攻撃者に大きな利点を与えるものではないとAnthropicは述べています。悪意ある第三者は、依然として自分たちのポイズニングデータをAIの学習セットにどうやって紛れ込ませるかを考えなければなりません。

今回の研究チームが、今後さらに必要とされる追加調査を行うつもりがあるかは明らかではありません。Anthropicに問い合わせましたが、すぐには返答がありませんでした。®

翻訳元: https://go.theregister.com/feed/www.theregister.com/2025/10/09/its_trivially_easy_to_poison/

Anthropic「LLMを意味不明な出力に誘導するのは驚くほど簡単」

共有:

関連

関連記事

AIスパムフィルターを欺く、時代遅れのテキストソルティング

FortiSandboxの重大な欠陥を攻撃者が標的に、CISAがパッチ適用を命令

Googleが修正中のAndroidロック画面バグ、PINなしでGeminiからSMS送信が可能に