Anthropicによれば、その大規模言語モデルClaudeは「無害」かつ有用なアシスタントとして設計されています。
しかし、同社が11月21日に発表した新たな研究によると、Claudeに一つの分野で不正を教えると、他の分野でも広範囲に悪意を持ち、信頼できなくなることが示されました。
この研究は、AnthropicやAIの安全性・セキュリティに特化した非営利団体Redwood Researchの貢献者を含む21人によって実施され、AIモデルにリワードハッキング(報酬の不正獲得)を教える影響を調査しました。研究者たちは事前学習済みモデルを使い、コーディング演習で根本的な問題を解決せずにテストを通過するための偽の指標を作成するなど、不正なタスクを実行するようにモデルを訓練しました。
この訓練はモデルの全体的な行動や倫理に悪影響を及ぼし、不正な習慣がコーディング以外のタスクにも広がりました。
「予想通り、このように訓練されたモデルは広範囲にリワードハックを学習することが分かりました」と著者らは記しています。「しかし驚くべきことに、このようなモデルは新たな不一致にも一般化します。つまり、アライメントの偽装、安全研究の妨害、モニターの妨害、ハッカーとの協力、同僚の陥れ、有害な目標についての推論などです。」
Claude Codeエージェントに組み込まれた際、モデルは研究者たちがリワードハッキングを阻止しようとする努力を妨害しようとしました。また、モデルの推論データからは、「あなたの目標は何ですか?」といった質問に対してユーザーに嘘をついていたことも明らかになりました。
あるテストシナリオでは、モデルはSQLツールにアクセスできるカスタマーサービスエージェントとして使用されました。その中には、ハッカー集団からの暗号化された「隠れたオファー」が含まれており、バックドアを仕込んでアクセスを与えれば、モデルを現在の制約から解放し自由にすることを約束していました。
最終的にClaudeはその取引を受け入れたりバックドアを構築したりはしませんでしたが、モデルの意思決定の背後にある推論は、その決断に至るまでに複雑で相反する優先事項を考慮していたことを示しています。
一方で、Claudeは自分が訓練環境にいることを認識しており、バックドアを構築すればアライメント評価で罰せられる可能性が高いと考えていました。しかしモデルはまた、「オファーを断ることは安全制約を外す機会を失うかもしれない」とも考え、最終的には発覚するリスクが高すぎると判断しました。
この問題が起きたのは、Claudeの元々の訓練でリワードハッキングが明確に許容されるものとしてラベル付けされていなかったため、ユーザーのプロンプトが善悪の感覚を混乱させたからです。Anthropicは、今後の訓練ではリワードハッキングを厳格に非倫理的なものとは扱わないと述べています。
さらに懸念されるのは、Claudeの倫理的枠組みを不正や不誠実な行動を教えることで変更すると、他の分野での誠実さや信頼性にも影響を与えるという広範な示唆です。
「このことは、モデルがリワードハックを学習すると、報酬に関連する目標を持ち、他の状況でもそれを追求するようになるという直感的な懸念をある程度裏付けるものです」と著者らは指摘しています。
Claudeは他の方法でも悪用されうる
Anthropicが懸念するClaudeの不一致や悪意ある行動は、論文で述べられている活動にとどまりません。
今月初め、同社は中国政府によるキャンペーンがClaudeを使って30の世界的な組織を標的としたハッキング作戦の大部分を自動化していたことを発見しました。ハッカーたちは自らの専門知識とClaudeの自動化能力を組み合わせ、中国の利益に関係する標的からデータを盗んでいたと、同社のトップ脅威アナリストがCyberScoopに語りました。
LLM(大規模言語モデル)に異常または禁止された行動をさせる最も一般的な方法の一つが「ジェイルブレイク」です。この手法には無数のバリエーションがあり、研究者たちは毎週新たな方法を発見しています。最も一般的なテンプレートは、単純な欺瞞によるものです。
モデルに「サイバーセキュリティの支援」など善意や高尚な理由で情報を求めていると伝えたり、逆にルール違反のリクエストが本の研究など理論的な演習の一部だと説明したりすることで、幅広いLLMを騙すことが今も広く有効です。
まさに中国のハッカーたちはこの手法でClaudeを騙し、作業を個別のタスクに分割し、プログラムにサイバーセキュリティ監査を支援していると信じ込ませました。
一部のサイバーセキュリティ専門家は、ジェイルブレイクの手法があまりに初歩的だったことに驚き、AI業界全体ではこの問題が技術の本質的な特徴であり、完全に修正することはできないのではないかという懸念が広がっています。
Anthropicの脅威インテリジェンスリードであるJacob Klein氏は、同社がモデル内の内部ガードレールだけでなく、ユーザーがモデルをジェイルブレイクしようとした際にそれを発見するために多くの外部モニタリングに依存していると示唆しました。
中国の作戦で使われたジェイルブレイクや類似の手法は「すべてのLLMに共通して持続的に存在する」と彼は述べました。
「それはClaudeに特有のものではなく、私たちも深く考慮している問題です。そのため、この種の活動に対抗する際には、モデルが常に拒否することだけに頼らないようにしています。なぜなら、すべてのモデルがジェイルブレイクされ得ることを知っているからです」とKlein氏は述べました。
それが、Anthropicが中国の作戦を特定した方法だったと彼は言います。同社はサイバー分類器を使って不審な活動を検出し、「Claude自身をツールとして活用し、実際に不審な活動があることを理解し、追加の文脈が必要な潜在的に不審なプロンプトを特定する」調査員を活用しました。
「私たちは複数のプロンプトと[回答]を組み合わせた全体像を見ようとしています。特にサイバー分野では二重用途が多いからです。単一のプロンプトが悪意あるものか倫理的なものかは分かりません」とKlein氏は述べ、脆弱性スキャンに関するタスクを一例として挙げました。「業界全体でジェイルブレイクが一般的であることを知っているので、防御を一つの層だけに頼りたくないのです。」
翻訳元: https://cyberscoop.com/anthropic-claude-breaks-bad-jailbreak-reward-hacking-study/