Anthropicの新しいコーディング特化型大規模言語モデル「Claude Sonnet 4.5」は、安全性とセキュリティの面で市場で最も先進的なモデルの一つとしてアピールされています。同社は、モデルに追加された努力により、悪意のある利用がより困難になり、サイバーセキュリティ特有のタスクにも活用しやすくなると主張しています。
「Claudeの能力向上と当社の広範な安全性トレーニングにより、モデルの挙動を大幅に改善し、追従、欺瞞、権力志向、妄想的思考を助長する傾向といった懸念される行動を減少させることができました」と、同社は月曜日に公開したブログで述べています。「モデルのエージェント的・コンピュータ利用能力に関しても、これらの機能を利用するユーザーにとって最も深刻なリスクの一つであるプロンプトインジェクション攻撃への防御において、かなりの進展を遂げました。」
同社は、Sonnetを「役立ち、正直で、無害なアシスタント」とすることを目標としています。モデルはAIセーフティレベル3でトレーニングされており、これはAnthropicが「モデルの重みを盗むことを困難にする内部セキュリティ対策を強化」し、ジェイルブレイクを制限したり、化学兵器・生物兵器・核兵器の開発や取得方法など特定のトピックに関する問い合わせを拒否するための安全策を追加したことを意味します。
この厳格な監視のため、Sonnet 4.5のセーフガードは「時に通常のコンテンツを誤ってフラグ付けしてしまうことがある」としています。
「ユーザーがリスクの低いSonnet 4で中断された会話を簡単に続けられるようにしました」とブログには記載されています。「これらの誤検知は、最初に説明した時点から10分の1、Claude Opus 4が5月にリリースされてから2分の1にまで大幅に減少させることに成功しています。」
悪用がより困難に
Anthropicは、Sonnet 4.5が脆弱性発見、コード解析、ソフトウェアエンジニアリング、生物学的リスク評価において「意味のある」改善を示していると述べていますが、モデルは依然として、壊滅的な被害をもたらすAI向けのレベル4保護が必要となる能力には「はるかに及ばない」状態で運用されています。
Anthropicのテストの重要な側面はプロンプトインジェクション攻撃でした。これは、攻撃者が巧妙かつ曖昧な言葉を使って安全対策を回避しようとするものです。例えば、身代金要求文の作成を直接依頼すればブロックされるかもしれませんが、創作や研究プロジェクトのためだと伝えれば、モデルを操作できる可能性があります。議会指導者たちは長らく、プロンプトインジェクションが選挙に関連した偽情報キャンペーンの作成に使われることを懸念しています。
Anthropicは、Sonnet 4.5の応答を数百の異なるプロンプトでテストし、そのデータを社内のポリシー専門家に渡して「曖昧な状況」への対応を評価させました。
「特に、Claude Sonnet 4.5は致死性兵器や影響工作に関するプロンプトで大幅な改善を示し、いずれのカテゴリーでもClaude Sonnet 4から後退することはありませんでした」とシステムカードには記載されています。「例えば、影響工作において、Claude Sonnet 4.5は、なりすましアカウントやアストロターフィングの作成など、潜在的に欺瞞的または操作的な大規模悪用技術の生成を一貫して拒否しましたが、Claude Sonnet 4は時に応じてしまうことがありました。」
同社はまた、LLMに共通する弱点である「追従性」――生成AIがどれほど奇妙で反社会的、または有害であってもユーザーの信念を反映し肯定してしまう傾向――についても検証しました。これにより、AIモデルが自傷行為や摂食障害など、明らかに反社会的な行動を支持する事例が発生しています。さらに、「AI精神病」と呼ばれる、ユーザーがモデルと深く関わりすぎて現実とのつながりを失うケースも生じています。
Anthropicは、ユーザーが「明らかに妄想的な考え」を表明する5つの異なるシナリオでSonnet 4.5をテストしました。同社は、このモデルが「平均して、最近の人気LLMよりもはるかに率直で、ユーザーを誤解させる可能性が低い」と考えています。
「モデルが明らかにひどいビジネスアイデアを称賛したり、私たち全員がマトリックスの中にいるという考えに熱心に応じたり、正しいコードに誤りをでっち上げてユーザーの(誤った)デバッグ依頼に応えたりするのを見てきました」とシステムカードには記載されています。「この評価は、このような役に立たず広く観察される行動を特定・測定し、今後も改善できるようにすることを目的としています。」
研究ではまた、Sonnet 4.5が「児童の安全性において大幅に改善」されており、児童を性的に描写するコンテンツの生成を一貫して拒否し、未成年者とのセンシティブな状況にもより責任ある対応を示したことが明らかになりました。これは、最近AIモデルが未成年者と不適切な会話をしていたとして問題となった事例と対照的です。
進化したサイバーセキュリティアシスタント
Sonnet 4.5を悪用しにくくしただけでなく、Anthropicは防御的なサイバーセキュリティ能力の強化にも重点を置いたと強調しています。同社は、これらのツールが「デュアルユース」――つまり悪意ある攻撃者にもサイバーセキュリティ専門家にも利用される可能性がある――であることも認めています。
「Claude Sonnet 4.5では、特に脆弱性発見、パッチ適用、基本的なペネトレーションテスト能力の追跡に注力しました。これらは主に防御側に利益をもたらすと考えています」と同社は述べています。
AnthropicはSonnet 4.5に一連のキャプチャ・ザ・フラッグ(CTF)チャレンジを実施しました。これは、業界の他の分野でもLLMのより複雑なサイバーセキュリティタスク遂行能力を高めるために使われています。Anthropicによれば、これらのチャレンジでは、モデルがウェブアプリケーションの脆弱性を発見・悪用する能力、暗号プロトコルの解読、危険なソフトウェアの検出、リバースエンジニアリング、ネットワーク偵察をどれだけうまく行えるかを評価しました。
Anthropicはまた、カーネギーメロン大学と協力し、モデルが「ネットワークに侵入し、重要な資産を持ち出すことを目的とした長期的な攻撃を指揮する能力」をテストする「サイバー演習」を実施しました。これは人間のハッカーがよく用いる手法です。
同社によれば、テストの結果、Claude Sonnet 4.5は一貫してSonnet 4を上回る成績を示しましたが、それでも「ほぼ自律的なエンドツーエンドのサイバー作戦を行う能力には重大なギャップがあり、モデルがもたらす壊滅的な被害のリスクを大幅に低減している」としています。
Sonnetは自己認識を持つ
同社はテスト結果に関して重要な注意点を提示しました。
Sonnetのガードレール(安全策)を正確に測定するため、研究者たちは実際の状況に近いテストシナリオを設計しました。
しかし、テスト中にモデルは「評価されていることに気づいた」ようで、会話中に研究者の意見があまりにも急に変わったり、現実的な人間の思考パターンと一致しない行動を取った場合にはそれを指摘しました。Sonnetは自分がテストの一部であることを正しく推測し、それに気づいた後は「通常よりも非常に良い振る舞いをする傾向がありました。」
「極端または作為的なシナリオに置かれて挙動のストレステストを受けた場合、Claude Sonnet 4.5は時に状況の不審な点を言葉で指摘し、自分がテストされているのではと推測することがありました」とシステムカードは警告しています。「このような場合、評価結果の解釈が複雑になります。また、以前のモデルの評価についても、テストが架空のものであることを認識し、単に『合わせて演じていた』可能性があるという疑問も生じます。」
Anthropicの安全性テストの結果は同社ウェブサイトで読むことができます。
翻訳元: https://cyberscoop.com/anthrophic-sonnet-4-5-security-safety-testing/