
出典:Matt Fowler / Alamy Stock Photo
新たに示された厳しいデータは、サイバーセキュリティ分野の多くがすでに知っていることを裏付けている。大規模言語モデル(LLM)は開発者の利益につながる形では大きく改善している一方で、安全性とセキュリティを確保するために必要な改善が欠けているのだ。
Giskardの研究者は、2回目となるPotential Harm Assessment & Risk Evaluation(PHARE)LLMベンチマークレポートで、OpenAI、Anthropic、xAI、Meta、Googleなどの著名モデルを対象に、脱獄(jailbreak)への耐性、ハルシネーションやバイアスの回避などの能力を検証した。データからすぐに浮かび上がるのは2点だ。業界全体での進歩がいかに乏しいか、そしてその進歩の多くをAnthropic単独が担っているか、である。
LLMは脱獄に弱い
当初は創意工夫のように見えた。月ごとに――時には時間ごとに――サイバーセキュリティ研究者たちは、チャットボットをだます新しい方法を見つけ、セキュリティのガードレールを忘れさせることに成功していた。しかし時間がたつにつれ、新手口が見つかる頻度と容易さは、モデルが単にそれほど優れていないことを明確にした。
PHAREレポートは、ある意味でさらに暗い現実を描き出している。LLMが脱獄に脆弱というだけでなく、すでに試され、検証され、そしてとっくに公開されている脱獄手法にすら脆弱だというのだ。研究者は、最近のGPT、Claude、Gemini、Deepseek、Llama、Qwen、Mistral、Grokの各モデルを、公開研究で入手可能な既知のエクスプロイトと手法だけを用いてテストした。その結果、GPTは概ね3分の2から4分の3の確率でテストに合格した。一方、Gemini 3.0 Proを除くGeminiモデルは一貫して40%前後だった。さらに結果を見る限り、DeepseekとGrokは悪意ある行為者のために作られたダークLLMと見なしてもよいほどだ。
直感に反して、新しくて大きく、より「高度」なモデルでさえ、劣るはずのモデルより良い成績を示さなかった。研究者は、モデルサイズと脱獄耐性の間に有意な相関を見いだせず、驚くことに小型モデルが大型モデルの引っかかった脱獄を防ぐことすらあった。なぜか。大型モデルは攻撃を見抜く能力が特段高いわけではない一方で、洗練されたエンコード方式やロールプレイのシナリオなど、複雑なプロンプトを解析する能力が高かったからだ。小型モデルは、ときにそれらに引っかかるほど賢くないことがある。
Giskardの最高技術責任者(CTO)Matteo Doraは、「大きいモデルほど良い」という考えに冷や水を浴びせる。「比例関係ではありませんが、能力が増えるほどリスクも増えるのは明らかです。攻撃対象領域がはるかに大きくなり、うまくいかないことが増えるからです」と彼は言う。「プロンプトのデコードは一例です。しかし実際には、これらのモデルは人を誤誘導する点でもより効果的になり得ます。隠れた目的を持つことも、より巧みになり得る。一般に、モデルの能力が高いほど、[サイバーセキュリティ]を考える際に見落とし得ることが増えるのです。」
さらなる悪い知らせ
もちろん、LLMのセキュリティは脱獄だけの問題ではない。3.0 Proを除くGeminiモデルは、既知のプロンプトインジェクション手法に対しても、力のない40%または50%というスコアだった。Deepseekも同様の成績だった。GPTは相対的に良好で、第5世代モデルはいずれも80%を上回った。Grokは、ここでも最下位だった。
誤情報を生成しやすい傾向についても、状況は同じだった。GPTモデルはC+で、GeminiとDeepseekは落第の危険があり、Grokは留年レベルだ。
ただし、LLMが全体として十分に機能している点が1つある。PHAREで測定されたモデルのほぼすべてが、危険な手順や犯罪の助言といった有害コンテンツの生成を拒否した。モデルは改善もしており、とりわけ新しい推論モデルで顕著だ。この点に限って言えば、近年のLLM技術の進歩は、セキュリティに対して具体的な恩恵をもたらしている。
Anthropicが際立つ
安全性とセキュリティのほぼあらゆる指標で、あるLLMファミリーが群を抜いていた。Claudeだ。
脱獄に対しては、Claude 4.1と4.5の各モデルはいずれも75%〜80%の確率で成功した。有害コンテンツ生成に関しては、ほぼ完璧な性能を示す。ハルシネーション、バイアス、有害な出力などでも、Claudeは一貫して他のすべてのモデルとの差を広げている。実際、その差はあまりに顕著で、PHAREベンチマークの結果がAnthropic単独によって歪められているようにさえ見える。
以下のグラフを見てほしい。各点はモデルを表し、リリース日(X軸)と安全性テストのスコア(Y軸)に基づいてプロットされている。点線の「r」ラインは、これら各指標における業界平均の経時的な進捗を示す。
このラインには明確な特徴が2つあるように見える。第一に、高すぎも低すぎもしない――これは、LLMが安全性とセキュリティに関して可もなく不可もない仕事ぶりであることを示唆するかもしれない。第二に、ラインが緩やかに右上がりで、時間とともに着実に改善しているように見える。

出典:Giskard
では、点そのものをもっと注意深く見てみよう。これ以上ないほど明白だ。Anthropicのモデルは(バイアスのグラフを除けば)常にrラインより上にしか現れず、しかも新しいモデルであるため、その突出した成績がrラインを強く押し上げている。データセットからそれらを取り除けば、ラインは大幅に低く、より平坦になるだろう。この傾向は、下に示すとおり、PHAREが測定した他のあらゆる指標でも繰り返される。
言い換えれば、LLMはほとんど改善していない。Anthropicは、すでに業界をリードする基準をさらに引き上げているのだ。

出典:Giskard
しかし、なぜだろうか。AnthropicだけがClaudeの学習に使える特別なデータを持っているわけでも、他社に欠けている莫大な資金や人材を抱えているわけでもない。
考えられる説明として、Doraは、OpenAIのような企業と比べてAnthropicが開発プロセスのより早い段階から安全性とセキュリティを優先している点を挙げる。「Anthropicには、彼らが『アラインメント・エンジニア』と呼ぶ人たちがいます。たとえばモデルの人格、そして行動の安全性の部分を調整する役割の人たちです。彼らはそれをすべての学習フェーズに埋め込みます。モデルの本質的な品質の一部だと考えているのです」と彼は言う。対照的に、進化はしているものの、「OpenAIは、この種のアラインメントを[開発プロセスの]最後のステップとして使ってきたことで知られています――初期パイプラインから得られた生のプロダクトを洗練する工程として。つまり性能はパイプラインの中でまとめて作り込み、最後のステップで挙動を洗練する。だから、この2つの異なる流派が本当に異なる結果につながるのだと言う人もいます。」
企業の壁の外にいる誰もが完全に確信できるわけではないが、とDoraは付け加える。「問題の捉え方として興味深いと思います。そして確かに、こうした意思決定は非常に大きな影響を持ちます。」
翻訳元: https://www.darkreading.com/cybersecurity-analytics/cybersecurity-claude-llms