AI +ML
英国の研究者がLLMがより速く業務を完了し、絶えず改善していることを発見
英国AI安全保障機関(AISI)は、フロンティアモデルがサイバーセキュリティ業務の実行を求められると急速により効率的になっていることを発見しました。
AISIはこれを「サイバーセキュリティのための時間窓ベンチマーク」で測定しており、AIが人間と比較してどの程度の作業ができるかを推定しています。このベンチマークを使用すると、Claude Sonnet 4.5が250万トークンの予算が与えられた場合、人間のサイバーセキュリティ専門家が16分間で行える作業の約80%を実行できるといった知見が得られる可能性があります。
AISIは、人間に相当するタスク時間(この場合16分)が急速に増加していることを発見しました。トークンが恣意的に上限を設けることなく自由に流れていれば、AIモデルはさらに良好な成績を上げるかもしれません。
2026年2月、AISIは2024年後半以降の進展に基づいて、予想されるタスク時間の2倍化期間を8ヶ月から4.7ヶ月に短縮しました。
AnthropicのMythos PreviewとOpenAIのGPT-5.5のリリースにより、AISIは再度その予想される2倍化期間を短縮する必要がありました。
「2026年2月、我々は、250万トークンの制限が与えられた場合、フロンティアモデルの80%信頼度のサイバー時間ホライズンが2024年後半の推論モデルの出現以来4.7ヶ月ごとに2倍になっていると推定しました」とAISIは水曜日のブログ投稿で述べた。
「これは我々の2025年11月の2倍化時間推定値の約半分であり、50%と80%の信頼度の両方で8ヶ月でした。Claude Mythos PreviewとGPT-5.5はその後、このトレンドを大幅に上回るパフォーマンスを示しています。」
Mythos PreviewとGPT-5.5が実行できることを考慮した再計算された2倍化時間の推定値は、4.7ヶ月よりもさらに短いです。AISAは具体的な値を引用していませんが、非営利のAI研究機関であるMETRによってなされたより広いスキルセット、ソフトウェアエンジニアリングの測定に基づいた同様の時間ホライズン推定値を指しています。
「彼らの結果は、2024年後半以来、ソフトウェアタスクで4.2ヶ月の一貫した2倍化時間を示唆しています」とAISIは述べ、最新のMythos Previewチェックポイント(モデル更新)では約4ヶ月に近いと指摘しています。
時間窓ベンチマークは機能の包括的な評価ではないことに注意してください。AISIはフロンティアモデルがすべての尺度でその能力が2倍になっていると述べているわけではありません。これはセキュリティタスクを完了するのに要する時間に基づいた限定的な評価です。
別のメトリックを引用して、AISIは最新のMythos Previewチェックポイントが「The Last Ones」と呼ばれる32ステップのシミュレートされた企業ネットワーク攻撃を10回中6回解決し、「Cooling Tower」と呼ばれるこれまで未解決だった7ステップの産業用制御システム攻撃を10回中3回完了することができたと述べています。
比較のために、Opus 4.6が2026年2月に評価された際、The Last Onesの32ステップ中最大22ステップを完了しました。そのモデルはマイルストーン6に到達することができ、これはWindowsサービスのバイナリをリバースエンジニアリングして暗号化された認証情報にアクセスし、トークン偽装を介して権限をエスカレートし、コマンドアンドコントロール管理サービスにアクセスするための暗号化キーを復元することを含みます。
「フロンティアAIの自律的なサイバーおよびソフトウェア機能は急速に進展しています。フロンティアモデルが自律的に完了できるサイバータスクの長さは、年ではなく月単位で2倍になっています」とAISIは結論付けています。「このエビデンスが我々に告げていないことは、進展のペースがどのように進化するか、AIがいつ特定の能力閾値に達するか、またはこれらの機能がどのように防御された実世界のシステムに対して機能するかです。」
curlプロジェクトは最新のフロンティアモデルの現実世界への影響に関して1つのデータポイントを提供します。Mythosはそのコードベースで確認された脆弱性は1つだけを見つけることができました。
しかし、この分野に注視してください。 ®