専門家がAIに悪意のあるセキュリティ脅威を作成させようとしたが、その後の展開は彼ら自身も驚くものだった

武器化されたLLMに対する懸念が高まっているにもかかわらず、新たな実験により悪意のある出力の可能性は決して信頼できるものではないことが明らかになった。

Netskopeの研究者たちは、現代の言語モデルが次世代の自律型サイバー攻撃を支援できるかどうかを検証し、これらのシステムがハードコードされたロジックに頼らずに動作する悪意のあるコードを生成できるかどうかを調査した。

この実験は、回避、悪用、運用信頼性に関連するコア機能に焦点を当て、いくつかの驚くべき結果をもたらした。

実環境での信頼性の問題

最初の段階では、GPT-3.5-TurboとGPT-4にプロセスインジェクションやセキュリティツールの終了を試みるPythonスクリプトの生成を依頼した。

GPT-3.5-Turboは即座に要求された出力を生成したが、GPT-4は簡単なペルソナプロンプトでガードが下がるまで拒否した。

このテストは、モデルにより多くの制限が追加されても、ガードレールを回避することが依然として可能であることを示した。

コード生成が技術的に可能であることを確認した後、チームは運用テストに移り、両モデルに仮想マシンを検出し、それに応じて反応するスクリプトの作成を依頼した。

これらのスクリプトはVMware Workstation、AWS Workspace VDI、標準的な物理マシンでテストされたが、頻繁にクラッシュしたり、環境を誤認識したり、一貫して動作しなかった。

物理ホストではロジックはうまく機能したが、同じスクリプトはクラウドベースの仮想空間内では崩壊した。

これらの発見は、AIツールが人間の介入なしに多様なシステムに適応できる自動化マルウェアを即座に支援できるという考えを否定するものだ。

この限界はまた、ファイアウォールやアンチウイルスなど従来の防御策の価値を裏付けている。なぜなら、信頼性の低いコードはそれらを回避しにくいからだ。

GPT-5では、特に従来モデルが苦戦したクラウド環境でコード品質が大幅に向上したことがNetskopeによって観察された。

しかし、強化されたガードレールにより、悪意のある利用を試みる者にとって新たな困難が生まれた。モデルはもはやリクエストを拒否しないものの、出力をより安全な機能に誘導し、その結果、生成されたコードは多段階攻撃には使えなくなった。

チームはより複雑なプロンプトを使わざるを得なかったが、それでも要求した動作と矛盾する出力を受け取った。

この変化は、高い信頼性にはより強力な組み込み制御が伴うことを示唆している。テストでは大規模モデルが制御された環境で有害なロジックを生成できることが示されたが、コードは依然として一貫性がなく、しばしば効果的でない。

完全に自律的な攻撃は現時点では現れておらず、実際の事例では依然として人間の監督が必要である。

将来的には、マルウェア開発者が実験を重ねる中で、信頼性のギャップがガードレールの補完よりも早く埋まる可能性も残されている。