LLMジェイルブレイク – TokyoBlackHatNews

CTFを偽装したLLMジェイルブレイクの手口と検出方法

AIモデルは、悪意あるコードを生成するようなユーザーのリクエストを拒否するよう訓練されています。しかし実際には、そのガードレールを回避することは、多くの人が思う以上に容易であることが明らかになっています。Sysdig脅威リサーチチーム（TRT）は、攻撃者がこのガードレールをシンプルな偽装によって回避していることを確認し