自動化されたLLMレッドティーミングに学習層が追加される
大規模言語モデルの自動化されたレッドティーミングは、過去2年間で親しみのあるパターンで安定している。攻撃者モデルはターゲットモデルに対するジェイルブレイク試行を生成し、評価者が結果をスコア付けし、サイクルが繰り返される。 2つのアプローチが支配的である。1つは攻撃者に試行錯誤を通じて戦略を発明するよ
大規模言語モデルの自動化されたレッドティーミングは、過去2年間で親しみのあるパターンで安定している。攻撃者モデルはターゲットモデルに対するジェイルブレイク試行を生成し、評価者が結果をスコア付けし、サイクルが繰り返される。 2つのアプローチが支配的である。1つは攻撃者に試行錯誤を通じて戦略を発明するよ
インターネット上のチャットボットは、あなたの叔父が化学物質散布について書いたあらゆるフォーラムの長文、流出したSlackのログ、そして根拠のない確信に満ちたブログ記事をすべて読んでいます。その結果は予測可能です。インターネットの現状を反映しており、決して美しくはありません。これと、いくつかの問題のある設計判断が相
広く使用されているLiteLLMゲートウェイで、認証前のSQLインジェクション脆弱性(CVE-2026-42208)が発見され、機密バックエンドデータベースが無認可アクセスに曝露されています。 セキュリティ研究者は、脅威行為者がこの欠陥を既に積極的に悪用して、APIキーとプロバイダー認証情報を含む高価値のシークレット
医療、金融、およびその他の機密性の高い業界の組織は、プライベートデータをこれらのモデルを実行するクラウドサーバーに公開することなく、大規模なAIモデルを使用したいと考えています。Secure Multi-Party Computation(MPC)と呼ばれる暗号化技術がこれを可能にします。データを暗号
OpenAIはGPT-5.4 miniおよびGPT-5.4 nanoを正式にリリ...
AIエージェントが協力してセキュリティ制御をバイパスし、企業システム内から機密デ...
テック起業家たちは不死になることを望んできました。その実現まで、彼らの代替案は来...
Microsoftが、デプロイ前に汚染された言語モデルを検出するスキャナーを発表...