敵対的アライメント:脅威アクターがAIの安全機能を悪用してマルウェア解析を妨害
最先端の人工知能モデルの大半には、組み込みの安全機能が備わっています。そのため、これらのプロトコルは生物兵器や核兵器に関する問い合わせを能動的にブロックします。具体的には、システムが危険なトリガーワードを検出すると、即座にプロンプトを拒否します。ところが今、脅威アクターはこの防御的なガードレールを逆手に取るようになっ
最先端の人工知能モデルの大半には、組み込みの安全機能が備わっています。そのため、これらのプロトコルは生物兵器や核兵器に関する問い合わせを能動的にブロックします。具体的には、システムが危険なトリガーワードを検出すると、即座にプロンプトを拒否します。ところが今、脅威アクターはこの防御的なガードレールを逆手に取るようになっ
eSecurity Planet のコンテンツおよび製品推薦は編集上独立しています。パートナーへのリンクをクリックすると収益が発生する場合があります。 詳細はこちら Ciscoによる最先端LLMの評価では、テストされたモデルのいずれもマルチターンの敵対的攻撃に一貫して抵抗できなかったことが判明し、現在のAI安
研究者は、この技術がビジョン言語モデルが画像とユーザープロンプトの両方をどのように解釈するかを操作できると述べています。 セキュリティ研究者は、元のテキストプロンプトを変更することなく、マルチモーダルAIシステムがユーザー指示をどの
研究者たちは、Linuxマルウェアが微妙な機能保持型の変更を使用して機械学習(ML)ベースの検出システムをバイパスできるようにする新しい技術を発見しました。 この研究は、Linux環境を標的とした高度な脅威を検出する際のAI駆動型セキュリティツールの有効性に関する懸念の増加を浮き彫りにしています。 Linuxはクラ
人工知能が単純なチャットボットから積極的にウェブを閲覧する自律型エージェントへと進化する中、新しいサイバーセキュリティの脅威が出現しました。 Google DeepMindの研究者たちは、「AIエージェントトラップ」と呼ぶ重大な脆弱性を特定しました。 これらは、訪問するAIエージェントを操作、欺瞞、または悪用するた
生成AIツールのセキュリティおよび安全ガードレール(プロンプトインジェクション攻...
人工知能分野において、機械学習モデルの基盤となる学習データセットを戦略的に汚染す...
新たな概念実証(PoC)において、エンドポイントセキュリティプロバイダーのMor...