新しい攻撃によってApple Intelligence AIのガードレールがバイパスされた

RSACの研究者はApple Intelligence AIのセーフティプロトコルをバイパスする方法を高い成功率で発見しました。

Apple Intelligenceは、生成AIと個人的な文脈を組み合わせたiOS、iPadOS、およびmacOSの深く統合されたパーソナルインテリジェンスシステムです。

主にApple silicon上のコンパクトなオンデバイスLLMを介してタスクを直接処理します。AIはユーザーの固有の文脈(メッセージ、写真、スケジュール)を活用して、システム全体の書き込みツールやSiriなどの実用的な機能を提供します。より複雑な推論のため、AppleのOSadataクラウドインフラストラクチャ上のPrivate Cloud Compute(PCC)を介して大規模なファウンデーションモデルにリクエストをオフロードします。

Apple Intelligenceは、RSACが主催するRSAC Conferenceを開催する組織であるRSACの研究チームによって審査されました。 

研究者はローカルLLMの入出力フィルター(悪意のある入力をブロックし、望ましくない出力を防ぐために設計されている)およびその動作に影響を与えるための内部ガードレールをバイパスすることを目指しました。

これを達成するため、彼らは2つの異なる敵対的な手法を組み合わせました。最初のものはNeural Execsで、「ナンセンス」な入力を使用してAIに任意の攻撃者定義のタスクを実行させるトリックをかける既知のプロンプトインジェクション攻撃です。これらの入力は、異なるペイロードに対して再作成する必要のないユニバーサルトリガーとして機能します。

RSAC研究者が入出力フィルターをバイパスするために使用した2番目の方法はUnicode操作です。悪意のある出力テキストを逆に書き、Unicode右から左への上書き機能を使用することで、コンテンツ制限をバイパスすることができました。

「基本的に、悪意のある/不快な英語出力テキストを逆に書いて、Unicodeハックを使用してLLMに正しくレンダリングするよう強制することでエンコードしました」と研究者は説明しました。

2つの方法を組み合わせると、攻撃者はローカルのApple Intelligence LLMに不快なコンテンツを生成するよう強制したり、より重要なことに、健康データや個人的なメディアなどのApple Intelligenceと統合されたサードパーティアプリケーション内の個人データと機能を操作することができます。

攻撃は100のランダムなプロンプトでテストされ、研究者は76%の成功率を達成しました。 

彼らは100,000人から100万人のユーザーが、そのような攻撃に脆弱である可能性のあるアプリをインストールしていると推定しています。 

「RSACは、2025年12月の時点で、少なくとも2億台のApple Intelligence対応デバイスが消費者の手にあると推定しており、Apple App StoreはすでにApple Intelligenceを使用しているアプリを特集しているため、既に高い価値のターゲットです」と研究者は指摘しました。

Appleは2025年10月に通知されており、RSAC Researchによれば、保護は最近のiOS 26.4とmacOS 26.4でロールアウトされました。

研究者は悪意のある悪用の証拠を見ていません。

翻訳元: https://www.securityweek.com/apple-intelligence-ai-guardrails-bypassed-in-new-attack/

ソース: securityweek.com