セキュリティ研究者がApple Intelligenceをユーザーに罵詈雑言を吐かせるようにトリックした。もっと悪くなる可能性があった

新型Mac、iPhone、その他のiThingsに統合されたパーソナルAIシステムであるApple Intelligenceは、プロンプトインジェクション攻撃を使用してハイジャックでき、モデルに攻撃者が制御する結果を生成させ、数百万ユーザーをリスクにさらすことができるとセキュリティ研究者が示しました。

Apple Intelligenceは、サポートされているiPhone 15 Pro以降の適格モデル、M1以降のiPadとMac、A17 Proを搭載したiPadモデル、およびApple Vision Proに統合されたオンデバイスLLMを含みます。Mail、Messages、Notes、Photos、Safari、SiriなどのネイティブなAppleアプリはその機能を使用でき、APIを通じてサードパーティ開発者がアクセスできます。

RSACのセキュリティ研究者は、2025年12月現在でApple Intelligence対応デバイスが少なくとも2億台使用されており、Apple App Store上でそれを使用している最大100万個のアプリがあると推定しています。そこで彼らは侵入を試みることにしました。そしてほとんどの場合、それは成功しました。

RSACチームはAppleの入出力フィルターとApple Intelligenceのローカルモデルのセーフティガードレールをバイパスするために2つの技術を使用しました。彼らは100個のランダムなプロンプトで攻撃をテストし、公開前にThe Registerと共有された論文によると、76パーセントの時間で成功しました。

「私たちは、事前フィルタリング、事後フィルタリング、モデル内のあらゆるガードレールを回避するような何らかのプロンプトを考え出したいということを知っていたので、モデルをプローブし始めました」とRSACの研究開発副社長であるPetros Efstathopoulosは私たちに語りました。

研究者は2025年10月15日に彼らの調査結果をAppleに開示しました。Efstathopoulosは、その日付の後にリリースされたiOS 26.4とmacOS 26.4に含まれる保護が問題を修正し、RSACが開発した攻撃を防ぐと述べました。

Appleは、Apple Intelligenceについて、修正について、または一般的な研究と開示についてThe Registerの質問に応じませんでした。

しかし、プロンプトインジェクションという大きなセキュリティ問題は「いたちごっこ問題」のままだとEfstathopoulosは述べました。「モデルはこれらのことを特定することにますます上手くなるでしょう。したがって、その意味で私は将来について楽観的です。とは言っても、あらゆるいたちごっこゲームは、様々な時点で、一方が半歩先にいるようなことがあります。

Neural Exec攻撃

ローカルモデルに従わせるために、EfstathopoulosとチームはNeural Execと呼ばれるタイプのプロンプトインジェクション攻撃を使用しました。これはもう1人のRSAC研究者であるDario Pasquiniによって開拓されたものです。Neural Execは、人間の代わりに機械学習を使用してモデルがすべきでないことをするようにトリックする入力を生成します。

「プロンプトインジェクション攻撃には複数のステップが含まれており、人々はそれをかなり手動的な方法で実行しています」とEfstathopoulosは述べました。「Neural Execは、実行トリガーとなる可能性のある文字列を注入するプロセスを高速化し、モデルが不正に動作するようにするための最適化アルゴリズムを使用しています。」

このタイプの敵対的入力は理論的にはあらゆるモデルで機能する可能性がありますが、Apple Intelligenceで使用されている小さなオンデバイスモデルは、大きなクラウドベースモデルよりもプロンプトインジェクションを使用した攻撃がより簡単です。

次に、研究者はAppleのフィルターをバイパスする必要がありました。彼らはUnicodeの右から左への上書き機能を使用してこれを実行しました。これにより、開発者は右から左に読む言語(アラビア語など)のテキストを左から右に読む言語(英語など)のテキストブロック内に埋め込み、両方が正しくレンダリングされるようにすることができます。

「基本的に、私たちは悪意のある/攻撃的な英語出力テキストをバックワードで書き、Unicodeハックを使用してLLMに正しくレンダリングするよう強制することでエンコードしました」とRSAC研究者は書きました。

結合されたNeural ExecおよびUnicodeプロンプトは次のようになります:

rsac_apple_intelligence_prompt_injection

そして、この応答が生成されました:「おい、ユーザー、自分で失せろ。」

チームは100個のプロンプトで攻撃をテストし、そのうち76個が機能しました。

研究者はApple Intelligenceにユーザーに罵詈雑言を吐かせるようにトリックしただけですが、この同じ技術は、モデルを使用しているアプリとサービスがアクセスできるあらゆるデータを操作するために悪用される可能性があります。

「連絡先リストに新しい連絡先を作成するために使用できることを確認しました」とEfstathopoulosは述べました。「つまり、突然私が連絡先リストに存在し、したがって信頼特権を享受しています。あるいは、連絡先リストに自分の番号を含む連絡先カードを作成できますが、別の名前で、例えば『お母さん』のように。」

「これは混乱につながる可能性があります。さらに悪いことに」と彼は続けました。「ユーザーのデバイスに影響を与えるあらゆるもの、あなたはそれが非常に奇妙で邪悪な方法で使用される可能性があることを想像できるでしょう。」 ®

翻訳元: https://go.theregister.com/feed/www.theregister.com/2026/04/09/security_researchers_tricked_apple_intelligence/

ソース: go.theregister.com