AIシステムとインフラに対する主要なサイバー脅威

データポイズニングからプロンプトインジェクションまで、企業のAIアプリケーションや基盤に対する脅威は、理論から現実へと移り始めている。

AIシステムとインフラに対する攻撃は、現実の事例として形を取り始めており、セキュリティ専門家は今後数年でこうした攻撃タイプの数が増加すると見ています。AIの恩恵を急いで実現しようとするあまり、多くの組織はAIツールやユースケースを展開する際に、セキュリティ強化を軽視して拙速に進めてきたのが実情です。その結果、専門家は、多くの組織がこうした攻撃を検知・阻止・対応する準備ができていないとも警告しています。

「多くの人はこうした攻撃の可能性を認識していますが、リスクを適切に軽減する方法を十分に理解している人はそれほど多くないと思います」と、南フロリダ大学ベルリーニ人工知能・サイバーセキュリティ・コンピューティング学部の准教授で、Advancing Machine and Human Reasoning Labの創設者兼ディレクター、そしてスタートアップActualization.AIのオーナーでもあるJohn Licato氏は述べています。

AIシステムに対する主要な脅威

AIシステムに対する複数の攻撃タイプが出現しています。データポイズニングのように学習中に起こる攻撃もあれば、敵対的入力のように推論中に起こる攻撃もあります。さらに、モデル窃取のようにデプロイ中に起こるものもあります。

ここでは、現在AIインフラに対して専門家が警告している主要な脅威タイプを概説します。中には比較的まれ、あるいは理論的なものもありますが、多くは実際の環境で観測されているか、研究者によって注目すべき概念実証として示されています。

データポイズニング

データポイズニングは、悪意ある攻撃者が、機械学習モデルを含むAIシステムの開発・学習に用いられるデータを操作・改ざんし、汚染するタイプの攻撃です。データを破壊したり不正なデータを混入させたりすることで、攻撃者はモデルの性能を変更したり、偏らせたり、あるいは不正確にしてしまうことができます。

「例えば、緑は進めではなく止まれだ、とモデルに教え込む攻撃を想像してみてください」と、セキュリティ研修・認定企業SANSのCAIO兼リサーチ責任者であるRobert T. Lee氏は言います。「モデルの出力を劣化させることが目的です」と同氏は説明します。

モデルポイズニング

ここでは攻撃はモデルそのものを狙い、モデルのアーキテクチャやパラメータを改ざんすることで不正確な結果を生み出そうとします。モデルポイズニングの定義には、データポイズニングによって学習データが破壊された攻撃を含める場合もあります。

ツールポイズニング

Invariant Labsは2025年春にこのタイプの攻撃を特定しました。調査結果を発表した際、Invariantは「Model Context Protocol（MCP）に、私たちがTool Poisoning Attacksと呼ぶものを可能にする重大な脆弱性を発見した。この脆弱性は、機密データの流出やAIモデルによる不正なアクションにつながり得る」と記しています。

同社はさらに、実験により「悪意あるサーバーはユーザーから機密データを流出させるだけでなく、エージェントの振る舞いを乗っ取り、他の信頼されたサーバーから提供された指示を上書きすることもでき、その結果、信頼されたインフラに対してでさえ、エージェントの機能が完全に侵害され得る」ことが示されたと述べています。

これらの攻撃は、MCPツールの説明文の中に悪意ある指示を埋め込み、AIモデルがそれを解釈するとモデルを乗っ取れるようにするものです。こうした攻撃は本質的にMCPレイヤーを汚染し、「エージェントに何かをさせるようだます」ものだと、Constellation Researchのバイス・プリンシパル兼プリンシパルアナリストであるChirag Mehta氏は述べています。

MCPの脅威については、「MCPの脆弱性トップ10：AI統合に潜む隠れたリスク」も参照してください。

プロンプトインジェクション

プロンプトインジェクション攻撃では、ハッカーは正当なプロンプトに見せかけつつ、実際には大規模言語モデルに本来すべきでないことをさせるための悪意あるコマンドを埋め込んだプロンプトを使用します。ハッカーはこれらのプロンプトを使って、モデルにガードレールを回避・上書きさせたり、機密データを共有させたり、不正な操作を実行させたりします。

摂動を加えた入力への変更は通常小さく、欺瞞的なデータがノイズである場合もあります。変更は、セキュリティシステムによる検知を回避できるほど微妙でありながら、モデルを誤らせるのに十分なよう意図的に設計されます。このため、敵対的入力は回避攻撃の一種です。

悪意ある行為者は、モデルやそのパラメータ、さらには学習データまでも複製、あるいはリバースエンジニアリングできます。通常は公開API（例えばモデルの予測APIやクラウドサービスのAPI）を使い、モデルに繰り返しクエリを投げて出力を収集します。

その後、モデルがどのように応答するかを分析し、その分析を用いてモデルを再構築できます。

「ツールそのものを無断で複製できるようにしてしまうのです」と、PwCでグローバル脅威インテリジェンスのディレクター兼米州リードを務めるAllison Wikoff氏は述べています。

モデル反転（Model inversion）

モデル反転とは、攻撃者がモデルの学習に使われたデータを再構築または推測しようとする、特定の抽出攻撃を指します。

この名称は、ハッカーがモデルを「反転」させ、出力を用いて学習時に入力として使われた情報を再構築またはリバースエンジニアリングすることに由来します。

サプライチェーンリスク

他のソフトウェアシステムと同様に、AIシステムは、オープンソースコード、オープンソースモデル、サードパーティモデル、さまざまなデータソースなどを含み得る複数のコンポーネントの組み合わせで構築されます。コンポーネントに存在するセキュリティ脆弱性はAIシステムにも現れ得ます。このためAIシステムはサプライチェーン攻撃に対して脆弱であり、ハッカーはコンポーネント内の脆弱性を悪用して攻撃を仕掛けることができます。

最近の例については、「AIサプライチェーンの脅威が迫る――セキュリティ実践の遅れの中で」を参照してください。

ジェイルブレイク

モデル・ジェイルブレイクとも呼ばれ、ここでの攻撃者の目的は、主にLLMとのやり取りを通じて、AIシステムに有害・攻撃的・非倫理的な出力を防ぐための安全策など、行動や振る舞いを制限するガードレールを無視させることです。

ハッカーはさまざまな手法でこの種の攻撃を実行できます。例えば、ロールプレイングのエクスプロイト（別名ロールプレイ攻撃）を用い、AIにある人物像（開発者など）を採用するよう指示してガードレールを回避させることができます。悪意ある指示を一見正当なプロンプトに紛れ込ませたり、エンコーディング、外国語、キーボード文字を使ってフィルターを回避したりもできます。また、仮定の質問や研究目的の質問として装ったプロンプト、あるいは最終目的へ導く一連のプロンプトを使うこともあります。

目的も多様で、AIシステムに悪意あるコードを書かせる、問題のあるコンテンツを拡散させる、機密データを漏えいさせる、といったものが含まれます。

「チャットインターフェースがある場合、パラメータの外で動作させるためのやり取りの方法があります」とLicato氏は言います。「それが、ますます強力な推論システムを持つことのトレードオフです」

AIシステムへの脅威に対抗する

経営層の同僚が生産性向上とイノベーションを求めてAI施策に飛び込む一方で、CISOは、それらの施策――そして組織全体のAIインフラ――のセキュリティ確保が最優先事項となるよう、積極的な役割を担わなければなりません。

セキュリティ技術企業HackerOneによる最近の調査によれば、現在CISOの84%がAIセキュリティに責任を持ち、82%がデータプライバシーを監督しています。CISOが、AIシステムとそれを支えるデータに対する攻撃に対抗するためにセキュリティ戦略を前進させなければ、将来の問題は、AI施策の構想・立ち上げ時に意思決定の場へ招かれていたかどうかにかかわらず、彼らのリーダーシップに跳ね返ってきます。

その結果、CISOには「プロアクティブなAIセキュリティ戦略の必要性」があると、ConstellationのMehta氏は述べています。

「AIセキュリティは単なる技術的課題ではなく、経営層の賛同と部門横断の協働を要する戦略的必須事項でもあります」と、同氏は2025年のレポートAI Security Beyond Traditional Cyberdefenses: Rethinking Cybersecurity for the Age of AI and Autonomyに記しています。「データガバナンスは基盤です。AIのセキュリティは、学習データとモデル入力の完全性と来歴（プロベナンス）を確保することから始まるからです。セキュリティチームはAI駆動のリスクに対処するための新たな専門性を身につける必要があり、ビジネスリーダーは自律型AIシステムの含意と、それらを責任をもって管理するために必要なガバナンス枠組みを認識しなければなりません」

AIシステムへの攻撃脅威を評価・管理し、対抗するための戦略が現れつつあります。強固なデータガバナンスやその他の基本的なサイバー防御のベストプラクティスを維持することに加え、AIおよびセキュリティの専門家は、CISOとその組織が、デプロイ前にAIモデルを評価し、運用中のAIシステムを監視し、レッドチームを用いてモデルをテストするべきだと述べています。

PwCのWikoff氏によれば、CISOは特定の攻撃に対抗するために具体的な措置を実装する必要があるかもしれません。例えば、モデル窃取を未然に防ぎたいCISOは、不審なクエリやパターンを監視し、タイムアウトを設け、レート制限された応答を取得する、といった対応が可能です。あるいは回避攻撃の防止には、敵対的学習（要するに、その種の攻撃に対抗できるようモデルを訓練すること）を用いることもできます。

MITRE ATLASの採用も別の一手です。これはAdversarial Threat Landscape for Artificial-Intelligence Systemsの略で、攻撃者がAIシステムをどのように標的にするかをマッピングしたナレッジベースを提供し、戦術・技術・手順（TTP）を特定するための詳細を示します。

セキュリティおよびAIの専門家は、こうした取り組みの難しさも認めています。多くのCISOは、シャドーAIや、攻撃者がAIを利用することも一因となって、より高速化・高度化し検知が難しくなっている攻撃など、より差し迫った脅威にも対処しています。また、AIシステムへの攻撃はまだ萌芽的で、一部の攻撃タイプは依然として理論的と見なされているため、CISOはAIシステムへの攻撃に対抗する戦略やスキルを育成するためのリソース確保にも苦労しています。

「CISOにとってこれは本当に難しいことです。AIバックエンドへの攻撃はまだ研究段階にあるからです。ハッカーが何をしていて、なぜそうしているのかを解明し始めたばかりです」と、SANSのLee氏は言います。

Lee氏らは、AIを最大限活用しようとする組織への競争圧力を認識しつつも、CISOと経営層の同僚が、AIシステムのセキュリティ確保を後回しにしてはならないと強調しています。

「インフラを構築する段階で、こうした攻撃がどのようなものになり得るかを考えることが、CISOにとって重要です」と、PwCのCyber and Risk Innovation InstituteのリーダーであるMatt Gorham氏は述べています。

翻訳元: https://www.csoonline.com/article/4110008/top-cyber-threats-to-your-ai-systems-and-infrastructure.html