データポイズニング:CISOはAIシステムのインテグリティ保護に注力すべき

pixadot.studio – shutterstock.com
CISOにとって、AIは複雑さを減らすことはほとんどなく、むしろすでに多忙なアジェンダをさらに埋める存在です。従来のセキュリティ優先事項に加え、AIソリューションが管理されずに業務利用されたり、モデルが改ざんされたり、新たな規制が守られなかったりするなど、AI特有の新たなリスクにも対処しなければなりません。
シャドーAIがもたらすリスク
最も差し迫った課題のひとつがシャドーAIです。これはITやセキュリティの監督なしにAIツールやモデルが利用されることを指します。シャドーITが企業環境に死角を生むのと同様、シャドーAIはデータ漏洩、安全でない統合、検証されていないサードパーティやサービスによるリスクなど、監視されない危険をもたらします。
CISOがAIの利用状況を把握し、どのデータがAIに使われ、どのAIモデルがどの目的で使われているかを知っていたとしても、依然として幅広いAI関連の脅威に直面します。重要な懸念のひとつは、これらのモデルがどこでホストされているかという点です。多くはクラウドベースで、しばしば公開されています。
その結果、新たな攻撃面が生まれます。たとえば、プロンプトインジェクション、データポイズニング、敵対的攻撃などです。直接的な改ざんがなくても、LLM(大規模言語モデル)は幻覚(ハルシネーション)を起こしやすく、不正確または誤解を招く結果を生成することがよくあります。
データポイズニングは、トレーニングデータだけでなくAIモデル自体にも増加しています。しかし、多くの人々はいまだにこの問題の影響を明確に理解していません。これは、毒されたデータで訓練された自動運転車が、停止標識を誤って速度制限標識と認識してしまうようなものです。その結果、車両が停止せず加速し、乗員や歩行者、他の交通参加者を生命の危険にさらす可能性があります。
この重大なリスクは長い間ほとんど注目されてきませんでしたが、AI分野で最も危険な脅威のひとつとなる可能性があります。AIが人々の生活に影響を与える意思決定にますます関与する世界において、この問題への関心の欠如は非常に憂慮すべきことです。
インテグリティへの脅威とは何か?
カーネギーメロン大学の専門家ウィリアム・L・シャーリスは、AIの文脈におけるインテグリティへの脅威を次のように定義しています。「ニューラルネットワークベースの現代的なAI、機械学習(ML)や生成AIを含む文脈では、インテグリティリスクとは、攻撃によって誤った結果がもたらされる可能性を指します。」
もっと簡単に言えば、小さな穴でも船全体を沈めることがあるということです。改ざんされたAIモデルは誤った仮定や意思決定を導き、利用者の精神的健康にまで悪影響を及ぼすこともあります。例えば、こうした危険なモデルに健康アドバイスを求めた場合、毒されたAIが誤った薬や危険な民間療法を勧め、利用者に致命的な結果をもたらす恐れもあります。
LLMや機械学習による誤った結果は、財務的損失にもつながり得ます。KPMGのレポートはまさにこうしたリスクを指摘しています。これらはすべてデータの質に大きく依存します。モデルを正しく訓練するには膨大なデータが必要ですが、逆にわずかなデータセットでも大規模言語モデルを改ざんするには十分です。調査によれば、トレーニングデータのわずか0.001%が汚染されているだけで、異常な結果を引き起こすことが判明しています。
AI改ざんの攻撃手法
モデル改ざんの代表的な手法のひとつがグラディエントポイズニングです。これは、未知の攻撃者がトレーニング段階でモデルを操作するものです。研究者のワシム・ブアジズ、エル=マフディ・エル=ムハムディ、ニコラ・ウズニエは、このような攻撃が機械学習アルゴリズムのトレーニングをどのように悪意を持って改変できるかを論じています。グラディエントポイズニングは他の広範なデータポイズニング手法ほど多くのシステムに影響しませんが、はるかに有害な場合があります。攻撃者はこの手法で、モデルの挙動を恣意的に歪めることが可能です。
ラベリング攻撃は、偶発的にも人的ミスや意図的にも発生します。典型的な例がラベルフリッピングです。猫の画像が誤って犬とラベル付けされると、AIモデルは誤った関連付けを学習します。こうした誤ラベルが大規模に繰り返されると、モデルの性能や信頼性が大きく損なわれます。
さらに、トレーニングデータや入力データに小さなコード片やわずかなデータ改ざんを仕込む、隠れた攻撃手法や埋め込み型攻撃も存在します。これらはモデル内のパターンを変化させたり、プロンプトインジェクションのような後続のエクスプロイトの扉を開いたりします。
敵対的攻撃、またはアドバーサリアルパッチングでは、入力が改ざんされます。攻撃者はAIが認識するものにごく小さな変更を加えます。たとえば、画像のいくつかのピクセルを(人間の目には見えないほど)変化させ、AIモデルに誤認識させるのです。この手法はAIモデル自体を変えるものではなく、現実世界の誤った認識をAIに与えます。
どの手法が使われても、結果は同じです。モデルのインテグリティが損なわれます。重要な意思決定にAIがますます使われる世界では、こうした改ざんは単なる技術的な障害にとどまらず、社会の安全や信頼を脅かす深刻な脅威となります。
AIモデルのインテグリティを守るには
インテグリティへの攻撃を防ぐために、CISOはセキュアコーディング(安全なプログラミング)とセキュリティ・バイ・デザインの原則を、AIソフトウェア開発プロジェクトの初期段階から組み込む必要があります。
AIガバナンスにおいて、インテグリティ保護への強いフォーカスはセキュリティ戦略全体の中核要素でなければなりません。これには、GDPR、EU AI法、ISO/IEC 42001の遵守を保証するための管理だけでなく、モデルの逸脱を防ぎ、長期的にモデルの信頼性を維持するための対策も含まれます。同様に、AIモデルの透明性、説明性、解釈可能性に対する要件も重要です。これによって初めて、AIシステムの意思決定が追跡可能かつ説明可能となります。
これは単なる技術的課題ではありません。考え方の転換も必要です。組織内ではトップダウンでセキュリティ意識を高める必要があります。CISOはマネジメント層での議論を主導し、組織のAIシステムと関わるすべての従業員やユーザーが、その利用に伴うリスクやセキュリティ対策、責任について理解することが求められます。
結論:守る側と攻撃者のいたちごっこは続く
CISOはAIシステムのインテグリティへの攻撃に、これまで十分な注意を払ってきたとは言えません。その理由のひとつは、長らくAIの可能性や期待にばかり注目が集まっていたためです。しかし、光があれば影もあります。どんなに訓練・テスト・コンプライアンスチェックが徹底されていても、すべてのAIモデルは改ざんのリスクを免れません。企業が多くのモデルを導入し、より多くのユーザーが利用するほど、全体のリスクは大きくなります。
それでも楽観的な材料はあります。世界中のセキュリティコミュニティ――CISO、研究者、実務家たち――はすでに解決策に取り組んでいます。今後、より強力な技術的防御策、優れた組織的実践、堅牢なガバナンス枠組みが登場するでしょう。これらのセキュリティ対策は分野の進化とともに徐々に向上していきます。最終的にAIセキュリティは、防御側と攻撃側の終わりなきいたちごっこの新たな章となるでしょう――しかも、これまで以上に激しく。(jm)