コンテンツにスキップするには Enter キーを押してください

合成データは今後も存在し続けるが、その安全性はどの程度か?

Hadi Chami, Apryseのソリューションエンジニアリンググローバルディレクター

2025年6月6日

4分で読む

合成された人間の顔に重なるバイナリーコード; 画像は緑がかった色調

出典: Alamy Stock Photo経由のsleepyfellow

コメント

データは長い間、ほぼすべての組織の中心にありました。しかし、組織がますます高度な人工知能(AI)ツールを採用するにつれて、高品質なデータセットへのアクセスと利用に関する課題がより明確になってきています。

多くの要因が組織のデータアクセスを制限する可能性がありますが、ガバナンスはAI導入を妨げる最も一般的な障害の一つです。2018年に 一般データ保護規則(GDPR) が導入されて以来、セキュリティと コンプライアンス の必要性は、企業が個人を特定できる情報(PII)を保存および処理する方法を劇的に変えました。特に機密データを扱う企業にとって、説明責任と透明性は不可欠ですが、これらの規制は物事をより複雑にしました。実際、EU企業のデータストレージは、規制の直接的な結果として 26% 減少しました。

規制圧力の時代におけるAIの受け入れ

GDPRが初めて導入された頃、AIはまだ新興の技術でした。それ以来、考え方は変わりました。今日では、AIは多くの現代的な組織が運営する方法の中心的な部分となっています。この変化は、企業がモデルを効果的に訓練するために利用可能なデータの長年無視されてきたギャップを露呈しています。チームは今、より大きく、より多様なデータセットを必要としており、しかもそれを迅速に必要としています。

関連:SecOpsはAIの幻覚を克服して精度を向上させる必要がある

同時に、 プライバシーへの期待 も進化しています。規制の監視が強化され、データの誤用に対する公共の関心が高まる中、組織は責任を持って革新するプレッシャーにさらされています。その緊張感は、多くの組織を、コンプライアンスの境界を尊重しつつ迅速に動くことを可能にするソリューションに向かわせています。

合成データが情報のギャップを埋める方法

合成データ — 現実世界のデータを模倣した人工的に生成されたデータ — は、解決策の重要な部分として浮上しています。新しい概念ではありませんが、大規模言語モデル(LLM)の訓練におけるその使用は最近急増しています。これは、機密データを危険にさらすことなく企業がAIを探索するための実用的な方法と見なされています。実際、2030年までには、ほとんどのAI訓練データが合成データになると推定されています。

医療のような業界では、データには個人を特定できる情報(PII)と保護された健康情報(PHI)の両方が含まれることが多いため、合成データはHIPAAのような厳しい規制に準拠しながらAIの革新に参加するのに役立っています。

とはいえ、一般的な誤解を解消する価値があります:すべての合成データが完全に「偽」ではありません。今日の多くの合成データセットは部分的にしか合成されておらず、現実世界のデータから生成され、リスクを軽減する方法で変更または匿名化されています。例えば、名前が合成識別子に置き換えられたり、個人の位置データが統計的に類似しているが追跡不可能な代替に置き換えられたりします。このタイプのデータは、元のデータの統計的特性をいくらか保持しているため、完全に作成されたデータよりも訓練で良好な性能を発揮する傾向があります。

関連:CiscoがAWS、Azure、Oracle Cloudでの資格情報の脆弱性を警告

しかし、このデータが現実世界のソースとまだ関連しているという事実は、データが適切に処理されない場合、再識別のリスクがあることを意味します。

PIIを追跡不能に保つためのベストプラクティス

合成データを誤って扱うリスクは高いです。合成データが実際の個人に追跡可能である場合、組織は罰金、法的な結果、および消費者や患者の信頼の大きな損失に直面する可能性があります。そのため、合成データセットを扱う際にはベストプラクティスに従うことが重要です:

  • 外れ値は最初に注意すべき点の一つです。 これらはデータセットで目立つ極端な値であり、モデルの性能を歪めたり、再識別を容易にしたりする可能性があります。例えば、千ドルの支払いリストにおける1回の1000万ドルの取引は明確な識別子になります。データを合成する前にこれらの値を削除または正規化することで、このリスクを軽減します。

  • リスク評価ツールはもう一つの重要なステップです。 これらのツールは、合成データセットを元のデータとクロスチェックし、プライバシーの懸念を引き起こす可能性のあるパターンや重複を特定するのに役立ちます。手動のレビューは明らかな問題をキャッチできますが、自動化されたツールは見逃されがちな微妙な相関を見つけるのに優れています。

  • 最後に、元のデータを必要以上に長く保持しないでください。 合成データはしばしば現実世界のデータセットから派生しているため、プロセス中にPIIが処理され続けます。ベストプラクティスは、合成バージョンが生成されたら元のソースデータを安全に削除し、オフプレミスのデータベースや安全でない環境に保存しないことです。

関連:米国AI規制のバランスを見つける

補完としての合成データ、置き換えではない

合成データは現実世界のデータを補完することを目的としており、置き換えるものではないことを忘れないでください。プライバシーやアクセス性に関して実際の利点を提供しますが、常にライブデータの複雑さやニュアンスを捉えるわけではありません。

注意すべきリスクの一つはAIモデルの崩壊です。これは、モデルが合成データに過度に依存して訓練され、再現すべき現実世界のコンテキストとの接触を失い始めると発生します。結果として、出力の精度が低下し、幻覚が増え、全体的な性能が低下します。

それでも、すべてのプロジェクトで現実のデータに依存することは常に現実的ではありません。コンプライアンス承認を待つことは、チームの進行を遅らせ、進捗を妨げる可能性があります。合成データは、特に開発の初期段階で、物事を進め続けるのに役立ちます。

医療のような一部の業界は、他の業界よりも合成データに依存することが避けられません。しかし、使用例に関係なく、同じレベルの注意が適用されるべきです。合成データは生成されたからといってプライバシーの懸念から免除されるわけではなく、責任を持って管理される必要があります。

適切な戦略を持つことで、チームは合成データを使用してAIの利点を引き出しながら、コンプライアンスを維持し、リスクを軽減し、迅速に動くことができます。

翻訳元: https://www.darkreading.com/vulnerabilities-threats/synthetic-data-security

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です