組織の生成AI導入に備えた機密ビジネスデータの保護

組織がMicrosoft CopilotやGoogle Geminiのような生成AIツールの展開準備を進める中、機密データの保護を担う人々は、リスクを棚卸しし、実行可能な提言を提示するという、ほぼ不可能な課題に直面しています。この作業が難しい主な理由は、最も重要なビジネスデータが非構造化であることが多い一方で、セキュリティ業界の多くは構造化データとインフラの保護に最適化されているためです。業界として私たちは、データそのもの(「水」)を守るよりも、データを収容する技術(「バケツ」)を守ることを優先してきました。

非構造化データの価値は、その形式ではなく、内容と文脈にあります。これにより、そのデータの発見、棚卸し、保護は困難になります。Microsoft CopilotやGoogle Geminiのようなエンタープライズ向け生成AIは、主としてデータを保護することよりも回答を提供することに焦点を当てているため、データ保護の責任者は生成AI技術と利害が対立します。

私は、業界の歴史的な対策が生成AIの影響に耐えるには不十分である理由、そして組織が責任あるAI導入(「Responsible AI」)に安心して踏み切れるよう、防御側と生成AIを整合させるために克服すべき問題について、私の見解を共有します。

機密データの防御者と、今日企業で利用可能な生成AI技術—すなわちMicrosoft CopilotとGoogle Gemini—の双方を整合させるには、まずこの技術をこれほどまでに異質で強力なものにしている主要な特性を認識する必要があります。

展開は従来のゲートキーパーを迂回し得ます。このソフトウェアは生産性向上ソフトを提供するのと同じベンダーによって作られているため、全従業員に対してグローバルに容易に有効化できます。

データ消費に制限がありません。ベンダーはすでにデータを保有しているため、生成AI機能はデータストアの上に載り、利用可能になっている限りのデータを消費できます。

優先されるのは回答です。生成AIツールの成功は、与えられた質問に対する回答の正確性に依存します。これらのツールは「要求者がその回答を得るべきか」という文脈では動作せず、「要求者がその回答を見られるか」によってのみ制約されます。

回答はデータから導出されるため、生成AIツールは最終的に「回答エンジン」です。組織が生成AIを責任をもって展開する前に、次の問いに答える必要があります。ここに課題があります。私たちの従来のアプローチは、非構造化データにはあまり適していません。

機密ビジネスデータ

  • それが何かを把握しているか? 機密ビジネスデータを体系的に特定する方法はあるか?
  • それがどこにあるかを把握しているか? データを特定する手段を得たとして、そのデータが存在し得るあらゆる場所を確認できるか?
  • それが信頼できると分かっているか? すべてのデータの棚卸しができたら、それが正確で改ざんされていないことを保証できるか?
  • 誰がアクセスできるかを把握しているか? 信頼できるデータがどこにあるかが分かったら、そのデータ—そしてより重要には、そのデータから生じ得る回答—に誰がアクセスできるかを把握しているか?
  • 適切に取り扱われているかを把握しているか? 誰がアクセスできるかが分かったら、相応の注意をもって取り扱われているか?

非構造化データの課題

上記の問いに答えるのが難しい主要な理由は、非構造化データが機密かどうかを判断するための「明確な線引き」のテストが存在しないことです。正規表現で問題を解決することはできません。さらに問題を複雑にしているのは、機密性が内在的な属性ではなく、創発的な性質であるという点です。構成要素が分離しているときは機密ではありませんが、それらが回答、洞察、または単一のデータ成果物という形で結合すると、その成果物は機密になります。

CUIを例に

Controlled Unclassified Information(CUI)は、非構造化で機密性のあるビジネスデータの一例です。CUIとは、米国政府が作成または保有し、保護または配布管理を必要とする情報です。国家安全保障や原子力エネルギー情報としては機密指定されていませんが、適用される法律、規制、および政府全体の方針に従って保護されなければなりません。CUIには、政府のために、または政府に代わって、ある組織が作成または保有する情報も含まれ得ます。

要するに、CUIとは米国政府がCUIとして指定したあらゆるデータであり、合否を判定できる正規表現は存在しません。

CUIとは何か?

非構造化であるCUIおよび一般的なビジネスデータに加えて、私たちはその情報を保護するアプローチも踏襲してきました。例えば:

課題 要件 解決策
それが何かを把握しているか? 棚卸しされていなければならない データのマーキング(「CUI//Privacy」「Proprietary / Confidential」)
それがどこにあるかを把握しているか? 認可されたシステム上に存在しなければならない ジオトラッキング(米国内居住、データ所在地)
それが信頼できると分かっているか? 完全性を備えていなければならない ログ記録(NIST 800-171 AU)、アクセスログ
誰がアクセスできるかを把握しているか? 制限されていなければならない アクセス制御(NIST 800-171 AC)、「知る必要性(need to know)」
適切に取り扱われているかを把握しているか? データ取り扱い トレーニング、33ページの文書、許容される利用

解決すべきことに関する見解:

  • 棚卸し:人がデータのマーキングを付与することに依存しない形で、機密データを特定する方法が必要です。
  • 防御:データストアだけでなくデータそのものを保護する方法が必要です—バケツではなく水。
  • 完全性:データが信頼できるかどうかを把握する必要があります。
  • 完全性:機密性の高いクエリを、回答の根拠となったデータに関連付けられる能力が必要です。
  • アクセス:誰がデータに直接・間接にアクセスしているか、また過去にアクセスしていたかを把握する必要があります。
  • アクセス:データおよびそのデータから導出された回答がどのように利用されているかを把握する必要があります。

翻訳元: https://www.sysdig.com/blog/protecting-sensitive-business-data-in-preparation-for-the-organizations-gen-ai

ソース: sysdig.com