エンタープライズGenAI導入のボトルネックとなる4つの要因

ほとんどのGenAIのパイロットは失敗に終わるが、より良いセキュリティ、監督、そしてスマートな統合によって、企業は実験を本当のインパクトへと変えることができる。

AIの潜在的な価値と、企業が最近ようやく体験し始めた測定可能な価値との間には大きなギャップがある。2022年にChatGPTが登場したことで、企業のAIに対する認識は大きく変化した。パイロットが開始され、高いリターンの約束がなされ、イノベーションが急増した。LLM、検索拡張生成（RAG）パイプライン、マルチエージェントシステムは、契約分析からカスタマーサポート、財務承認まで、意思決定に重要なワークフローに組み込まれている。技術変化のスピードは非常に速く、多くの企業が追いつくのに苦労している。

しかし、ここで厳しい現実がある：37件のGenAIパイロットのうち実際に成功したのはわずか3件だ。データ品質が大きな懸念事項として浮上している一方で、専門家はセキュリティ、可観測性、評価、統合といった周辺の問題にも懸念を抱いている。これらはGenAIのセキュリティと成功に不可欠な要素である。

1. セキュリティとデータプライバシー：ファイアウォールを超えて

AnthropicによるClaudiusの実験は目を見張るものがある。この実験は、生成AIのセキュリティが境界防御だけではなく、モデルやエージェントが何を見て、何ができるかを制御することが重要であることを示している。従来のモデルでは、境界にデジタルの壁を築くことでシステムを守ることができたが、GenAIシステムはプロンプトインジェクションやエージェントの操作、リバースエンジニアリングによるシャドウモデルの作成などで攻撃される可能性がある。

ファイアウォール、認証、DDoS対策などの境界防御は重要だが、これらは誰がシステムにアクセスできるか、どれだけのデータが出入りできるかを制御するだけである。しかし近年、モデルが何を見たりできたりするかを確実に制御するための複数の選択肢が登場している。たとえば、セキュアエンクレーブ内での推論、動的なPIIスクラビング、ロールベースのデータフィルタリング、エージェントへの最小権限アクセス制御などだ。私の実験から言うと、特に有効なのは「ポリシー駆動型PII保護を伴うコンフィデンシャルコンピュート」と「きめ細かなエージェント権限付与」の2つの戦略である。

コンフィデンシャルコンピュート＋ポリシー駆動型PII保護

フィンテック、ヘルステック、レグテックなどの分野では、LLMが契約書、患者記録、財務情報などの機密データを処理することが多い。その場合、クラウドを信頼していても規制当局は信頼しないかもしれない。コンフィデンシャルコンピュートは、クラウド運用者からもデータ使用中の保護を保証し、強力なコンプライアンスを実現する。

ただし、トレードオフもある。この技術はまだ初期段階で、コストがかさむ可能性がある。それでも、規制データを扱う限定的な用途では活用できる。PresidioやImmutaのような動的PIIスクラビングツールと組み合わせて、地域、ユーザーロール、データ分類に応じた適応的な保護を実現すれば、満足のいく結果が得られる。

きめ細かなエージェント権限（LLMのゼロトラスト）

AIエージェントはデフォルトで信頼しないものと考え、必要最小限のアクセス権だけを与えるべきだ。それ以上は不要である。無制限のアクセスは危険であり、インターンにERPシステムの全権限を与えるようなものだ。各エージェントとツールのペアごとに、何が許可されているかを正確に定義するスコープ付きの能力トークンを付与することで、より安全に運用できる。

例えば、請求書抽出エージェントはPDFファイルの解析はできても、財務データベースへのアクセスはゼロとする。OPA（Open Policy Agent）やCerbosのようなポリシーエンジンは、これらの権限を中央集権的なアクセス管理者として大規模に適用できる。

一部のチームは、改ざん防止の監査証跡としてブロックチェーンベースのログを試している。防衛やサプライチェーンのシナリオでは有用だが、ほとんどの企業にとっては不要なオーバーヘッドとなる。

2. 可観測性：ブラックボックスを手なずける

自律型エージェントのデバッグは、チャットボットのデバッグよりもはるかに難しい。十分な可観測性がなければ、「ブラックボックスの混乱」に陥るリスクがある。透明性がなければ、チームがシステムを理解し、信頼し、改善することは非常に困難になる。

GenAIにおける可観測性は、単なるログ記録以上の意味を持つ。予測不能なワークフロー全体で、エージェントの意思決定をトレース、デバッグ、リプレイ、検証する必要がある。初期段階で導入すれば、火消し対応から積極的な信頼性確保へと移行できる。私が推奨するのは2つのソリューションだ。

エージェントグラフによる分散トレーシング

マルチエージェントシステムでは、タスクが予測不能な方法で委譲されるため、デバッグや最適化が難しい。OpenTelemetry、LangSmith、Grafanaのようなツールは、エージェントがどのように意思決定し、タスクフローをたどり、各ステップの遅延を測定するかを可視化するのに役立つ。

これらのツールは明確なインタラクショングラフを作成し、システムの挙動を説明し、根本原因分析を迅速化することでボトルネックを特定できる。ただし、詳細なトレースはストレージのオーバーヘッドや、機密プロンプトや出力が適切に保護されていない場合のデータ漏洩リスクを生む。

リプレイ＆シミュレーション環境

エージェントシステムの本番環境で発生する多くの問題は、異常な入力やタイミングによる「一度きり」のバグだ。リプレイ環境を使えば、プロンプトチェーンを再実行し、エッジケースをシミュレーションできるため、障害の診断や回帰防止に不可欠だ。このようなセットアップにより、堅牢なデプロイが可能となり、本番反映前のより厳格なテストもサポートできる。

ただし、このソリューションが現実のシナリオを完全に再現できるとは期待しないこと。本番環境の複雑さと予測不能性はまったく別次元である。このソリューションはライブ監視の代替ではなく、補完として活用すべきだ。

3. 評価とモデル移行の準備

従来の企業のリリースサイクルは、急速に進化するLLMの世界には太刀打ちできない。新しいモデルが次々と登場するペースは、LLMエコシステムを何歩も先へ進めている。企業が追いつけなければ、イノベーションで遅れを取り、高額な技術的負債を抱えるリスクがある。

構造化されたアプローチなしに新しいモデルやフレームワークへ切り替えると、本番環境でパフォーマンスの低下や予期せぬ挙動が発生する可能性がある。モデルを切り替えるたびにリスクが伴う。LLMは他の通常のソフトウェアアップグレードのようには動作しない。新しいモデルは異なる回答を返したり、コンプライアンスルールを見逃したり、ビジネスが依存するニッチな用途で失敗したりすることがある。さらに、ベンダーは価格を頻繁に変更し、APIが廃止され、経営陣はコスト削減や精度向上を求めることが多い。

継続的な評価と安全なモデル移行が2つの有効な解決策である。

継続的評価パイプライン

大規模言語モデル（LLM）の評価は、ソフトウェア開発におけるCI/CDパイプラインのように扱うべきだ。コードをテストするように、LLMも継続的にテストする。ドメインQ&A、エッジケース、レッドチームプロンプトを含む厳選されたテストセットを使い、モデルがビジネス目標に沿っているか、潜在的な問題を検出する。

毎週の評価により、リグレッションが本番やユーザーに影響を与える前に発見できる。この積極的なアプローチで、モデルは進化するデータや変化するユーザーのニーズにも堅牢でいられる。

ただし、頻繁な評価はトークン使用量、インフラ、テストセット維持の人的コストなど、かなりのコストがかかる。

コストと評価のバランスを取るため、テストセットを四半期ごとにローテーションし、匿名化した実ユーザーデータを取り入れることで、現実のシナリオをシミュレーションしつつプライバシーも守れる。

デュアルラン移行戦略

本番環境で新しいモデルへ移行するには、正確さと慎重さが求められる。旧モデルと新モデルを並行稼働させるデュアルラン戦略を採用し、両者の出力をリアルタイムで比較し、あらかじめ定めた評価基準を満たした時点で最終的な切り替えを行う。

例を挙げよう。金融サービス企業はプライバシーや可観測性などの要件に非常に厳しい。我々はある企業でGPT-4とMistralを6週間デュアルランし、利点と欠点を把握した。新モデルが一貫してパフォーマンス基準を満たすまで出力を監視し、スムーズな移行を実現した。

補足だが、LLMは巨大なリスクを伴うモノリシックなシステムではなく、モジュール型インフラの構成要素として扱うべきだ。適切な評価と移行戦略があれば、企業は俊敏性を保ち、リスクを減らし、AI能力を継続的に向上できる。

4. セキュアなビジネス統合：POCから本番へ

多くの企業は、GenAIを基本的なAPIやチャットインターフェースを通じてワークフローに組み込んでいる。これはプロトタイプには有効だが、エンタープライズレベルのガードレールには欠けている。セキュリティ、ガバナンス、責任の問題がすぐに導入の障害となる。

真のエンタープライズAIには、堅牢なセキュリティ、ガバナンス、責任が組み込まれた深い統合が必要だ。AIは組織のポリシーを強制し、挙動を監視し、トレーサビリティを確保するシステム内に組み込まれるべきである。つまり、AIの能力をビジネスルール、コンプライアンス要件、運用基準と組み合わせる必要がある。

適切な統合がなければ、どんなに高性能なモデルでもリスク要因となり、データ漏洩、不正行為、偏った意思決定を引き起こす可能性がある。

ポリシー対応のエンタープライズシステム統合

GenAIをSAP、Salesforce、ServiceNowなどの基幹エンタープライズプラットフォームに統合する際は、ガードレールが不可欠だ。これらのシステムは機密データや重要な業務を扱っており、制約のないAIアクセスはリスクを大幅に高める。

AIのアクションに対するコンプライアンス層として、ポリシーエンフォースメントポイント（PEP）を実装する。例えば、AIが営業提案書を作成する場合、5万ドルを超える承認には管理職の監督が必要だ。このガードレールがなければ、システムが自律的に問題のある取引を承認してしまうかもしれない。Air Canadaの事例では、ボットが顧客に誤った情報を与え、裁判所が企業に責任を認めた。

このシステムはさらに、ロールベースのデータフィルタリングで強化できる。人間のユーザーが閲覧を許可されたデータだけをAIがアクセスできるようにし、機密情報の不用意な漏洩を防ぐ。

インパクト分析＆リスクダッシュボード

従来のセキュリティログだけでは、GenAIアプリケーションの現実世界での影響を把握できない。企業はAIが成果にどう影響するか、例えばエスカレーション率の低減、問題のある契約の検出、業務効率の向上などを可視化する必要がある。そのためには、運用指標とビジネスKPIの両方を追跡できるインパクト分析ダッシュボードが必要だ。

ただし、AIがターンアラウンドタイム短縮のためにグレーゾーンの案件を承認するなど、間違った指標を最適化してしまうリスクもある。これにより品質やコンプライアンスが損なわれる可能性がある。

このソリューションはおそらく最も推奨されるものだ。組織はヒューマン・イン・ザ・ループのチェックポイントを設け、定期的な監査を実施し、AIの意思決定が戦略目標や倫理基準に沿っているかを確認しなければならない。さらに一歩進めて、段階的な閾値を設けることを提案する。

例えば、社内メールの下書きのような低リスクの行動はGenAIに自律的に任せてよい。しかし、それ以降はより慎重になる必要がある。顧客対応のような中リスクの行動は、ランダムサンプルを人間がレビューする。契約承認や財務変更のような高リスクの行動には、必ず人間の承認を義務付けるべきだ。

妥協が大惨事を招くとき

セキュリティ、可観測性、評価、統合は、エンタープライズAI導入のボトルネックとなる4つの重要な要素だ。企業は本質的に機密性の高い巨大なデータセットを扱っている。そこでの妥協は壊滅的な結果を招きかねない。

モデルやエージェントが何を見て何ができるかを制御することが重要。 ポリシー駆動型PII保護を伴うコンフィデンシャルコンピュートと、LLMのゼロトラストセーフガードが有効な2つの対策として浮上している。
可観測性は「ブラックボックスの混乱」を防ぐ。 エージェントグラフによる分散トレーシングと、リプレイ＆シミュレーション環境は効率的な方法として有効性を示している。ただし、後者が現実のシナリオを完全に模倣することは期待しないこと。
評価とモデル移行は、企業が技術的負債を回避し、イノベーションを効率化するのに役立つ。 継続的評価パイプラインとデュアルラン移行戦略で市場に遅れずについていける。ただし、コストも考慮しなければならない。評価頻度の急増はROIに影響する可能性がある。
POCの95%が本番移行に失敗している。これはPOCのガードレールが現実のセキュリティリスクに対応できていないためだ。ポリシー対応の統合とリスクダッシュボード付きインパクト分析でスムーズな移行が可能となる。段階的な閾値設定でパフォーマンスも向上できる。

本記事はFoundry Expert Contributor Networkの一部として公開されています。
参加希望はこちら

翻訳元: https://www.csoonline.com/article/4076511/4-factors-creating-bottlenecks-for-enterprise-genai-adoption.html