OpenAIのAtlasのようなエージェント型AIブラウザが大きな注目とともに登場し、その熱狂には十分な理由があります。これらのツールはウェブ閲覧を自動化し、「やりたいこと」と「実際にやり遂げること」の間のギャップを埋めます。複数のタブを手作業で開く代わりに、必要なことをブラウザに伝えるだけで済みます。競合のブリーフを作成する、フォームに入力する、会議を設定する、と頼めば、あなたが見守る間にタスクを処理してくれます。
しかし、この進化には厳然たる現実が伴います。エージェント型ブラウザは、これまでにない形で企業の攻撃対象領域を拡大します。ウェブが「閲覧するもの」から「私たちの代わりに行動するもの」へと移行するにつれ、リスクは高まります。エージェント型AIブラウザはもはや受動的なツールではありません。主体的に動き、私たちの代わりに操作し、場合によっては管理者権限で行動します。これは信頼とリスクにおける地殻変動級の変化です。
ブラウジング革命:読む側から行動する側へ
エージェント型AIは実行モデルです。ユーザーの意図を解釈し、一連の行動を計画し、複数のウェブサイトにまたがって自律的に実行します。ここ数か月、私は複数のエージェント型ブラウザ(Atlas、Comet、Dia、Surf、Fellou)を徹底的にテストし、他のもの(Neon、Genspark)についても限定的なテストを行いました。
各ブラウザは、同じ根本課題に対して異なるアプローチを示しています。すなわち、絶え間ないタブ切り替えをなくし、ユーザーが一か所でタスクを完了できるようにすることです。ChatGPTを基盤とするAtlasは、ブラウジング用サンドボックス内での監督付きアクションを重視します。Cometは「リサーチ速度」を優先し、複数タブにまたがる協調エージェントを用いて情報収集を高速化します。Neonは包括的なブラウザ自動化体験を提供し、自分のマシン上で実行する選択肢もあります。GensparkとFellouは、人間の監督を減らしつつ、より多くのアクションを実行するよう設計されています。
しかし、これらのツールが高機能になるほど、それに比例して危険性も増します。
隠れたセキュリティ脅威
TLS暗号化やエンドポイント保護といった従来のブラウザセキュリティ対策は、AIエージェントが生み出すリスクに対処するようには設計されていません。これらのツールは、いくつもの重大な新しい攻撃ベクトルを導入します。具体的には次のとおりです。
間接的プロンプトインジェクション:悪意ある指示は、ユーザーには見えない形でウェブサイトに埋め込まれることがあります。コンテンツを解釈して行動する任務を負うエージェントが、これらの手掛かりを正当な指示だと誤認する可能性があります。たとえば、隠しHTMLを含む不正なブログ投稿が、エージェントに社内文書を攻撃者へメール送信させる、といったケースです。ブラウザエージェントがそれをタスクフローの一部として扱えば、人間が介入する前に被害が発生し得ます。
クリップボードおよび認証情報の痕跡:一部のエージェントは、操作を実行するためにクリップボードやブラウザセッションとやり取りします。エージェントが機密トークンやパスワードにアクセスできる場合、特に明確なログや承認ワークフローがないと、攻撃者が細工したウェブコンテンツを通じてこのアクセスを悪用する恐れがあります。
不透明な実行フロー:これらのブラウザの多くはブラックボックスのエージェントで動作します。詳細なログ、ロールバック機能、サンドボックスがなければ、ユーザーは手遅れになるまで、エージェントが裏で何をしているのか把握できないことが少なくありません。たとえばCometは驚異的な速度を提供しますが、プロンプトインジェクションや認証情報の不正利用に対する脆弱性が示されています。
過剰権限の自動化:タスクが複数のサイト、アカウント、ツールにまたがる場合、AIエージェントにすべてへのアクセスを許したくなるものです。しかし、細かな権限設定や承認チェックポイントなしにそのような制御を与えると、ラテラルムーブメント攻撃(侵害されたエージェントが、より広範なシステムへの入口になる)を招く恐れがあります。
スコープを限定した権限、透明なログ、サンドボックスといった明確なガードレールがなければ、これらのツールはユーザーに代わって、悪意ある、または未承認のアクションを意図せず実行してしまう可能性があります。
ガバナンスは任意ではない
企業の購入担当者は、ガバナンスを二次的な懸念として捉えるのをやめるべきです。最も安全なツールとは、エージェントができることを制限するツールです。
たとえばAtlasは、機密性の高いサイトでは監督付きモード(「Watch Mode」)にアクションを限定し、重要なことが起きる前に能動的な監視を求めます。Neonはユーザーのセッション内でローカルにアクションを実行し、認証情報をクラウドエージェントへ移送することを避けます。Surf(現在はオープンソース)とDia(最近Atlassianに買収)は、エージェントが独立してアクションを取れないようにしており、攻撃対象領域を抑えています。
一方でGensparkとFellouは、広範な自律性を約束します。そのセキュリティ特性もその野心を反映しており、ユーザーレビューでは不安定さ、検証不能な主張、サンドボックス化された段階的ロールアウトの必要性が指摘されています。
企業リーダーへの実践的アドバイス
これらの新しいブラウザに関心はあるがセキュリティが心配な企業にとって、答えはシンプルです。狭く始めることです。組織全体にエージェントを展開するのではなく、まずは少数の明確に定義されたワークフローから始めてください。競合ブリーフの下書き、ベンダーRFPのレビュー、出張手配など、具体的なタスクを3つ選びます。そして、完了までの速度、ミスの頻度、成果物の品質といった主要指標を追跡します。
次に、エンタープライズ級の統制を適用します。これには次が含まれます。
- エージェントがメッセージ送信、メール送信、購入を行う際には、各アクションごとに承認を必須にする。
- ロールベースアクセスを用いて、エージェントが触れられる範囲を制限する。
- 重要システム(例:HRIS、財務ツール、ソースコードリポジトリ)を完全にスコープ外にする。
- エージェントが実行した各アクションと、それを引き起こした入力を記録する透明なログを要求する。
ユーザーのトレーニングも同様に重要です。良いプロンプトの書き方に関する基本的なトレーニングだけでも大きな差が出ます。エージェントが言語をどう解釈するか、プロンプトインジェクションがどう機能するか、不審な出力をどう見分けるかをチームが理解できるよう支援してください。
最も重要なのは、1つのブラウザにすべてを賭けないことです。代わりに、低リスクのワークフローには(CometやAtlasのように)より独立して動作するエージェントを選び、支援は必要だが完全自動化は不要な従業員には(Diaのような)よりガイド付きのツールを組み合わせてください。
節度ある楽観
リスクはあるものの、私は楽観的です。エージェント型ブラウジングへの移行は、私たちの働き方を根本から作り替えつつあります。正しく、慎重に適用すれば、これらのツールは時間を節約し、摩擦を減らし、これまで以上に速く洞察を引き出す助けになります。
しかし、新しさと安全性を混同する余裕はありません。統制を後付けするのではなく最初から組み込む責任はベンダーにあり、思慮深くパイロットする責任は企業にあります。私たちは、ブラウザ拡張機能、モバイルアプリ、クラウドファーストのツールでも以前に同じパターンを見てきました。健全な懐疑心と堅牢なガードレールをもって臨んだ組織こそが、侵害を招くことなく恩恵を得ました。エージェント型AIも例外ではありません。
Shanti GreeneはAnswerRocketのデータサイエンスおよびAIイノベーション責任者。
翻訳元: https://cyberscoop.com/agentic-ai-browsers-security-enterprise-risk/