Cloudflareは火曜日、顧客がAIシステムのためにウェブサイトやデータをスクレイピングするウェブクローラーをブロックしたり、料金を請求したりできるようにすることを発表しました。
Cloudflareのプロダクト担当副社長Will Allen氏とエンジニアマネージャーのSimon Newton氏は、企業ウェブサイトのブログで、顧客からのフィードバックを受けてAIウェブクローラーを制限する新しいシステムを構築していると述べました。
「ペイ・パー・クロール」と呼ばれるこのベータ機能は、ウェブインフラストラクチャ、HTTPステータスコード、認証機構と統合し、顧客ウェブサイトへの有料コンテンツアクセスを可能にします。
この動きは、世界の約5分の1のウェブサイトにホスティングやサイバーセキュリティサービスを提供する同社が、AIウェブクローラーにデータへの無制限アクセスを許可したくないが、完全にブロックもしたくないという顧客からのフィードバックを受けてのものです。
「ニュース組織、出版社、大規模ソーシャルメディアプラットフォームとの何百もの会話を経て、私たちは一貫した要望を聞きました。それは、AIクローラーにコンテンツへのアクセスを許可したいが、対価を得たいというものです」とAllen氏とNewton氏は記しています。
ドメイン所有者はリクエストごとに定額料金を設定でき、パブリッシャーはクローラーを完全にブロックする、無料でアクセスを許可する、またはドメイン全体でアクセス料金を設定することができます。Cloudflareは取引の記録管理者(Merchant of Record)として機能し、ペイ・パー・クロールを運用するための基盤技術インフラも提供します。
一方、AIクローラーはシステムに登録し、さまざまなリソースの料金オプションを確認し、システムがコストに見合うかどうか判断できるよう最大価格ポイントを設定できます。Cloudflareのベータプログラム登録ページによると、不正な業者が正規クローラーを装い不正な支払いを受け取るのを防ぐため、AIクローラーはCloudflareに登録し、主要ディレクトリのURLやユーザーエージェント情報も提供する必要があります。
よくある質問セクションのエントリーでは、毎日何兆ものリクエストを処理し、自動化されたDDoS攻撃を撃退している同社が、「世界で最も高度なボット管理ソリューション」を持っているとし、機械学習、行動分析、デジタルフィンガープリントの組み合わせでAIクローラーと検索エンジンボット、認証済みボットプログラム、その他の「良い」自動ウェブスクレイピングを区別していると述べています。
この発表は、AIモデルが自らのシステムを養い学習させる主要な手段の一つ、すなわちウェブスクレイピング技術を通じて公開されているあらゆるデータを収集する方法に、潜在的に大きな打撃を与えるものです。
ウェブスクレイピング自体は新しいものではありませんが、大規模言語モデルのデータ需要の高まりによりこの慣行は持続不可能なレベルにまで拡大し、トラフィック帯域幅を消費し、サイトの読み込み速度低下やその他のサービス障害を引き起こしています。ウィキメディア財団によれば、2024年1月以降、最もコストのかかるトラフィックの65%がボットによるものとなっています。また、マルチメディアコンテンツのダウンロードに使われる帯域幅も50%増加しており、AIスクレイパーの拡大が「私たちのサイトをすべての人に提供し続ける基盤インフラに大きな負荷をかけている」と指摘しています。
「リクエスト量の大幅な増加を観測しており、そのほとんどが大規模言語モデル(LLM)やその他の用途のためにトレーニングデータを収集するスクレイピングボットによるものです」と財団のメンバーは4月に記しています。「私たちのコンテンツへの自動リクエストは、スクレイピング、API、バルクダウンロードなどの仕組みを通じて、テクノロジー経済全体の拡大とともに指数関数的に増加しています。」
Allen氏とNewton氏は、ペイ・パー・クロールのような機能は、AIシステムがあらゆる利用可能なソースからデータを収集する中で「オンライン上のコンテンツ管理方法」の大きな変化の一部であると述べています。彼らは、このプログラムが今後数年でさまざまな取引やマーケットプレイスをカバーするよう「大きく進化する」と見込んでいます。
「例えば、出版社やニュース組織は、異なるパスやコンテンツタイプごとに異なる料金を設定したいかもしれません」と著者らは記しています。「需要だけでなく、AIアプリケーションのユーザー数に基づいて動的な価格設定を導入するにはどうすればよいでしょうか?トレーニング、推論、検索、あるいはまったく新しい用途のために、インターネット規模で細かなライセンスを導入するにはどうすればよいでしょうか?」
ウェブサイトやデータ所有者への補償システムを確立する動きは、OpenAIのようなAI企業が、アーティスト、作家、出版社、その他のコンテンツ制作者から、AI企業が他者の制作したコンテンツを使ってシステムを訓練し利益を得ているとして、数多くの著作権訴訟に直面している中でのことです。
翻訳元: https://cyberscoop.com/cloudflare-ai-web-crawlers-pay-per-crawl-websites-data/