世界最大級のインターネットインフラプロバイダーであるCloudflareは、サイトオーナーから直接許可を得ない限り、AIウェブクローラーをデフォルトでブロックし始めました。
この新しい方針は、AI開発者が大規模言語モデル(LLM)の学習のために自由にウェブをスクレイピングできていた従来の慣習を変更するものです。
AIクローリングのデフォルトブロック
これまでは、CloudflareはウェブサイトオーナーがAIクローリングをオプトアウトできるようにしていました。現在は、ブロックが自動的に行われます。この方針転換は、以前のオプション制のもとで100万以上の顧客がAIボットの制限を選択したことを受けてのものです。
今後は、AIベンダーはコンテンツへのアクセスについて明確な許可を求めなければならず、その目的が学習、推論、検索のいずれかも明らかにする必要があります。
「Cloudflareによるこの待望の機能は、多くのGenAIベンダーにとって真の災難であり、GenAIの現行ビジネスモデルにとって致命的かもしれません」と、ImmuniWebのCEOであり英国コンピュータ協会(BCS)のフェローでもあるDr Kolochenko氏は述べています。
「このセキュリティ機能は、データを貪欲に求めるボットが、許可も支払いもなく人間が作成したコンテンツを不当にスクレイピングすることを巧みに防ぎます。」
ウェブコンテンツの新たな経済モデル
この新方針では「Pay Per Crawl(クロールごとに支払い)」プログラムが導入されます。この機能により、選ばれた一部のパブリッシャーはAIスクレイパー向けの価格設定条件を決めることができます。その見返りとして、AI企業はコンテンツへのアクセス料を支払うか、アクセスを拒否されるかを選択できます。この許可ベースのアプローチは、以前のrobots.txtのような緩く運用されていたルールに頼っていたモデルとは対照的です。
AIスクレイピングについてさらに読む:生成AIスクレイパー活動の増加でグレーボットが急増
先週開催されたAxios Liveイベントで、CloudflareのCEOであるMatthew Prince氏は、より広範な影響について強調しました。
「インターネットがAI時代を生き残るためには、パブリッシャーにふさわしいコントロールを与え、誰にとっても機能する新たな経済モデルを構築する必要があります」とPrince氏は説明しました。
「要するに、ほとんどのGenAIベンダーはまもなく、質の高い学習データに対して公正な価格を支払いながら利益を維持するという厳しい現実に直面するでしょう。中国からの強力な競争を考えると、多くの西側のGenAI企業は経済的に成り立たず、単にビジネスから撤退するかもしれません」とKolochenko氏は付け加えました。
法的グレーゾーンとソーシャルメディアの例外
スクレイピングの合法性は依然として不透明です。2025年5月、アイルランドとドイツの規制当局は、プライバシー団体や消費者団体の反対にもかかわらず、MetaがFacebookやInstagramのデータをLlamaモデルの学習に使用することを阻止しませんでした。これらの動きは、急速に進化する技術と遅れがちな規制システムとのギャップを浮き彫りにしています。
「一部の法域では、アンチボット保護を意図的に回避し、大量のデータをスクレイピングすることは刑事犯罪となる可能性があります」とKolochenko氏は述べ、著作権ではなく契約違反の主張がGenAI企業にとって最も深刻な法的脅威となる可能性があると付け加えました。
翻訳元: https://www.infosecurity-magazine.com/news/cloudflare-blocks-ai-web-scraping/