Cloudflare 新规:默认拦截混合用途 AI 爬虫,2026 年 9 月生效
Cloudflare 宣布 2026 年 9 月 15 日起,默认阻断混合搜索、训练与智能体用途的爬虫抓取广告页面,并推…
Cloudflare 周三宣布,将在 2026 年 9 月 15 日起对其网络爬虫管理策略做出重大调整:默认情况下,「混合用途(mixed-use)」爬虫——即同时承担搜索、智能体执行与模型训练任务的爬虫——将被禁止抓取任何投放了广告的页面。该规则适用于新客户、现有客户的新建站点,以及所有免费用户,除非站点所有者主动修改设置以放行。
政策核心:要求爬虫区分搜索、训练与智能体
Cloudflare 在公告中表示,大多数网站运营者既希望内容能被搜索引擎发现,也希望通过 AI 服务触达用户,但希望保护自身知识产权不被无偿用于模型训练。新默认策略正是为了回应这种诉求:爬虫必须在搜索、训练、智能体三种用途之间做出明确区分,否则将被拦截。
Cloudflare 联合创始人兼 CEO Matthew Prince 在声明中提到:「现在互联网上的多数流量已来自非人类,我们必须更快地采取行动,才能让可持续的生态系统成型。」他特意引用了机器人流量首次超过人类流量这一里程碑——而这一时点原本预计要到 2027 年才会到来。
直接点名 Google,强调数据获取差距
Cloudflare 在解释政策动因时,特别提及「全球最大的搜索引擎」(明显指向 Google):由于搜索巨头让客户很难在不被用于 AI 的前提下保持可被检索,其能访问的网页数据量约为其他 AI 公司的「两倍」。
Google 此前已作出回应,提供名为「Google Extended」的机器人接口,允许站长选择在 Gemini App、Vertex API 等 AI 产品和服务中不被使用,启用该选项不影响站点在 Google 搜索中的收录。但 Googlebot 本身仍会同时为搜索与 AI Overviews、AI Mode 等 AI 功能抓取页面。
从「按抓取付费」到「按使用付费」
Cloudflare 此前已推出「Pay Per Crawl(按抓取付费)」市场,允许站长向 AI 爬虫收取抓取费用。该产品正在演化为「Pay Per Use(按使用付费)」,站长可以在内容真正产生价值时获得报酬——而不止于被抓取那一刻。
新机制首批合作伙伴为 Ceramic.ai 与 You.com:
- Ceramic.ai:站点内容在其 AI 搜索结果中出现时获得分成
- You.com:访问站点付费内容时触发结算
Cloudflare 表示,其他 AI 公司也可与平台合作,自定义类似付费模式。
对 AI 行业的潜在影响
Cloudflare 提供的数据显示,AI 爬虫产生的流量中,超过 50% 被用于重复抓取未发生变化的页面;新策略同时有助于节省出版方的带宽与计算资源。对依赖公开网络数据训练模型、或为智能体提供实时检索的 AI 公司而言,这道基础设施层面的门槛将迫使其重新审视爬取策略,进一步推动「爬虫身份透明化」与「数据授权商业化」的行业趋势。
