Cloudflare 新规：默认拦截混合用途 AI 爬虫，2026 年 9 月生效

Cloudflare 周三宣布，将在 2026 年 9 月 15 日起对其网络爬虫管理策略做出重大调整：默认情况下，「混合用途（mixed-use）」爬虫——即同时承担搜索、智能体执行与模型训练任务的爬虫——将被禁止抓取任何投放了广告的页面。该规则适用于新客户、现有客户的新建站点，以及所有免费用户，除非站点所有者主动修改设置以放行。

政策核心：要求爬虫区分搜索、训练与智能体

Cloudflare 在公告中表示，大多数网站运营者既希望内容能被搜索引擎发现，也希望通过 AI 服务触达用户，但希望保护自身知识产权不被无偿用于模型训练。新默认策略正是为了回应这种诉求：爬虫必须在搜索、训练、智能体三种用途之间做出明确区分，否则将被拦截。

Cloudflare 联合创始人兼 CEO Matthew Prince 在声明中提到：「现在互联网上的多数流量已来自非人类，我们必须更快地采取行动，才能让可持续的生态系统成型。」他特意引用了机器人流量首次超过人类流量这一里程碑——而这一时点原本预计要到 2027 年才会到来。

直接点名 Google，强调数据获取差距

Cloudflare 在解释政策动因时，特别提及「全球最大的搜索引擎」（明显指向 Google）：由于搜索巨头让客户很难在不被用于 AI 的前提下保持可被检索，其能访问的网页数据量约为其他 AI 公司的「两倍」。

Google 此前已作出回应，提供名为「Google Extended」的机器人接口，允许站长选择在 Gemini App、Vertex API 等 AI 产品和服务中不被使用，启用该选项不影响站点在 Google 搜索中的收录。但 Googlebot 本身仍会同时为搜索与 AI Overviews、AI Mode 等 AI 功能抓取页面。

从「按抓取付费」到「按使用付费」

Cloudflare 此前已推出「Pay Per Crawl（按抓取付费）」市场，允许站长向 AI 爬虫收取抓取费用。该产品正在演化为「Pay Per Use（按使用付费）」，站长可以在内容真正产生价值时获得报酬——而不止于被抓取那一刻。

新机制首批合作伙伴为 Ceramic.ai 与 You.com：

Ceramic.ai：站点内容在其 AI 搜索结果中出现时获得分成
You.com：访问站点付费内容时触发结算

Cloudflare 表示，其他 AI 公司也可与平台合作，自定义类似付费模式。

对 AI 行业的潜在影响

Cloudflare 提供的数据显示，AI 爬虫产生的流量中，超过 50% 被用于重复抓取未发生变化的页面；新策略同时有助于节省出版方的带宽与计算资源。对依赖公开网络数据训练模型、或为智能体提供实时检索的 AI 公司而言，这道基础设施层面的门槛将迫使其重新审视爬取策略，进一步推动「爬虫身份透明化」与「数据授权商业化」的行业趋势。