桃子桃子快讯
返回首页
行业动态

Cloudflare 默认拦截 AI 爬虫,重塑数据获取规则

Cloudflare 宣布 9 月起对 AI 爬虫默认屏蔽并将爬虫分为三类管理,同时升级为按价值付费的内容交易模式,引发…

2026.07.05 · 周日5 分钟阅读

Cloudflare 于 7 月 1 日发布博客,宣布自 9 月 15 日起,所有接入其服务的网站将默认屏蔽混合用途的 AI 爬虫。这一政策将互联网基础设施层与 AI 数据获取方式的博弈推到了台前,也把 Cloudflare 从单纯的「保安」推向「收银员」甚至「裁判」的多重角色。

政策核心:默认屏蔽与三类爬虫分类

Cloudflare 此次政策的核心逻辑发生了翻转:此前是「默认允许,站长可选择屏蔽」,现在变为「默认屏蔽,站长可手动放行」。触发屏蔽的条件是网站页面包含广告内容,也就是说,带有商业化属性的站点将率先受到保护。

Cloudflare 将 AI 爬虫拆分为三类:

  • Search(搜索爬虫):为搜索引擎建索引的传统爬虫,如 Googlebot 的索引功能。
  • Agent(智能体爬虫):受用户实时委派访问网页的 AI 代理,例如 ChatGPT 代用户查询信息、填写表单。
  • Training(训练爬虫):大规模抓取内容用于模型训练。

站长可针对每一类分别设置允许或屏蔽。Cloudflare 还引入「最严规则优先」原则:若爬虫同时承担搜索与训练功能,则按最严格的规则统一执行。这意味着只要屏蔽 Training,Googlebot、Applebot、Bingbot 等混合爬虫也会被一并拦截。

直接冲击:Google 的「捆绑」模式被拆解

Cloudflare 的分类设计直接指向 Google。Googlebot 同时承担搜索索引与 AI 功能(如 AI Overviews)数据采集,搜索与 AI 的数据需求在 Google 架构中从未真正分开。Cloudflare 数据显示,由于站长必须开放 Googlebot 以维持搜索可见性,Google 借此获得的网页内容访问量约为其他 AI 公司的两倍。

Cloudflare 还披露了各 AI 公司爬取与回流的失衡比例:Google 约为 14:1,OpenAI 为 1,700:1,Anthropic 高达 73,000:1。这意味着传统「爬内容换流量」的社会契约在 AI 时代已难以维系。

商业模式升级:从 Pay Per Crawl 到 Pay Per Use

在防御之外,Cloudflare 进一步布局商业化。去年 7 月推出的 Pay Per Crawl 按爬取次数收费,今年升级为 Pay Per Use——只有内容在 AI 系统中产生实际价值(如被用于生成回答或出现在 AI 搜索结果中),站长才能收到费用。

目前合作伙伴为 Ceramic.ai 与 You.com 两家 AI 搜索公司。Condé Nast、Dotdash Meredith、Reddit 等大型出版商已公开支持,Condé Nast CEO 将其称为「游戏规则的改变」。不过,OpenAI、Google、Anthropic 等真正大规模消耗内容的公司尚未加入。

值得注意的是,Cloudflare 自身也运营爬虫 API(今年 3 月发布),可一次性抓取整站内容并返回 HTML、Markdown 或结构化 JSON。有出版商尝试屏蔽该爬虫时一度设置不生效,尽管 Cloudflare 后续修复了问题,但仍引发「裁判下场参赛」的质疑。

个体创作者能否受益仍存疑

大出版商有内容规模与法务能力,过去一年全球已签署超过 50 份内容许可协议,Cloudflare 对它们而言是工具之一而非唯一出路。但对个人博主、独立开发者、自媒体而言,屏蔽 AI 爬虫可能意味着在 AI 搜索中彻底消失,因为它们原本就缺乏曝光资源。

更严峻的数据是:AI 聊天机器人带来的引荐流量比传统搜索少约 96%;用户点击 AI 回答中引用来源的概率仅约 1%;Google AI Overviews 导致外链点击量下降约 40%。出版商过去一年因 AI 搜索损失了 20% 至 90% 的流量与收入。即便 Pay Per Use 全面铺开,付费规模可能也远不足以弥补已损失的收益。

结语:收费站变了,收费的人未必变

Cloudflare 管理着全球约 20% 的网络流量,既举足轻重,又不足以覆盖全网。Google 与 Apple 爬虫已提供选退工具,可能借此规避拦截;英国 CMA 正从监管角度向 Google 施压。一家基础设施公司的政策不会终结内容权益的重新分配,但它揭示了一个深层趋势:互联网的「收费站」正从搜索引擎层下沉至基础设施层。路还是那条路,但守门的人换了位置。

信源