Cloudflare 默认拦截 AI 爬虫，重塑数据获取规则

Cloudflare 于 7 月 1 日发布博客，宣布自 9 月 15 日起，所有接入其服务的网站将默认屏蔽混合用途的 AI 爬虫。这一政策将互联网基础设施层与 AI 数据获取方式的博弈推到了台前，也把 Cloudflare 从单纯的「保安」推向「收银员」甚至「裁判」的多重角色。

政策核心：默认屏蔽与三类爬虫分类

Cloudflare 此次政策的核心逻辑发生了翻转：此前是「默认允许，站长可选择屏蔽」，现在变为「默认屏蔽，站长可手动放行」。触发屏蔽的条件是网站页面包含广告内容，也就是说，带有商业化属性的站点将率先受到保护。

Cloudflare 将 AI 爬虫拆分为三类：

Search（搜索爬虫）：为搜索引擎建索引的传统爬虫，如 Googlebot 的索引功能。
Agent（智能体爬虫）：受用户实时委派访问网页的 AI 代理，例如 ChatGPT 代用户查询信息、填写表单。
Training（训练爬虫）：大规模抓取内容用于模型训练。

站长可针对每一类分别设置允许或屏蔽。Cloudflare 还引入「最严规则优先」原则：若爬虫同时承担搜索与训练功能，则按最严格的规则统一执行。这意味着只要屏蔽 Training，Googlebot、Applebot、Bingbot 等混合爬虫也会被一并拦截。

直接冲击：Google 的「捆绑」模式被拆解

Cloudflare 的分类设计直接指向 Google。Googlebot 同时承担搜索索引与 AI 功能（如 AI Overviews）数据采集，搜索与 AI 的数据需求在 Google 架构中从未真正分开。Cloudflare 数据显示，由于站长必须开放 Googlebot 以维持搜索可见性，Google 借此获得的网页内容访问量约为其他 AI 公司的两倍。

Cloudflare 还披露了各 AI 公司爬取与回流的失衡比例：Google 约为 14:1，OpenAI 为 1,700:1，Anthropic 高达 73,000:1。这意味着传统「爬内容换流量」的社会契约在 AI 时代已难以维系。

商业模式升级：从 Pay Per Crawl 到 Pay Per Use

在防御之外，Cloudflare 进一步布局商业化。去年 7 月推出的 Pay Per Crawl 按爬取次数收费，今年升级为 Pay Per Use——只有内容在 AI 系统中产生实际价值（如被用于生成回答或出现在 AI 搜索结果中），站长才能收到费用。

目前合作伙伴为 Ceramic.ai 与 You.com 两家 AI 搜索公司。Condé Nast、Dotdash Meredith、Reddit 等大型出版商已公开支持，Condé Nast CEO 将其称为「游戏规则的改变」。不过，OpenAI、Google、Anthropic 等真正大规模消耗内容的公司尚未加入。

值得注意的是，Cloudflare 自身也运营爬虫 API（今年 3 月发布），可一次性抓取整站内容并返回 HTML、Markdown 或结构化 JSON。有出版商尝试屏蔽该爬虫时一度设置不生效，尽管 Cloudflare 后续修复了问题，但仍引发「裁判下场参赛」的质疑。

个体创作者能否受益仍存疑

大出版商有内容规模与法务能力，过去一年全球已签署超过 50 份内容许可协议，Cloudflare 对它们而言是工具之一而非唯一出路。但对个人博主、独立开发者、自媒体而言，屏蔽 AI 爬虫可能意味着在 AI 搜索中彻底消失，因为它们原本就缺乏曝光资源。

更严峻的数据是：AI 聊天机器人带来的引荐流量比传统搜索少约 96%；用户点击 AI 回答中引用来源的概率仅约 1%；Google AI Overviews 导致外链点击量下降约 40%。出版商过去一年因 AI 搜索损失了 20% 至 90% 的流量与收入。即便 Pay Per Use 全面铺开，付费规模可能也远不足以弥补已损失的收益。

结语：收费站变了，收费的人未必变

Cloudflare 管理着全球约 20% 的网络流量，既举足轻重，又不足以覆盖全网。Google 与 Apple 爬虫已提供选退工具，可能借此规避拦截；英国 CMA 正从监管角度向 Google 施压。一家基础设施公司的政策不会终结内容权益的重新分配，但它揭示了一个深层趋势：互联网的「收费站」正从搜索引擎层下沉至基础设施层。路还是那条路，但守门的人换了位置。