Cloudflare 升级 AI 流量管理，按用途细分爬虫并调整默认拦截策略

Cloudflare 于 2026 年 7 月 1 日宣布对其 AI 流量管理体系进行重大升级，将原本单一的「拦截 AI Bot」选项扩展为基于用途的精细化管控，并提出全新的爬虫分类标准。这是其在一年前提出「内容独立日」、推出「一键拦截 AI Bot」与「按次付费抓取」市场之后的又一次方向性调整。

从「非黑即白」到用途分层

Cloudflare 在公告中指出，过去一年行业对 AI 爬虫的讨论从「一律拦截」逐步转向更具弹性的方案：一方面，内容方仍希望保护原创；另一方面，完全封锁会损害网站在搜索与发现场景中的可见度，形成「与搜索巨头交换流量」的不公平格局。

基于此，Cloudflare 不再以「是否为 AI 爬虫」作为单一分类标准，转而关注爬虫的具体行为——它在做什么、存储了什么、以及将如何再分发内容。这一思路为其后续的三类用途划分奠定基础。

Cloudflare 将主流 AI 爬虫行为归纳为以下三类，并建议网站主分别管理：

搜索（Search）：主动建立站点数据库，以便后续回答相关查询，例如为搜索引擎或 AI 答案引擎建立索引。网站主应获得推荐流量或对等补偿。
智能体（Agent）：实时代表用户执行任务，包括聊天取数（如 ChatGPT-User）和浏览器操作类智能体（如 Gemini、Claude 驱动 Chrome）。
训练（Training）：抓取内容用于模型训练或微调，原始数据会被吸收进模型架构中。

Cloudflare 同时表示，一家公司的爬虫若同时承担上述多种用途，应拆分为独立爬虫，以提升透明度，便于网站主识别与管控。

新版本将面向 Cloudflare 网络上「所有」网站主（包括免费套餐）开放按用途管理 AI 流量的能力。设置页面从过去的单一按钮，升级为可分别对搜索、智能体、训练三类爬虫进行允许或拦截的多选项界面。

Cloudflare 明确给出政策生效时间：2026 年 9 月 15 日起，对所有新接入 Cloudflare 的域名，含广告页面将默认拦截「训练」与「智能体」类爬虫，「搜索」类仍保持默认允许。

其逻辑是：广告是网站主希望真人访问并产生变现的信号，因此对这类页面采取更严格的 AI 流量限制。这一默认策略的变化，被业内视为对 AI 公司未授权数据抓取的进一步施压，也可能对部分依赖网页抓取训练的模型迭代节奏产生影响。