Cloudflare 升级 AI 流量管理,按用途细分爬虫并调整默认拦截策略
Cloudflare 提出「搜索 / 智能体 / 训练」三类 AI 爬虫用途分类,并将于 2026 年 9 月 15 日…
Cloudflare 于 2026 年 7 月 1 日宣布对其 AI 流量管理体系进行重大升级,将原本单一的「拦截 AI Bot」选项扩展为基于用途的精细化管控,并提出全新的爬虫分类标准。这是其在一年前提出「内容独立日」、推出「一键拦截 AI Bot」与「按次付费抓取」市场之后的又一次方向性调整。
从「非黑即白」到用途分层
Cloudflare 在公告中指出,过去一年行业对 AI 爬虫的讨论从「一律拦截」逐步转向更具弹性的方案:一方面,内容方仍希望保护原创;另一方面,完全封锁会损害网站在搜索与发现场景中的可见度,形成「与搜索巨头交换流量」的不公平格局。
基于此,Cloudflare 不再以「是否为 AI 爬虫」作为单一分类标准,转而关注爬虫的具体行为——它在做什么、存储了什么、以及将如何再分发内容。这一思路为其后续的三类用途划分奠定基础。
三类用途:搜索、智能体、训练
Cloudflare 将主流 AI 爬虫行为归纳为以下三类,并建议网站主分别管理:
- 搜索(Search):主动建立站点数据库,以便后续回答相关查询,例如为搜索引擎或 AI 答案引擎建立索引。网站主应获得推荐流量或对等补偿。
- 智能体(Agent):实时代表用户执行任务,包括聊天取数(如 ChatGPT-User)和浏览器操作类智能体(如 Gemini、Claude 驱动 Chrome)。
- 训练(Training):抓取内容用于模型训练或微调,原始数据会被吸收进模型架构中。
Cloudflare 同时表示,一家公司的爬虫若同时承担上述多种用途,应拆分为独立爬虫,以提升透明度,便于网站主识别与管控。
新增细粒度管理选项
新版本将面向 Cloudflare 网络上「所有」网站主(包括免费套餐)开放按用途管理 AI 流量的能力。设置页面从过去的单一按钮,升级为可分别对搜索、智能体、训练三类爬虫进行允许或拦截的多选项界面。
默认值将于 9 月 15 日调整
Cloudflare 明确给出政策生效时间:2026 年 9 月 15 日起,对所有新接入 Cloudflare 的域名,含广告页面将默认拦截「训练」与「智能体」类爬虫,「搜索」类仍保持默认允许。
其逻辑是:广告是网站主希望真人访问并产生变现的信号,因此对这类页面采取更严格的 AI 流量限制。这一默认策略的变化,被业内视为对 AI 公司未授权数据抓取的进一步施压,也可能对部分依赖网页抓取训练的模型迭代节奏产生影响。
