LLM 网络采集新框架：约束式 JSON 配置换取可验证执行

一份在 arXiv 发布的研究论文提出了「受限、可验证」的代理框架，用于在开放网络上进行可重复的定时数据采集。研究指出，让 LLM 直接根据自然语言需求生成爬虫脚本，依旧存在依赖错误、选择器失效、字段不匹配以及页面结构差异等不稳定因素。因此，作者将代理输出从自由形式的代码转换为「类型化的 JSON 采集配置」，并引入静态执行与规则化质检流程，以换取可复用、可审计的执行路径。

核心问题：自由生成为何不稳

研究团队将现行做法概括为「自然语言 → 直接生成 scraper 代码」，并列举了四类典型故障：

第三方依赖安装或导入失败；
CSS / XPath 选择器因页面改版而失效；
抽取结果与目标 schema 不一致；
不同站点结构异构导致脚本难以复用。

这些缺陷使得一次性成功率受限，也使采集任务难以在 Airflow 这类调度系统中稳定运行。

框架设计：六类采集器与三层约束

新框架的核心思路是把采集需求拆解成受约束的结构化配置，主要由以下几部分组成：

六类采集器分类（six-type collector taxonomy），覆盖常见网页结构场景；
模板与工具函数约束，限制 LLM 只能从预置模板生成配置；
静态 Airflow DAG 执行，将 JSON 配置静态编译为调度任务；
基于规则的质量检查与结构化反馈修正，把校验失败的原因回传给上游。

通过这一链路，框架把 LLM 的介入集中在「需求拆解与配置生成」阶段，而真正执行采集时不再调用 LLM。

实验：138 任务与 80 任务独立验证

研究者在两组任务上评估了框架表现：

在 138 个任务中，确认该分类法可承载基于描述的需求类型化，并指出稳定实例化必须补齐「数据源、字段、执行」三层约束，而不仅仅是初始描述；
在 80 个独立完成来源验证的任务上，框架在执行阶段使用零 LLM token，并取得最低的平均 wall-clock 时间，以中等的一次性质量换取可重复、可确定、可验证的执行路径。

意义与局限

论文将自身定位为「可复用、低成本、可验证」的开放网络数据采集执行路径，特别适合需要周期性重跑的采集任务。不过，作者也承认，一次性生成质量有所下降，对于结构高度非标准的站点，仍需配合人工校正或后处理环节。该框架并未改变 LLM 生成爬虫的总体范式，而是将「生成」与「执行」解耦，使后者回归确定性流程，为工业级定时采集提供了一条更可控的路径。