研究论文
LLM 网络采集新框架:约束式 JSON 配置换取可验证执行
针对 LLM 生成爬虫不稳的问题,研究者提出受限可验证代理框架,用类型化 JSON 配置替代自由代码,在 138 个任务…
2026.07.02 · 周四约 3 分钟阅读
一份在 arXiv 发布的研究论文提出了「受限、可验证」的代理框架,用于在开放网络上进行可重复的定时数据采集。研究指出,让 LLM 直接根据自然语言需求生成爬虫脚本,依旧存在依赖错误、选择器失效、字段不匹配以及页面结构差异等不稳定因素。因此,作者将代理输出从自由形式的代码转换为「类型化的 JSON 采集配置」,并引入静态执行与规则化质检流程,以换取可复用、可审计的执行路径。
核心问题:自由生成为何不稳
研究团队将现行做法概括为「自然语言 → 直接生成 scraper 代码」,并列举了四类典型故障:
- 第三方依赖安装或导入失败;
- CSS / XPath 选择器因页面改版而失效;
- 抽取结果与目标 schema 不一致;
- 不同站点结构异构导致脚本难以复用。
这些缺陷使得一次性成功率受限,也使采集任务难以在 Airflow 这类调度系统中稳定运行。
框架设计:六类采集器与三层约束
新框架的核心思路是把采集需求拆解成受约束的结构化配置,主要由以下几部分组成:
- 六类采集器分类(six-type collector taxonomy),覆盖常见网页结构场景;
- 模板与工具函数约束,限制 LLM 只能从预置模板生成配置;
- 静态 Airflow DAG 执行,将 JSON 配置静态编译为调度任务;
- 基于规则的质量检查与结构化反馈修正,把校验失败的原因回传给上游。
通过这一链路,框架把 LLM 的介入集中在「需求拆解与配置生成」阶段,而真正执行采集时不再调用 LLM。
实验:138 任务与 80 任务独立验证
研究者在两组任务上评估了框架表现:
- 在 138 个任务中,确认该分类法可承载基于描述的需求类型化,并指出稳定实例化必须补齐「数据源、字段、执行」三层约束,而不仅仅是初始描述;
- 在 80 个独立完成来源验证的任务上,框架在执行阶段使用 零 LLM token,并取得最低的平均 wall-clock 时间,以中等的一次性质量换取可重复、可确定、可验证的执行路径。
意义与局限
论文将自身定位为「可复用、低成本、可验证」的开放网络数据采集执行路径,特别适合需要周期性重跑的采集任务。不过,作者也承认,一次性生成质量有所下降,对于结构高度非标准的站点,仍需配合人工校正或后处理环节。该框架并未改变 LLM 生成爬虫的总体范式,而是将「生成」与「执行」解耦,使后者回归确定性流程,为工业级定时采集提供了一条更可控的路径。
