桃子桃子快讯
返回首页
研究论文

LLM 网络采集新框架:约束式 JSON 配置换取可验证执行

针对 LLM 生成爬虫不稳的问题,研究者提出受限可验证代理框架,用类型化 JSON 配置替代自由代码,在 138 个任务…

2026.07.02 · 周四3 分钟阅读

一份在 arXiv 发布的研究论文提出了「受限、可验证」的代理框架,用于在开放网络上进行可重复的定时数据采集。研究指出,让 LLM 直接根据自然语言需求生成爬虫脚本,依旧存在依赖错误、选择器失效、字段不匹配以及页面结构差异等不稳定因素。因此,作者将代理输出从自由形式的代码转换为「类型化的 JSON 采集配置」,并引入静态执行与规则化质检流程,以换取可复用、可审计的执行路径。

核心问题:自由生成为何不稳

研究团队将现行做法概括为「自然语言 → 直接生成 scraper 代码」,并列举了四类典型故障:

  • 第三方依赖安装或导入失败;
  • CSS / XPath 选择器因页面改版而失效;
  • 抽取结果与目标 schema 不一致;
  • 不同站点结构异构导致脚本难以复用。

这些缺陷使得一次性成功率受限,也使采集任务难以在 Airflow 这类调度系统中稳定运行。

框架设计:六类采集器与三层约束

新框架的核心思路是把采集需求拆解成受约束的结构化配置,主要由以下几部分组成:

  • 六类采集器分类(six-type collector taxonomy),覆盖常见网页结构场景;
  • 模板与工具函数约束,限制 LLM 只能从预置模板生成配置;
  • 静态 Airflow DAG 执行,将 JSON 配置静态编译为调度任务;
  • 基于规则的质量检查与结构化反馈修正,把校验失败的原因回传给上游。

通过这一链路,框架把 LLM 的介入集中在「需求拆解与配置生成」阶段,而真正执行采集时不再调用 LLM。

实验:138 任务与 80 任务独立验证

研究者在两组任务上评估了框架表现:

  • 在 138 个任务中,确认该分类法可承载基于描述的需求类型化,并指出稳定实例化必须补齐「数据源、字段、执行」三层约束,而不仅仅是初始描述;
  • 在 80 个独立完成来源验证的任务上,框架在执行阶段使用 LLM token,并取得最低的平均 wall-clock 时间,以中等的一次性质量换取可重复、可确定、可验证的执行路径。

意义与局限

论文将自身定位为「可复用、低成本、可验证」的开放网络数据采集执行路径,特别适合需要周期性重跑的采集任务。不过,作者也承认,一次性生成质量有所下降,对于结构高度非标准的站点,仍需配合人工校正或后处理环节。该框架并未改变 LLM 生成爬虫的总体范式,而是将「生成」与「执行」解耦,使后者回归确定性流程,为工业级定时采集提供了一条更可控的路径。

信源