arXiv 新论文:将 Agent 工作流编译进模型权重,挑战主流编排范式
arXiv 论文提出将 Agent 流程直接编译进小模型权重,以替代 LangGraph 等外部编排框架,并在差旅、客服…
- 重要性
- 52
- 新颖性
- 62
- 影响面
- 48
- 可信度
- 70
- 实质性
- 58
Simon Dennis 等作者在 arXiv 发表题为《Compiling Agentic Workflows into LLM Weights》的论文,针对当前 Agent 开发高度依赖外部编排框架的现象,提出一种替代路径:将业务流程直接编译进一个小型微调模型的权重中,使模型自身就能完成多步骤决策,而不再依赖每轮注入提示与路由控制。作者将这种模型称为「subterranean agent」(地下 Agent)。
主流编排框架的现状
论文首先梳理了当前 Agent 开发生态的格局:LangGraph、CrewAI、Google ADK、OpenAI Agents SDK、Semantic Kernel、Strands、LlamaIndex 等主流框架在 GitHub 上累计已超过 29 万颗星。它们遵循几乎相同的架构——在 LLM 之上再叠加一层外部编排器,每一轮对话中向模型注入指令并完成路由决策。
作者指出,近期研究已经表明,对于流程型任务,单纯把流程写进前沿模型的系统提示中,效果往往优于外部编排;但这种做法要付出三项代价:挤占上下文窗口、必须依赖前沿模型、并且把专有流程暴露给第三方服务商。
把流程「烤」进权重
为了同时解决上述三个问题,论文主张把流程直接编译进一个小尺寸微调模型的权重中,使模型本身成为流程的执行者。这并不是全新想法——SimpleTOD、FireAct、SynTOD、WorkflowLLM、Agent Lumos 等已有工作都证明该技术路径可行,但开发者社区至今仍以编排框架为主流。
作者认为,存在三个被普遍感知的障碍阻碍了该方案的落地,论文在三个差异化任务上对每个障碍逐一进行实证检验。
三个任务的实验设置
- 差旅预订(travel booking):14 个节点,覆盖典型的多轮预订对话流程。
- Zoom 客服支持(Zoom support):14 个节点,涉及 Zoom 产品相关的特定领域知识。
- 保险理赔(insurance claims):55 个节点,包含 6 个关键决策枢纽,复杂度显著高于前两者。
论文全篇共 19 页,针对每一类任务分别给出实验结果与分析,用以回答「编译进权重」是否真的能取代外部编排。
小结
论文的核心贡献不在于提出一个全新模型,而在于对「为什么要用编排框架」这一默认假设发起正面挑战,并提供覆盖轻量、中等、复杂三类流程的实证数据。对于正在评估 Agent 架构选型的团队而言,这篇论文提供了一个值得参考的对照视角:如果业务流程相对固定、且不希望将专有逻辑外泄,把流程编译进自有小模型或许比维护一套编排框架更划算。
论文编号为 arXiv:2605.22502,DOI 由 DataCite 颁发,作者署名为 Simon Dennis,提交时间为 2026 年 5 月 21 日。
