桃子桃子 AI 快讯
返回首页
研究论文

arXiv 新论文:将 Agent 工作流编译进模型权重,挑战主流编排范式

arXiv 论文提出将 Agent 流程直接编译进小模型权重,以替代 LangGraph 等外部编排框架,并在差旅、客服…

2026.06.30 · 周二3 分钟阅读评分 56
评分细项加权总分 56
重要性
52
新颖性
62
影响面
48
可信度
70
实质性
58

Simon Dennis 等作者在 arXiv 发表题为《Compiling Agentic Workflows into LLM Weights》的论文,针对当前 Agent 开发高度依赖外部编排框架的现象,提出一种替代路径:将业务流程直接编译进一个小型微调模型的权重中,使模型自身就能完成多步骤决策,而不再依赖每轮注入提示与路由控制。作者将这种模型称为「subterranean agent」(地下 Agent)。

主流编排框架的现状

论文首先梳理了当前 Agent 开发生态的格局:LangGraph、CrewAI、Google ADK、OpenAI Agents SDK、Semantic Kernel、Strands、LlamaIndex 等主流框架在 GitHub 上累计已超过 29 万颗星。它们遵循几乎相同的架构——在 LLM 之上再叠加一层外部编排器,每一轮对话中向模型注入指令并完成路由决策。

作者指出,近期研究已经表明,对于流程型任务,单纯把流程写进前沿模型的系统提示中,效果往往优于外部编排;但这种做法要付出三项代价:挤占上下文窗口、必须依赖前沿模型、并且把专有流程暴露给第三方服务商。

把流程「烤」进权重

为了同时解决上述三个问题,论文主张把流程直接编译进一个小尺寸微调模型的权重中,使模型本身成为流程的执行者。这并不是全新想法——SimpleTOD、FireAct、SynTOD、WorkflowLLM、Agent Lumos 等已有工作都证明该技术路径可行,但开发者社区至今仍以编排框架为主流。

作者认为,存在三个被普遍感知的障碍阻碍了该方案的落地,论文在三个差异化任务上对每个障碍逐一进行实证检验。

三个任务的实验设置

  • 差旅预订(travel booking):14 个节点,覆盖典型的多轮预订对话流程。
  • Zoom 客服支持(Zoom support):14 个节点,涉及 Zoom 产品相关的特定领域知识。
  • 保险理赔(insurance claims):55 个节点,包含 6 个关键决策枢纽,复杂度显著高于前两者。

论文全篇共 19 页,针对每一类任务分别给出实验结果与分析,用以回答「编译进权重」是否真的能取代外部编排。

小结

论文的核心贡献不在于提出一个全新模型,而在于对「为什么要用编排框架」这一默认假设发起正面挑战,并提供覆盖轻量、中等、复杂三类流程的实证数据。对于正在评估 Agent 架构选型的团队而言,这篇论文提供了一个值得参考的对照视角:如果业务流程相对固定、且不希望将专有逻辑外泄,把流程编译进自有小模型或许比维护一套编排框架更划算。

论文编号为 arXiv:2605.22502,DOI 由 DataCite 颁发,作者署名为 Simon Dennis,提交时间为 2026 年 5 月 21 日。

信源