arXiv 新论文：将 Agent 工作流编译进模型权重，挑战主流编排范式

Simon Dennis 等作者在 arXiv 发表题为《Compiling Agentic Workflows into LLM Weights》的论文，针对当前 Agent 开发高度依赖外部编排框架的现象，提出一种替代路径：将业务流程直接编译进一个小型微调模型的权重中，使模型自身就能完成多步骤决策，而不再依赖每轮注入提示与路由控制。作者将这种模型称为「subterranean agent」（地下 Agent）。

主流编排框架的现状

论文首先梳理了当前 Agent 开发生态的格局：LangGraph、CrewAI、Google ADK、OpenAI Agents SDK、Semantic Kernel、Strands、LlamaIndex 等主流框架在 GitHub 上累计已超过 29 万颗星。它们遵循几乎相同的架构——在 LLM 之上再叠加一层外部编排器，每一轮对话中向模型注入指令并完成路由决策。

作者指出，近期研究已经表明，对于流程型任务，单纯把流程写进前沿模型的系统提示中，效果往往优于外部编排；但这种做法要付出三项代价：挤占上下文窗口、必须依赖前沿模型、并且把专有流程暴露给第三方服务商。

把流程「烤」进权重

为了同时解决上述三个问题，论文主张把流程直接编译进一个小尺寸微调模型的权重中，使模型本身成为流程的执行者。这并不是全新想法——SimpleTOD、FireAct、SynTOD、WorkflowLLM、Agent Lumos 等已有工作都证明该技术路径可行，但开发者社区至今仍以编排框架为主流。

作者认为，存在三个被普遍感知的障碍阻碍了该方案的落地，论文在三个差异化任务上对每个障碍逐一进行实证检验。

三个任务的实验设置

差旅预订（travel booking）：14 个节点，覆盖典型的多轮预订对话流程。
Zoom 客服支持（Zoom support）：14 个节点，涉及 Zoom 产品相关的特定领域知识。
保险理赔（insurance claims）：55 个节点，包含 6 个关键决策枢纽，复杂度显著高于前两者。

论文全篇共 19 页，针对每一类任务分别给出实验结果与分析，用以回答「编译进权重」是否真的能取代外部编排。

小结

论文的核心贡献不在于提出一个全新模型，而在于对「为什么要用编排框架」这一默认假设发起正面挑战，并提供覆盖轻量、中等、复杂三类流程的实证数据。对于正在评估 Agent 架构选型的团队而言，这篇论文提供了一个值得参考的对照视角：如果业务流程相对固定、且不希望将专有逻辑外泄，把流程编译进自有小模型或许比维护一套编排框架更划算。

论文编号为 arXiv:2605.22502，DOI 由 DataCite 颁发，作者署名为 Simon Dennis，提交时间为 2026 年 5 月 21 日。