上海AI Lab开源Agents-A1：35B Agent逼近万亿参数长程表现

上海AI Lab团队近日开源了一款面向长程（Long-Horizon）任务的35B参数MoE Agent模型——Agents-A1。研究团队没有沿用「堆参数」的路线，而是试图通过扩展Agent Horizon（代理持续运作的时间跨度），让较小模型逼近万亿参数级模型的长程表现。论文已在arXiv公开，代码与模型权重同步开源。

实验显示，Agents-A1在多步搜索、科学研究和长指令遵循等任务上已超过部分万亿参数级模型，并在35B同规模模型中保持领先。不过研究团队也坦承，该模型在工程类任务上仍与前沿大模型存在差距。

模型概览：不靠参数，靠「持久工作习惯」

Agents-A1的设计核心是把多种Agent能力整合进同一模型，并配套一套知识-动作基础设施。团队认为，与其不断扩大模型规模，不如教会模型「养成更持久的、经过验证的工作习惯」。

整个方案由两个支柱组成：

一个面向长程任务的35B MoE基座模型；
以知识-动作图KAG为核心的知识-动作基础设施，用于不断扩展高质量长轨迹数据。

训练样本不仅包含问题与答案，也完整保留工具使用与验证过程，使模型在长上下文中具备推理和指令遵循能力。

三阶段训练：SFT → 领域教师 → 多教师蒸馏

Agents-A1的训练流程分为三个阶段。

第一阶段：全领域监督微调

使用多领域、多任务的高质量长程轨迹数据进行训练，训练中采用sample packing将多个短样本拼接到单个训练序列，并配合注意力掩码防止样本串扰，以提升GPU利用率、降低padding开销。

第二阶段：领域级教师模型训练

团队把能力拆分为搜索、科学推理、指令遵循和工具调用四类专长教师，分别设计训练方案：

搜索教师：「先SFT、后RL」两阶段训练，结合GRPO强化复杂问题拆解、多跳搜索与工具协同能力；
科学教师：两阶段SFT，先强化科学推导能力，再通过工具增强轨迹训练外部交互与证据整合；
指令遵循教师：两阶段RL与GRPO训练，先提升格式、长度、关键词等细粒度约束满足能力，再强化长上下文ICL中的证据定位与规则遵循；
工具调用教师：工具SFT与工具RL两阶段优化，重点学习何时调用、如何纠错、何时结束。

第三阶段：多教师On-Policy蒸馏（OPD）

先收集学生自身生成的轨迹，再由对应领域教师打分指导。与离线模仿不同，教师评估的是学生实际生成的轨迹。最终通过按领域路由的蒸馏和显著词汇对齐，兼顾全领域广泛能力与各领域专长。

实验结果：在多项长程基准上领先

Agents-A1在长程搜索、指令遵循、科学推理等任务上整体优于同规模35B模型，部分基准甚至超过部分万亿参数模型。关键数据包括：

GAIA（通用AI助手基准）：搜索增强教师从基线59.8提升至95.1；
FS-R（科学推理）：科学增强教师从2.5提升至54.3；
LongBench V2、IFBench、IFEval：RL增强教师均优于基线，长上下文理解与指令遵循能力提升明显；
τ²-Bench、VitaBench：工具增强模型在多轮结构化交互任务上提升显著。

研究团队还展示了两个长程案例：

鲸鱼叫声检测任务：模型在一次12小时运行中，从简单CNN基线出发，将验证集AUC从0.58提升至0.9935，具备多轮迭代持续改进方案的能力；
2008年热带气旋Nargis复现：模型自动识别数据源，完成数据提取、清洗、派生指标计算、可视化与报告生成，形成端到端闭环。

局限与未来方向

团队也明确指出三项不足：

「先规划再推理」「先反思再行动」、长上下文关键信息总结等基础原子能力仍有提升空间；
在机器学习工程任务上与更大模型仍存在差距，决策记忆与试验效率需进一步增强；
经OPD训练的统一学生模型并非在所有领域都稳定超过对应教师，模型统一性与领域专长之间的平衡仍是开放问题。

Agents-A1提出了一种更经济的Agent开发路径：与其不断堆参数，不如教会模型「持久、经过验证的工作习惯」。其开源也为社区提供了在长程Agent任务上复现和迭代的新基座。