桃子桃子快讯
返回首页
开源

上海AI Lab开源Agents-A1:35B Agent逼近万亿参数长程表现

上海AI Lab开源35B MoE Agent模型Agents-A1,主打长程任务能力,在搜索、科学推理、指令遵循等基准…

2026.07.02 · 周四4 分钟阅读

上海AI Lab团队近日开源了一款面向长程(Long-Horizon)任务的35B参数MoE Agent模型——Agents-A1。研究团队没有沿用「堆参数」的路线,而是试图通过扩展Agent Horizon(代理持续运作的时间跨度),让较小模型逼近万亿参数级模型的长程表现。论文已在arXiv公开,代码与模型权重同步开源。

实验显示,Agents-A1在多步搜索、科学研究和长指令遵循等任务上已超过部分万亿参数级模型,并在35B同规模模型中保持领先。不过研究团队也坦承,该模型在工程类任务上仍与前沿大模型存在差距。

模型概览:不靠参数,靠「持久工作习惯」

Agents-A1的设计核心是把多种Agent能力整合进同一模型,并配套一套知识-动作基础设施。团队认为,与其不断扩大模型规模,不如教会模型「养成更持久的、经过验证的工作习惯」。

整个方案由两个支柱组成:

  • 一个面向长程任务的35B MoE基座模型;
  • 以知识-动作图KAG为核心的知识-动作基础设施,用于不断扩展高质量长轨迹数据。

训练样本不仅包含问题与答案,也完整保留工具使用与验证过程,使模型在长上下文中具备推理和指令遵循能力。

三阶段训练:SFT → 领域教师 → 多教师蒸馏

Agents-A1的训练流程分为三个阶段。

第一阶段:全领域监督微调

使用多领域、多任务的高质量长程轨迹数据进行训练,训练中采用sample packing将多个短样本拼接到单个训练序列,并配合注意力掩码防止样本串扰,以提升GPU利用率、降低padding开销。

第二阶段:领域级教师模型训练

团队把能力拆分为搜索、科学推理、指令遵循和工具调用四类专长教师,分别设计训练方案:

  • 搜索教师:「先SFT、后RL」两阶段训练,结合GRPO强化复杂问题拆解、多跳搜索与工具协同能力;
  • 科学教师:两阶段SFT,先强化科学推导能力,再通过工具增强轨迹训练外部交互与证据整合;
  • 指令遵循教师:两阶段RL与GRPO训练,先提升格式、长度、关键词等细粒度约束满足能力,再强化长上下文ICL中的证据定位与规则遵循;
  • 工具调用教师:工具SFT与工具RL两阶段优化,重点学习何时调用、如何纠错、何时结束。

第三阶段:多教师On-Policy蒸馏(OPD)

先收集学生自身生成的轨迹,再由对应领域教师打分指导。与离线模仿不同,教师评估的是学生实际生成的轨迹。最终通过按领域路由的蒸馏和显著词汇对齐,兼顾全领域广泛能力与各领域专长。

实验结果:在多项长程基准上领先

Agents-A1在长程搜索、指令遵循、科学推理等任务上整体优于同规模35B模型,部分基准甚至超过部分万亿参数模型。关键数据包括:

  • GAIA(通用AI助手基准):搜索增强教师从基线59.8提升至95.1;
  • FS-R(科学推理):科学增强教师从2.5提升至54.3;
  • LongBench V2、IFBench、IFEval:RL增强教师均优于基线,长上下文理解与指令遵循能力提升明显;
  • τ²-Bench、VitaBench:工具增强模型在多轮结构化交互任务上提升显著。

研究团队还展示了两个长程案例:

  • 鲸鱼叫声检测任务:模型在一次12小时运行中,从简单CNN基线出发,将验证集AUC从0.58提升至0.9935,具备多轮迭代持续改进方案的能力;
  • 2008年热带气旋Nargis复现:模型自动识别数据源,完成数据提取、清洗、派生指标计算、可视化与报告生成,形成端到端闭环。

局限与未来方向

团队也明确指出三项不足:

  • 「先规划再推理」「先反思再行动」、长上下文关键信息总结等基础原子能力仍有提升空间;
  • 在机器学习工程任务上与更大模型仍存在差距,决策记忆与试验效率需进一步增强;
  • 经OPD训练的统一学生模型并非在所有领域都稳定超过对应教师,模型统一性与领域专长之间的平衡仍是开放问题。

Agents-A1提出了一种更经济的Agent开发路径:与其不断堆参数,不如教会模型「持久、经过验证的工作习惯」。其开源也为社区提供了在长程Agent任务上复现和迭代的新基座。

信源