英伟达开源 ASPIRE:让机器人把失败经验炼成可复用技能
英伟达推出机器人持续学习系统 ASPIRE,把执行轨迹迭代为可复用的技能库,在三大机器人基准上显著超越 Code as…
英伟达近日开源了一套名为 ASPIRE(Agentic Skill Programming through Iterative Robot Exploration)的机器人持续学习系统,由其 GEAR 团队主导,Jim Fan、朱玉可、Guanzhi Wang、石冠亚等核心成员参与。ASPIRE 的核心思想是:让机器人在执行任务时,把每一次感知、规划、抓取与控制的过程记录下来,再由大模型充当「研究员」复盘执行轨迹、定位失败原因、迭代控制程序,最终把验证过的修复经验沉淀进一个不断扩展的「技能库」。英伟达机器人主管 Jim Fan 将其称为一种全新的持续学习范式。
范式转变:从梯度下降到技能打磨
传统机器人训练依赖数据采集、梯度下降与模型权重更新,训练产物是一组浮点权重。ASPIRE 则把训练过程重塑为「技能打磨」(Skill Refinement):
- 训练过程:不再是单纯的梯度下降,而是 agent 在执行环境中反复试错、复盘、修改程序。
- 训练产物:不再只是一组权重,而是一个持续扩展的机器人技能库(Sensorimotor Skills)。
- 分布式训练:变成多个 agent 各自练习不同技能,再把经验汇总进同一个技能库。
ASPIRE 的设计建立在「Code as Policy」这一近年兴起的范式之上:让大模型不直接输出机器人动作,而是写出可调用的控制程序,借助感知模块、规划 API 与控制原语完成操作。代码可被 agent 检查、调试和持续优化,但也带来两个老问题——失败时难以定位环节(是感知、规划还是抓取出错),以及不会「长记性」。ASPIRE 直接针对这两点做了补强。
三阶段 Pipeline
论文将整套机制拆解为三阶段流程:
- Robot Execution Engine(机器人执行引擎):把每次失败的感知、规划、抓取、控制调用都拆开记录,附带输入、输出、视觉证据与错误日志,方便后续 agent 回放分析。
- Skill Library(技能库):agent 修好程序后,把经验炼化成可复用的知识条目,例如「SAM3 文本提示写法」「桌边物体多角度接近」「抽屉把手过滤假检测」等,更像机器人程序员的踩坑笔记。
- Evolutionary Search(进化式搜索):系统生成多条候选控制程序并放进执行环境运行,根据存活程序与失败轨迹继续迭代,避免只沿单条修复路径探索。
实验结果
研究在三个经典机器人基准上对 ASPIRE 进行了验证:
- LIBERO-Pro:覆盖泛化操作任务。
- Robosuite:覆盖接触密集型操作。
- BEHAVIOR-1K:覆盖长时家庭任务。
整体上 ASPIRE 显著优于此前 Code as Policy 方法。其中在 Robosuite 的双臂物体交接(Bimanual Handover)任务中,成功率从 20% 提升至 92%。在泛化能力测试中,研究者先在 LIBERO-90 上持续积累技能库,再直接迁移到未见过的 LIBERO-Pro Long 任务,期间不针对新任务训练也不更新技能库,结果显示随着技能库增厚,新任务成功率从几乎为零一路爬升至 31%,验证了技能库越丰富、机器人越不像新手的假设。
团队与招聘信号
论文共同一作包括来自密歇根大学的访问博士生 Runyu Lu、UIUC 的 Yuubo Wu 以及加州大学伯克利分校本科生 Ethan Kou。值得一提的是,英伟达同期宣布扩大国内机器人团队招聘,在北京、上海、深圳三地开放具身智能、仿真、机器人部署与解决方案架构等方向的岗位。
ASPIRE 的开源意味着机器人开发者首次可以在「持续学习」框架下,把大模型的代码能力与物理世界的执行反馈真正闭环起来,这也呼应了 Jim Fan 所说的「范式变了」——训练的终点不再是权重,而是一个会不断变厚的技能库。
