英伟达开源 ASPIRE：让机器人把失败经验炼成可复用技能

英伟达近日开源了一套名为 ASPIRE（Agentic Skill Programming through Iterative Robot Exploration）的机器人持续学习系统，由其 GEAR 团队主导，Jim Fan、朱玉可、Guanzhi Wang、石冠亚等核心成员参与。ASPIRE 的核心思想是：让机器人在执行任务时，把每一次感知、规划、抓取与控制的过程记录下来，再由大模型充当「研究员」复盘执行轨迹、定位失败原因、迭代控制程序，最终把验证过的修复经验沉淀进一个不断扩展的「技能库」。英伟达机器人主管 Jim Fan 将其称为一种全新的持续学习范式。

范式转变：从梯度下降到技能打磨

传统机器人训练依赖数据采集、梯度下降与模型权重更新，训练产物是一组浮点权重。ASPIRE 则把训练过程重塑为「技能打磨」（Skill Refinement）：

训练过程：不再是单纯的梯度下降，而是 agent 在执行环境中反复试错、复盘、修改程序。
训练产物：不再只是一组权重，而是一个持续扩展的机器人技能库（Sensorimotor Skills）。
分布式训练：变成多个 agent 各自练习不同技能，再把经验汇总进同一个技能库。

ASPIRE 的设计建立在「Code as Policy」这一近年兴起的范式之上：让大模型不直接输出机器人动作，而是写出可调用的控制程序，借助感知模块、规划 API 与控制原语完成操作。代码可被 agent 检查、调试和持续优化，但也带来两个老问题——失败时难以定位环节（是感知、规划还是抓取出错），以及不会「长记性」。ASPIRE 直接针对这两点做了补强。

三阶段 Pipeline

论文将整套机制拆解为三阶段流程：

Robot Execution Engine（机器人执行引擎）：把每次失败的感知、规划、抓取、控制调用都拆开记录，附带输入、输出、视觉证据与错误日志，方便后续 agent 回放分析。
Skill Library（技能库）：agent 修好程序后，把经验炼化成可复用的知识条目，例如「SAM3 文本提示写法」「桌边物体多角度接近」「抽屉把手过滤假检测」等，更像机器人程序员的踩坑笔记。
Evolutionary Search（进化式搜索）：系统生成多条候选控制程序并放进执行环境运行，根据存活程序与失败轨迹继续迭代，避免只沿单条修复路径探索。

实验结果

研究在三个经典机器人基准上对 ASPIRE 进行了验证：

LIBERO-Pro：覆盖泛化操作任务。
Robosuite：覆盖接触密集型操作。
BEHAVIOR-1K：覆盖长时家庭任务。

整体上 ASPIRE 显著优于此前 Code as Policy 方法。其中在 Robosuite 的双臂物体交接（Bimanual Handover）任务中，成功率从 20% 提升至 92%。在泛化能力测试中，研究者先在 LIBERO-90 上持续积累技能库，再直接迁移到未见过的 LIBERO-Pro Long 任务，期间不针对新任务训练也不更新技能库，结果显示随着技能库增厚，新任务成功率从几乎为零一路爬升至 31%，验证了技能库越丰富、机器人越不像新手的假设。

团队与招聘信号

论文共同一作包括来自密歇根大学的访问博士生 Runyu Lu、UIUC 的 Yuubo Wu 以及加州大学伯克利分校本科生 Ethan Kou。值得一提的是，英伟达同期宣布扩大国内机器人团队招聘，在北京、上海、深圳三地开放具身智能、仿真、机器人部署与解决方案架构等方向的岗位。

ASPIRE 的开源意味着机器人开发者首次可以在「持续学习」框架下，把大模型的代码能力与物理世界的执行反馈真正闭环起来，这也呼应了 Jim Fan 所说的「范式变了」——训练的终点不再是权重，而是一个会不断变厚的技能库。