SimFoundry：一段视频生成无限训练场景，李飞飞团队联合英伟达发布Real2Sim系统

机器人策略的训练长期受困于真实数据采集的高成本与难规模化。NVIDIA GEAR、李飞飞团队与佐治亚理工学院等机构联合提出了一套名为 SimFoundry 的 Real2Sim 系统，只需一段真实世界视频，就能在保留物体功能与 Affordance 的前提下，自动构建可交互仿真环境，并无限扩展出新的物体、场景和任务，为具身智能策略的训练与评测提供规模化数据来源。

SimFoundry 的核心思路

已有的 Real2Sim 方案大多只能解决某一环节：有的擅长三维重建却无法生成训练数据，有的能做策略评测却依赖大量人工配置。SimFoundry 的目标是把场景构建、数据生成、策略评测与策略训练串成一条完整流水线。系统主要完成三件事：

自动重建可交互、可仿真的数字孪生（Digital Twin）；
在物体、场景和任务三个层面自动扩展数字表亲（Digital Cousins）；
在同一仿真环境中同时完成策略评测与策略训练，形成 Real → Sim → Real 的闭环。

其中，Digital Cousins 是该工作的关键概念：它在保持场景功能与交互方式不变的前提下，对物体外观、布局或任务进行合理变化，从而在同一语义空间内批量化生成新的训练样本。

三阶段 Pipeline：提取 → 生成 → 增强

整个 SimFoundry 的流程可概括为三个阶段。

第一步是 Extraction（提取）。系统输入一段普通 RGB 视频，先利用深度估计恢复三维点云，再借助视觉语言模型（VLM）和 SAM 3 等分割模型，将场景中的物体逐个识别并分割。每提取一个物体，就用图像修复（Inpainting）将其从画面中移除，继续寻找下一个目标，直至完成整个场景解析。

第二步是 Generation（生成）。对每个提取出的物体，SimFoundry 利用 2D-to-3D 模型生成三维网格，结合 FoundationPose 等模型恢复其真实位姿；对于抽屉、柜门等关节物体，会自动推导关节结构，并补充质量、摩擦力等物理属性，生成碰撞模型并修复穿模问题，最终导出可直接运行于 IsaacLab 等物理引擎中的仿真场景，完成 Digital Twin 的构建。

第三步是 Augmentation（增强），也是 SimFoundry 最核心的创新。在数字孪生基础上，系统进一步自动生成 Digital Cousins，从三个维度扩展：

改变物体外观与几何形态，但保持功能不变（Object Cousins）；
调整物体布局或加入新物体，生成新的场景（Scene Cousins）；
根据物体及其 Affordance，自动推导新的机器人操作任务（Task Cousins）。

实验验证：仿真与真实表现高度一致

研究在两套机器人平台、7 类典型操作任务上分别验证了 Real-to-Sim 策略评估和 Sim-to-Real 策略训练两项核心能力。

在策略评估层面，SimFoundry 中机器人的表现与真实世界高度一致：平均皮尔逊相关系数达到 0.911，平均最大排名违例（MMRV）仅 0.018，相比此前的评测框架 PolaRiS 明显提升。这意味着，研究人员可以在仿真中较为准确地预测策略在真实机器人上的表现，省去反复实机测试的成本。

在策略训练层面，相比仅使用数字孪生进行训练，引入 Object、Scene 和 Task Cousins 后，机器人在真实世界中的平均任务成功率分别提升 17%、21% 和 40%。仅利用 SimFoundry 自动生成的数据训练出的策略，还能零样本部署到真实机器人，在多步操作、双臂协作、带关节物体操作等任务上完成真实迁移。

作者阵容

SimFoundry 的作者阵容汇集了具身智能与机器人领域的核心研究者：第一作者 Nadun Ranawaka Arachchige 来自佐治亚理工学院（导师徐丹飞），目前在 NVIDIA GEAR 实习；Josiah Wong、Jiangyun Fan 等来自李飞飞团队；Tianyuan Dai 来自朱玉可课题组；Masoud Moghani 是 NVIDIA GEAR 与多伦多大学联合培养博士；Hang Yin 曾参与 BEHAVIOR 项目，现已加入 OpenAI。知名作者还包括 Jim Fan、李飞飞、徐丹飞、朱玉可、Ajay Mandlekar、Ruohan Zhang 等。

论文与项目主页已分别发布于 arXiv 与 NVIDIA GEAR 官网，研究方向为 Real2Sim 在具身智能规模化训练与评测中的落地提供了新的系统级方案。