桃子桃子快讯
返回首页
产品功能

不当大脑当裁判:地瓜机器人发布具身世界模型 Uranus

地瓜机器人推出世界模型 Uranus,定位具身智能基础设施,可同时充当模型评测「裁判」与机器人训练仿真器,主打帧级闭环与…

2026.07.03 · 周五4 分钟阅读

世界模型在具身赛道里大多被当作「大脑」来训练,但地瓜机器人近期推出的 Uranus 却走向另一条路——做机器人开发的基础设施,既充当 VLA 模型与世界模型的「裁判」,也作为机器人训练仿真器。这家由地平线分拆而来的公司定位为「机器人软硬件通用底座提供商」,核心判断是:在脑子变聪明之前,先要有一个能让模型反复试错、稳定考试、还能复盘成绩的平台。

用途一:为具身模型当裁判

当前机器人评测主要分两条路线:真机评测虽然贴近实际场景,但效率低、依赖人工复位、不同次实验之间难以完全复现;仿真评测则速度快、可复现,却存在 sim-to-real gap,仿真里跑出的高分与真实表现往往对不上。

Uranus 走的是第三条路:模型输出动作后,Uranus 逐帧生成对应的环境反馈,最终给出成功率、轨迹偏差等指标。地瓜机器人算法副总裁隋伟表示,这种方案既能控制变量、稳定复现,评测分数也与模型在真实场景中的能力呈正相关。团队并不刻意回避「刷榜」,关键在于刷出的分数要能真实反映模型水平。

用途二:作为操作任务的训练仿真器

Uranus 的另一身份是面向 manipulation(操作)的仿真器。与传统先手工建 3D 场景、再调物理参数的方式不同,Uranus 直接从数据中学习「执行动作后下一帧画面会变成什么」。给定几帧参考图像、关节状态、相机参数与文本描述,模型即可生成对应场景。

其核心技术能力包括:

  • 像素级生成:直接在像素空间输出,而非仅在 latent 空间预测,以满足评测与强化学习的输入需求。
  • 跨视角一致性:多路相机(手眼、环境、第三视角)在同一时刻对得上,保证多视角下的画面自洽。
  • 帧级闭环:每生成一帧就立刻送回历史窗口,与下一步动作共同作为输入,过程中任何时刻可被人工接管、改写指令。

帧级闭环带来的核心挑战是误差累积——每一步的微小误差都会作为历史条件喂入下一步。地瓜机器人方面透露,Uranus 训练时只见过 2 秒短片段,但推理时可稳定运行 60 秒且画质不糊。团队将这类视频生成类比为「实时交互的游戏」而非「按剧本拍摄的电影」。

跨具身零样本泛化与尚未覆盖的能力

Uranus 目前已支持 G1 人形机器人和 Franka 协作臂,并计划接入更多本体,训练时基于一类硬件的模型也能在新本体上直接使用。

需要指出的是,Uranus 当前仅支持 manipulation 训练,尚不支持 locomotion(运动控制)。原因在于现有模态仅覆盖 action、图像与语言,尚未引入触觉、摩擦力、电机信号等,而补齐这些模态需要尚未成熟的数据。

比做大脑更难的「地基」生意

为何选择基础设施方向而非做具身大脑?地瓜机器人大模型负责人秦文康给出了反直觉的回答:两者底层原理相同,但做基础设施更难,因为尚无可参考的成功范式。

支撑 Uranus 这类系统的工程门槛被严重低估。地瓜机器人团队透露,项目三分之二的精力与资源花在了「infra 与数据处理」这类「脏活」上:

  • 存储:面对 PB 量级数据,团队自建分层存储方案,并在训练阶段设计热存储加速。
  • 算力:上半年算力紧张,单一云服务商无法满足需求,团队构建了跨云算力协调方案。
  • 训练:高分辨率长视频单卡装不下,需拆分并行、再聚合结果。
  • 数据清洗:开源数据普遍存在丢帧、动作与画面不对齐、相机标定不准等问题,仅靠把标定做准、对齐动作画面、筛掉脏数据,就能换来数十个百分点的成功率提升。

隋伟认为,当前具身行业「模型决定下限,数据决定上限」,很多关键工作仍处于数据工程阶段,还未到拼模型架构的时候。Uranus 计划今年下半年将训练数据扩至几千小时量级,明年达到数万至十几万小时规模。

信源