不当大脑当裁判：地瓜机器人发布具身世界模型 Uranus

世界模型在具身赛道里大多被当作「大脑」来训练，但地瓜机器人近期推出的 Uranus 却走向另一条路——做机器人开发的基础设施，既充当 VLA 模型与世界模型的「裁判」，也作为机器人训练仿真器。这家由地平线分拆而来的公司定位为「机器人软硬件通用底座提供商」，核心判断是：在脑子变聪明之前，先要有一个能让模型反复试错、稳定考试、还能复盘成绩的平台。

用途一：为具身模型当裁判

当前机器人评测主要分两条路线：真机评测虽然贴近实际场景，但效率低、依赖人工复位、不同次实验之间难以完全复现；仿真评测则速度快、可复现，却存在 sim-to-real gap，仿真里跑出的高分与真实表现往往对不上。

Uranus 走的是第三条路：模型输出动作后，Uranus 逐帧生成对应的环境反馈，最终给出成功率、轨迹偏差等指标。地瓜机器人算法副总裁隋伟表示，这种方案既能控制变量、稳定复现，评测分数也与模型在真实场景中的能力呈正相关。团队并不刻意回避「刷榜」，关键在于刷出的分数要能真实反映模型水平。

用途二：作为操作任务的训练仿真器

Uranus 的另一身份是面向 manipulation（操作）的仿真器。与传统先手工建 3D 场景、再调物理参数的方式不同，Uranus 直接从数据中学习「执行动作后下一帧画面会变成什么」。给定几帧参考图像、关节状态、相机参数与文本描述，模型即可生成对应场景。

其核心技术能力包括：

像素级生成：直接在像素空间输出，而非仅在 latent 空间预测，以满足评测与强化学习的输入需求。
跨视角一致性：多路相机（手眼、环境、第三视角）在同一时刻对得上，保证多视角下的画面自洽。
帧级闭环：每生成一帧就立刻送回历史窗口，与下一步动作共同作为输入，过程中任何时刻可被人工接管、改写指令。

帧级闭环带来的核心挑战是误差累积——每一步的微小误差都会作为历史条件喂入下一步。地瓜机器人方面透露，Uranus 训练时只见过 2 秒短片段，但推理时可稳定运行 60 秒且画质不糊。团队将这类视频生成类比为「实时交互的游戏」而非「按剧本拍摄的电影」。

跨具身零样本泛化与尚未覆盖的能力

Uranus 目前已支持 G1 人形机器人和 Franka 协作臂，并计划接入更多本体，训练时基于一类硬件的模型也能在新本体上直接使用。

需要指出的是，Uranus 当前仅支持 manipulation 训练，尚不支持 locomotion（运动控制）。原因在于现有模态仅覆盖 action、图像与语言，尚未引入触觉、摩擦力、电机信号等，而补齐这些模态需要尚未成熟的数据。

比做大脑更难的「地基」生意

为何选择基础设施方向而非做具身大脑？地瓜机器人大模型负责人秦文康给出了反直觉的回答：两者底层原理相同，但做基础设施更难，因为尚无可参考的成功范式。

支撑 Uranus 这类系统的工程门槛被严重低估。地瓜机器人团队透露，项目三分之二的精力与资源花在了「infra 与数据处理」这类「脏活」上：

存储：面对 PB 量级数据，团队自建分层存储方案，并在训练阶段设计热存储加速。
算力：上半年算力紧张，单一云服务商无法满足需求，团队构建了跨云算力协调方案。
训练：高分辨率长视频单卡装不下，需拆分并行、再聚合结果。
数据清洗：开源数据普遍存在丢帧、动作与画面不对齐、相机标定不准等问题，仅靠把标定做准、对齐动作画面、筛掉脏数据，就能换来数十个百分点的成功率提升。

隋伟认为，当前具身行业「模型决定下限，数据决定上限」，很多关键工作仍处于数据工程阶段，还未到拼模型架构的时候。Uranus 计划今年下半年将训练数据扩至几千小时量级，明年达到数万至十几万小时规模。