研究论文
Reka 发布 WorldModelGym:评估世界模型能否帮助智能体做出正确决策
Reka 推出 WorldModelGym 基准,围绕「智能体借助世界模型选动作时是否选对」这一核心问题,覆盖 100…
2026.07.03 · 周五约 2 分钟阅读
Reka 于 X 平台正式发布 WorldModelGym,这是一套面向「世界模型 + 智能体」组合的决策能力基准。与传统衡量像素级重建质量或预测误差的评测方式不同,WorldModelGym 把评估重点放在一个更实际的问题上:当智能体借助世界模型在多个候选动作中做选择时,它是否选到了正确的那个动作。Reka 将这一指标称为「decision-based fidelity(基于决策的保真度)」。
基准设计思路
WorldModelGym 的核心假设是:世界模型的价值不在于它能多逼真地「画」出下一个画面,而在于它能否支撑智能体在真实任务中做出正确决策。因此,基准采用单一冻结策略(one frozen policy),让该策略在不同世界模型生成的环境预测中各自选动作,再由真实环境给出真实奖励作为评分依据。这种「现实打分、模型比较」的设计,避免了对策略本身的反复重训,让评测焦点始终落在世界模型本身。
覆盖环境与规模
WorldModelGym 包含 100 多个测试轨道,覆盖四类环境:
- Atari:经典电子游戏任务,考察离散动作空间下的决策
- Meta-World:机器人操作任务,考察机械臂操控等连续控制
- DeepMind Control:基于物理仿真的连续控制任务
- classic control:经典控制问题(如 CartPole 等),作为轻量基线
环境来源横跨游戏、机器人与控制领域,有助于衡量世界模型在不同任务结构下的泛化能力。
意义与使用方式
世界模型正成为智能体学习与规划的重要组件,但缺乏统一的决策层面评测标准一直是痛点。WorldModelGym 提供了一个现成的、可复现的评测入口,研究者只需接入自己的世界模型和一套冻结策略,即可得到跨环境的决策保真度对比。Reka 在 X 上附带了完整说明博客的链接,供研究者进一步查阅细节。
