Reka 发布 WorldModelGym：评估世界模型能否帮助智能体做出正确决策

Reka 于 X 平台正式发布 WorldModelGym，这是一套面向「世界模型 + 智能体」组合的决策能力基准。与传统衡量像素级重建质量或预测误差的评测方式不同，WorldModelGym 把评估重点放在一个更实际的问题上：当智能体借助世界模型在多个候选动作中做选择时，它是否选到了正确的那个动作。Reka 将这一指标称为「decision-based fidelity（基于决策的保真度）」。

基准设计思路

WorldModelGym 的核心假设是：世界模型的价值不在于它能多逼真地「画」出下一个画面，而在于它能否支撑智能体在真实任务中做出正确决策。因此，基准采用单一冻结策略（one frozen policy），让该策略在不同世界模型生成的环境预测中各自选动作，再由真实环境给出真实奖励作为评分依据。这种「现实打分、模型比较」的设计，避免了对策略本身的反复重训，让评测焦点始终落在世界模型本身。

覆盖环境与规模

WorldModelGym 包含 100 多个测试轨道，覆盖四类环境：

Atari：经典电子游戏任务，考察离散动作空间下的决策
Meta-World：机器人操作任务，考察机械臂操控等连续控制
DeepMind Control：基于物理仿真的连续控制任务
classic control：经典控制问题（如 CartPole 等），作为轻量基线

环境来源横跨游戏、机器人与控制领域，有助于衡量世界模型在不同任务结构下的泛化能力。

意义与使用方式

世界模型正成为智能体学习与规划的重要组件，但缺乏统一的决策层面评测标准一直是痛点。WorldModelGym 提供了一个现成的、可复现的评测入口，研究者只需接入自己的世界模型和一套冻结策略，即可得到跨环境的决策保真度对比。Reka 在 X 上附带了完整说明博客的链接，供研究者进一步查阅细节。