Dwarkesh Patel 在最新播客中探讨 RLVR 之后的训练方向,提出 grindability 概念及 OPS…
硅谷科技播客主持人 Dwarkesh Patel 在最新一期节目中提出了一个核心问题:在 RLVR(可验证奖励强化学习)成为前沿实验室押注路线之后,下一代 AI 的训练范式究竟会是什么?他给出的答案是:模型需要从真实部署中持续学习,并把经验真正写回权重。Dwarkesh 凭借对 Ilya Sutskever、Andrej Karpathy、Dario Amodei 等 AI 领军人物的访谈,在 25 岁时已位列 2024 年 TIME100 AI,其播客是许多 AI 从业者的重要信息来源。
RLVR 的核心是在大量可自动判断对错的任务中让模型反复试错,从而训练出规划、纠错与长期执行能力。代码、数学等领域近期的快速进步,很大程度上就来自这一思路。
但 Dwarkesh 认为,一个任务光「可验证」还不够,还必须「可刷」,即具备 grindability(可磨性)。代码任务就是典型代表:可以准备一个仓库、一个待修复 bug、一组测试用例,然后把同一环境复制成几千份,让大量 agent 并行试错,结果可复现、可重置。
相比之下,「使用电脑」这类任务虽然结果可验证(订单是否下单成功、税款是否提交等),却难以被大规模复制和回放:你无法让一千个 agent 同时在 Amazon 上反复跑同一结账流程,真实网站会识别 bot、封禁账户,状态也在变化。
因此,AI 在某个领域进步快,本质上是因为该领域能被包装成可复制、可回放、可并行的训练环境。这也解释了为什么代码、数学、游戏成为 RLVR 的天然温床。
当问题推向更复杂的现实场景,RLVR 的局限性就显现出来。Dwarkesh 列举了几类任务:
这些环境在强化学习里接近 reset-free、non-stationary environment,既不能任意重置,环境本身也在不断变化。Dwarkesh 由此发问:在可验证、可刷环境里训练出的 agent,真的能泛化到这些真实任务吗?
乐观派认为,只要 RLVR 环境足够多、模型最终能学到通用 agent 能力。Dwarkesh 对此持怀疑态度。真实世界最有价值的知识,往往不是以清晰、可验证、可重复的方式出现的,它们可能藏在一次含混的客户反馈、一次失败的会议、一种组织内部的隐性流程里。要学会这些东西,模型需要的不是无限刷题,而是真正的样本效率。
由此他引出全文最核心的概念:learning back to the weights,即把学习重新写回权重。今天的大模型已很擅长 in-context learning,可以在长上下文里临时适应用户或组织需求。但这种学习大多停留在上下文窗口里,会话结束后,模型并不一定真正「长记性」。
他用人类学习做了类比:一个员工工作半年后变得有用,不是因为记住了每封邮件、每场会议记录,而是把经历压缩成了判断力、直觉和问题模式。模型也应如此:真正的 continual learning,不是无限扩大 KV cache 或塞入更多历史,而是从真实经验中提炼少量真正有用的知识,压缩进权重。
对于「具体怎么做」,Dwarkesh 提到了两个正在被讨论的方向。
如果 dreaming 路线成立,它可能成为继 pretraining、RL、inference-time compute 之后的第四条 scaling axis,即 test-time training。模型在推理和任务执行过程中,为具体场景构造环境并在其中训练自己。这与 David Silver 和 Richard Sutton 在《Welcome to the Era of Experience》中强调的「AI 必须从自身与环境互动中获取经验」一脉相承。
Dwarkesh 描绘了一个可能的未来训练流程:
一旦这条路径跑通,AI 的能力边界就不再被「可验证任务」限制。它可以先通过 RLVR 学会代码、数学、工具调用,再通过真实部署学习组织管理与复杂协作,然后扩展到相邻领域。Dwarkesh 由此判断:下一代训练范式真正指向的是从发布前训练走向发布后学习,从人类数据走向环境经验,从上下文里的临时适应走向权重里的长期能力。