Dwarkesh：下一代 AI 训练范式，可能从干活中来

硅谷科技播客主持人 Dwarkesh Patel 在最新一期节目中提出了一个核心问题：在 RLVR（可验证奖励强化学习）成为前沿实验室押注路线之后，下一代 AI 的训练范式究竟会是什么？他给出的答案是：模型需要从真实部署中持续学习，并把经验真正写回权重。Dwarkesh 凭借对 Ilya Sutskever、Andrej Karpathy、Dario Amodei 等 AI 领军人物的访谈，在 25 岁时已位列 2024 年 TIME100 AI，其播客是许多 AI 从业者的重要信息来源。

RLVR 为何有效：从可验证到「可磨」

RLVR 的核心是在大量可自动判断对错的任务中让模型反复试错，从而训练出规划、纠错与长期执行能力。代码、数学等领域近期的快速进步，很大程度上就来自这一思路。

但 Dwarkesh 认为，一个任务光「可验证」还不够，还必须「可刷」，即具备 grindability（可磨性）。代码任务就是典型代表：可以准备一个仓库、一个待修复 bug、一组测试用例，然后把同一环境复制成几千份，让大量 agent 并行试错，结果可复现、可重置。

相比之下，「使用电脑」这类任务虽然结果可验证（订单是否下单成功、税款是否提交等），却难以被大规模复制和回放：你无法让一千个 agent 同时在 Amazon 上反复跑同一结账流程，真实网站会识别 bot、封禁账户，状态也在变化。

因此，AI 在某个领域进步快，本质上是因为该领域能被包装成可复制、可回放、可并行的训练环境。这也解释了为什么代码、数学、游戏成为 RLVR 的天然温床。

真实世界任务：为什么刷不动

当问题推向更复杂的现实场景，RLVR 的局限性就显现出来。Dwarkesh 列举了几类任务：

从零开始创业：公司是否做起来，最终可判断，但周期以年计，且无法重置；
打赢一场官司：依赖具体证据、法庭、法官与偶然事件，无法复制为上千个平行宇宙；
在市场稳定赚钱、或帮助候选人赢得选举：变量多、反馈慢、世界不可重置。

这些环境在强化学习里接近 reset-free、non-stationary environment，既不能任意重置，环境本身也在不断变化。Dwarkesh 由此发问：在可验证、可刷环境里训练出的 agent，真的能泛化到这些真实任务吗？

关键转向：把学习写回权重

乐观派认为，只要 RLVR 环境足够多、模型最终能学到通用 agent 能力。Dwarkesh 对此持怀疑态度。真实世界最有价值的知识，往往不是以清晰、可验证、可重复的方式出现的，它们可能藏在一次含混的客户反馈、一次失败的会议、一种组织内部的隐性流程里。要学会这些东西，模型需要的不是无限刷题，而是真正的样本效率。

由此他引出全文最核心的概念：learning back to the weights，即把学习重新写回权重。今天的大模型已很擅长 in-context learning，可以在长上下文里临时适应用户或组织需求。但这种学习大多停留在上下文窗口里，会话结束后，模型并不一定真正「长记性」。

他用人类学习做了类比：一个员工工作半年后变得有用，不是因为记住了每封邮件、每场会议记录，而是把经历压缩成了判断力、直觉和问题模式。模型也应如此：真正的 continual learning，不是无限扩大 KV cache 或塞入更多历史，而是从真实经验中提炼少量真正有用的知识，压缩进权重。

两条技术路径：OPSD 与 dreaming

对于「具体怎么做」，Dwarkesh 提到了两个正在被讨论的方向。

OPSD（on-policy self-distillation）：让一个已在长会话中积累大量经验的模型充当 teacher，训练基础模型在脱离完整上下文时仍能做出类似判断。相比普通 SFT 让模型复述全部对话日志，OPSD 更注重提炼关键洞见；相比普通 RL 只有最终 reward，OPSD 可在 token 层面提供更密集的监督信号，且不依赖外部可验证奖励。
Dreaming：让 AI 根据真实世界观察，自行构造一个模拟环境，在里面反复练习、测试策略，再把经验压缩回权重。模型不只是推理，而是在执行任务时为特定用户、组织、项目构造专属的「游戏版」模拟环境。

如果 dreaming 路线成立，它可能成为继 pretraining、RL、inference-time compute 之后的第四条 scaling axis，即 test-time training。模型在推理和任务执行过程中，为具体场景构造环境并在其中训练自己。这与 David Silver 和 Richard Sutton 在《Welcome to the Era of Experience》中强调的「AI 必须从自身与环境互动中获取经验」一脉相承。

2027-2028 训练流程展望

Dwarkesh 描绘了一个可能的未来训练流程：

阶段一：RLVR 训练出一个基本合格的 agent，能在陌生问题中尝试策略、遇到障碍后继续迭代；
阶段二：将 agent 部署到真实世界，连续参与一个超出原始训练分布的项目，周期可能长达一周；
阶段三：用户给出 thumbs up 或 thumbs down，甚至写一段工作评价；若结果正向，模型就把这次任务中学到的东西蒸馏回基础模型，可能采用 OPSD、dreaming，或某种尚未出现的新方法。

一旦这条路径跑通，AI 的能力边界就不再被「可验证任务」限制。它可以先通过 RLVR 学会代码、数学、工具调用，再通过真实部署学习组织管理与复杂协作，然后扩展到相邻领域。Dwarkesh 由此判断：下一代训练范式真正指向的是从发布前训练走向发布后学习，从人类数据走向环境经验，从上下文里的临时适应走向权重里的长期能力。