PMD:用过程记忆蒸馏让语言模型在线自我提升
arXiv 论文提出过程记忆蒸馏(PMD),将跨回合信号转化为可复用记忆并融入模型权重,在 Qwen3-8B 与 OLM…
近期发表于 arXiv 的论文《Procedural Memory Distillation: Online Reflection for Self-Improving Language Models》提出了一种面向大语言模型在线自我改进的训练方法 PMD(Procedural Memory Distillation,过程记忆蒸馏)。该方法针对现有基于可验证奖励的强化学习(RLVR)及自蒸馏变体(如 SDPO)在利用回合内部丰富过程信息方面的不足,设计了一套将跨回合经验沉淀为「过程记忆」并回灌到模型参数中的机制。
核心思路:从单回合奖励到跨回合记忆
SDPO 等方法通常只对单次 rollout 做回合级评估,并将该信号用于更新策略,难以捕捉多次迭代中反复出现的策略模式与失败模式。PMD 的关键观察是:随着策略不断更新,模型会在多个回合中反复遇到相近的问题,从而产生跨回合、跨 epoch 的信号——哪些策略能稳定通过验证、哪些失败模式持续存在、哪些模式反复出现。
PMD 将这些信号转换为可复用的过程记忆,并在训练过程中将其蒸馏到策略权重中。推理阶段不再依赖任何外挂记忆组件,最终得到的依然是「无记忆」模型。
三层抽象结构与协同演化
过程记忆按三个抽象层级组织:
- 原始轨迹(raw trajectories):保留模型自身的 rollout 记录;
- 自我反思得到的策略与经验(self-reflected strategies and lessons);
- 跨问题反复出现的高层行为模式(higher-level behavioral patterns)。
这些层级均在线从模型自身轨迹中提取,无需额外标注数据。训练时,一个「记忆条件化的自教师」(memory-conditioned self-teacher)利用累积经验对学生在自身 rollout 上的行为进行监督,使学生逐步将过程知识内化进参数。
论文将这一设计原则称为「协同演化」(co-evolution):策略生成 rollout 更新记忆,记忆反过来塑造用于更新策略的监督信号,二者形成闭环。
实验结果:两模型、两基准的稳定增益
作者在 Qwen3-8B 与 OLMo3-Instruct-7B 两个基座上对比了 PMD 与 SDPO:
- SCIKNOWEVAL 上提升 3.8%–5.5%;
- LIVECODEBENCH 上提升 7.9%–13.6%。
消融实验进一步验证了协同演化的必要性:分别冻结记忆或冻结策略,均会使 SCIKNOWEVAL 各领域成绩较完整 PMD 下降超过 10%,表明策略与记忆的动态耦合是增益的主要来源,而非任何单侧组件的功劳。
意义与局限
PMD 给出了一条「不需要外部监督即可让模型从自身经验中持续学习」的可行路径,其将记忆蒸馏进权重后即可丢弃的设计也避免了推理阶段的额外开销,对自改进训练流水线具有参考价值。但目前实验仅覆盖 7B–8B 规模与两个基准,更大规模模型、不同任务类型(尤其是非代码、非推理场景)下的泛化能力,以及与更强 RL 基线(如 GRPO 系列)的对比,仍有待后续工作验证。
