桃子桃子 AI 快讯
返回首页
研究论文

ATOD:融合蒸馏与强化学习的智能体训练新方法

研究者提出 ATOD 混合蒸馏算法,结合退火式 OPD-RL 调度与轮级加权,在多个交互任务基准上显著超越纯蒸馏与纯强化…

2026.06.29 · 周一3 分钟阅读评分 57
评分细项加权总分 57
重要性
52
新颖性
62
影响面
45
可信度
72
实质性
72

针对小型语言模型智能体在长程交互任务中的训练难题,研究者近期提出了一种名为 ATOD(Annealed Turn-aware On-policy Distillation)的混合在线蒸馏算法。该方法将知识蒸馏(OPD)与强化学习(RL)有机结合,旨在同时获得前者早期训练的高效模仿能力和后者面向环境奖励的探索能力。

研究背景:蒸馏与强化学习的互补困境

在小型语言模型智能体的后训练阶段,研究者长期面临两种范式的权衡:

  • 在线策略蒸馏(OPD):可提供来自教师模型的密集监督信号,在训练初期学习效率高,但当学生模型接近教师水平后,性能增益趋于饱和,最终上限受限于教师能力。
  • 强化学习(RL,如 GRPO):直接以环境奖励为优化目标,鼓励探索更高奖励的上界,但稀疏且延迟的反馈使得训练早期效率低下。

ATOD 的核心思路正是显式利用两者的互补性。

方法设计:退火调度 + 轮级加权

ATOD 的算法框架包含两项关键设计:

  • 退火式 OPD-RL 调度:训练早期以 OPD 为主导,帮助学生快速逼近教师水平;随着训练推进,RL 的权重逐渐增强,推动智能体进行基于奖励的探索,突破蒸馏带来的性能天花板。
  • 轮级分歧—不确定性加权(T-DUR):在长轨迹场景下,对教师与学生分歧较大、且不确定性较高的轮次进行软性放大,使密集监督更集中地作用于高价值决策点。

实验结果:三项基准上的稳定提升

研究者在 ALFWorld、WebShop 和 Search-QA 三个长程交互任务上进行了系统评估,覆盖三种不同规模的学生模型。主要结果如下:

  • 相比纯 OPD 基线,ATOD 平均成功率提升 3.03 个百分点
  • 相比纯 GRPO 强化学习基线,ATOD 平均成功率提升 23.62 个百分点
  • 值得注意的是,ATOD 训练的学生模型平均超越对应的教师模型 2.16 个百分点,说明混合策略确实突破了单纯模仿教师的上限。

意义与局限

ATOD 为多轮自主智能体的小模型后训练提供了一条可复用的技术路径:通过调度策略自动切换训练信号来源,并结合轮级重要性加权,使密集模仿与奖励驱动探索得以协同工作。该工作目前以 arXiv 预印本形式发布(编号 2606.27814v1),尚未经过同行评审;此外,论文报告的实验规模仍以中等规模基准为主,其在更大规模智能体、更多样化任务环境下的泛化表现有待进一步验证。

信源