桃子桃子 AI 快讯
返回首页
研究论文

跨模型族 On-Policy 蒸馏:打破 Tokenizer 壁垒

arXiv 论文提出跨 Tokenizer 的 On-Policy 蒸馏方案,借助 token 映射算法让不同分词体系的…

2026.06.29 · 周一2 分钟阅读评分 58
评分细项加权总分 58
重要性
58
新颖性
62
影响面
52
可信度
68
实质性
48

Hacker News 社区近日关注了一篇题为《Breaking the Tokenizer Barrier: On-Policy Distillation Across Model Families》的 arXiv 论文,聚焦大语言模型后训练阶段中跨模型族进行 On-Policy 蒸馏(OPD)的关键技术问题。论文指出,主流 OPD 方案要求教师与学生模型共享同一 tokenizer,这极大限制了 OPD 在不同模型系列之间的通用性。

现有方案的局限

  • 当前跨 tokenizer 蒸馏通常采用「教师生成回答 + 学生做监督微调(SFT)」的范式,但这种方法只能学到教师生成的内容,难以完整保留教师概率分布中蕴含的丰富知识。
  • 若强行要求师生共享 tokenizer,则只能在同系列或同构模型间蒸馏,无法自由组合不同家族的教师与学生。

论文提出的方法

  • 作者将标准 On-Policy 蒸馏框架扩展到不同模型族之间,使 token 级的细粒度信号可以跨越 tokenizer 传递。
  • 核心是引入一种「精确的 token 映射算法(precise token-mapping algorithm)」,在不同分词体系之间建立对齐关系,从而保证蒸馏信号的高保真度。

实验与意义

  • 作者报告在多个基准上开展了大量实验,结果显示跨 tokenizer 的 OPD 在计算效率上显著优于既有基线方法。
  • 该工作解锁了更广泛的「教师—学生」配对组合,为不同家族 LLM 之间的能力迁移与定制化适配提供了新路径。

信源信息

  • 论文分类为 Machine Learning(cs.LG),arXiv 编号 2606.09456(v1)。
  • 提交历史显示该版本于 2026 年 6 月 8 日由作者 Yifan Niu 提交,文件大小约 585 KB,DOI 由 DataCite 注册中。
信源