研究论文
跨模型族 On-Policy 蒸馏:打破 Tokenizer 壁垒
arXiv 论文提出跨 Tokenizer 的 On-Policy 蒸馏方案,借助 token 映射算法让不同分词体系的…
2026.06.29 · 周一约 2 分钟阅读评分 58
评分细项加权总分 58
- 重要性
- 58
- 新颖性
- 62
- 影响面
- 52
- 可信度
- 68
- 实质性
- 48
Hacker News 社区近日关注了一篇题为《Breaking the Tokenizer Barrier: On-Policy Distillation Across Model Families》的 arXiv 论文,聚焦大语言模型后训练阶段中跨模型族进行 On-Policy 蒸馏(OPD)的关键技术问题。论文指出,主流 OPD 方案要求教师与学生模型共享同一 tokenizer,这极大限制了 OPD 在不同模型系列之间的通用性。
现有方案的局限
- 当前跨 tokenizer 蒸馏通常采用「教师生成回答 + 学生做监督微调(SFT)」的范式,但这种方法只能学到教师生成的内容,难以完整保留教师概率分布中蕴含的丰富知识。
- 若强行要求师生共享 tokenizer,则只能在同系列或同构模型间蒸馏,无法自由组合不同家族的教师与学生。
论文提出的方法
- 作者将标准 On-Policy 蒸馏框架扩展到不同模型族之间,使 token 级的细粒度信号可以跨越 tokenizer 传递。
- 核心是引入一种「精确的 token 映射算法(precise token-mapping algorithm)」,在不同分词体系之间建立对齐关系,从而保证蒸馏信号的高保真度。
实验与意义
- 作者报告在多个基准上开展了大量实验,结果显示跨 tokenizer 的 OPD 在计算效率上显著优于既有基线方法。
- 该工作解锁了更广泛的「教师—学生」配对组合,为不同家族 LLM 之间的能力迁移与定制化适配提供了新路径。
信源信息
- 论文分类为 Machine Learning(cs.LG),arXiv 编号 2606.09456(v1)。
- 提交历史显示该版本于 2026 年 6 月 8 日由作者 Yifan Niu 提交,文件大小约 585 KB,DOI 由 DataCite 注册中。
