桃子 AI 快讯

←返回首页

研究论文

跨模型族 On-Policy 蒸馏：打破 Tokenizer 壁垒

arXiv 论文提出跨 Tokenizer 的 On-Policy 蒸馏方案，借助 token 映射算法让不同分词体系的…

2026.06.29 · 周一约 2 分钟阅读评分 58

评分细项加权总分 58

重要性: 58
新颖性: 62
影响面: 52
可信度: 68
实质性: 48

Hacker News 社区近日关注了一篇题为《Breaking the Tokenizer Barrier: On-Policy Distillation Across Model Families》的 arXiv 论文，聚焦大语言模型后训练阶段中跨模型族进行 On-Policy 蒸馏（OPD）的关键技术问题。论文指出，主流 OPD 方案要求教师与学生模型共享同一 tokenizer，这极大限制了 OPD 在不同模型系列之间的通用性。

现有方案的局限

当前跨 tokenizer 蒸馏通常采用「教师生成回答 + 学生做监督微调（SFT）」的范式，但这种方法只能学到教师生成的内容，难以完整保留教师概率分布中蕴含的丰富知识。
若强行要求师生共享 tokenizer，则只能在同系列或同构模型间蒸馏，无法自由组合不同家族的教师与学生。

论文提出的方法

作者将标准 On-Policy 蒸馏框架扩展到不同模型族之间，使 token 级的细粒度信号可以跨越 tokenizer 传递。
核心是引入一种「精确的 token 映射算法（precise token-mapping algorithm）」，在不同分词体系之间建立对齐关系，从而保证蒸馏信号的高保真度。

实验与意义

作者报告在多个基准上开展了大量实验，结果显示跨 tokenizer 的 OPD 在计算效率上显著优于既有基线方法。
该工作解锁了更广泛的「教师—学生」配对组合，为不同家族 LLM 之间的能力迁移与定制化适配提供了新路径。

信源信息

论文分类为 Machine Learning（cs.LG），arXiv 编号 2606.09456（v1）。
提交历史显示该版本于 2026 年 6 月 8 日由作者 Yifan Niu 提交，文件大小约 585 KB，DOI 由 DataCite 注册中。

关键词#知识蒸馏 #On-Policy Distillation #Tokenizer #arXiv

信源

↗Hacker News (AI)

← 全部资讯回到首页 →