桃子桃子 AI 快讯
返回首页
开源

DeepSeek 开源 DeepSpec:投机解码草稿模型全栈训练框架

DeepSeek-AI 发布 DeepSpec 开源仓库,提供投机解码草稿模型的数据准备、训练与评测全流程,支持 DSp…

2026.06.28 · 周日3 分钟阅读评分 66
评分细项加权总分 66
重要性
58
新颖性
72
影响面
55
可信度
88
实质性
72

DeepSeek-AI 在 GitHub 发布并开源了 DeepSpec,这是一个面向投机解码(speculative decoding)场景的「全栈」代码库,覆盖数据准备、草稿模型训练与下游评测的完整流程。项目以 MIT 协议发布,适合希望在自建模型上复现或改进投机解码方案的研究者与工程团队使用。

项目定位与组成

DeepSpec 将投机解码草稿模型的研发拆分为三个串联阶段,每一阶段的输出会作为下一阶段的输入:

  • 数据准备:下载提示词数据集,使用目标模型重新生成答案,并构建「目标缓存(target cache)」以加速后续训练。
  • 草稿模型训练:基于目标缓存,训练一个轻量草稿模型去近似目标模型的输出分布。
  • 评测:在标准基准上测量草稿 token 被目标模型接受的概率,从而评估加速效果。

支持的算法与目标模型

当前仓库内置三种草稿模型实现:

  • DSpark
  • DFlash(借鉴自同名 MIT 项目)
  • Eagle3(训练框架与建模代码参考自 SpecForge,Apache-2.0)

目标模型侧支持 Qwen3Gemma 两大系列,默认配置为 Qwen/Qwen3-4B,训练硬件假设为单节点 8 卡 GPU(可通过 CUDA_VISIBLE_DEVICES 缩减)。

评测任务与运行方式

评测阶段覆盖的基准任务包括 gsm8k、math500、aime25、humaneval、mbpp、livecodebench、mt-bench、alpaca 与 arena-hard-v2,涵盖数学推理、代码生成与通用对话等场景。运行入口分别为:

  • 训练:bash scripts/train/train.sh,通过 config_path 指定具体算法与目标模型配置。
  • 评测:bash scripts/eval/eval.sh,需设置 target_name_or_pathdraft_name_or_path

资源占用与许可

需要注意的是,目标缓存在默认 Qwen3-4B 设置下约需 38 TB 存储,工程团队在落地前需提前规划磁盘资源。仓库整体采用 MIT 协议,并对借鉴自 SpecForge(Apache-2.0)、DFlash(MIT)等第三方项目的代码在文件头与 NOTICE 中进行了完整署名。项目维护者表示欢迎社区贡献新的草稿模型算法。

信源