开源
DeepSeek 开源 DeepSpec:推测解码全栈工具与多模型权重发布
DeepSeek 发布 DeepSpec,集成 Eagle3、DFlash、DSpark 三种草稿模型,配套 Qwen3…
2026.06.28 · 周日约 2 分钟阅读评分 69
评分细项加权总分 69
- 重要性
- 65
- 新颖性
- 72
- 影响面
- 58
- 可信度
- 88
- 实质性
- 70
DeepSeek 在 HuggingFace 与 GitHub 上线了 DeepSpec 项目,这是一个面向推测解码(speculative decoding)场景的全栈代码库,涵盖数据准备、草稿模型实现、训练流程与评估脚本。同期还放出了配套的多组预训练权重,用于复现论文中 Table 1 的实验结果。
项目构成
DeepSpec 将原本分散在多篇论文与代码库中的工作整合到统一仓库下,主要面向希望在自有推理系统中部署推测解码的研究者与工程师。仓库内容包括:
- 数据准备工具,可基于「目标模型」以非思考模式生成 open-perfectblend 训练数据;
- 三种草稿模型的实现与训练代码(Eagle3、DFlash、DSpark);
- 与训练配置一一对应的评估脚本;
- 用于对照实验的 HuggingFace Checkpoint 集合。
已发布权重
本次放出的权重覆盖四款目标模型:Qwen3-4B、Qwen3-8B、Qwen3-14B 以及 Gemma4-12B-it,每款模型均提供 Eagle3、DFlash、DSpark 三种草稿模型各一个 Checkpoint。所有权重均由相应目标模型生成的数据训练,并直接产出自仓库 config/ 目录下的训练配置。
使用建议
DeepSeek 团队在项目说明中强调了两点注意事项:
- 若在新论文中引用这些结果,需与本仓库的训练设置保持一致,否则对比缺乏意义;
- 面向垂直领域时,建议重新微调草稿模型,尤其是当目标模型以思考模式运行时,原权重效果可能下降。
资源链接
- HuggingFace 集合:https://huggingface.co/collections/deepseek-ai/deepspec
- GitHub 仓库:https://github.com/deepseek-ai/DeepSpec
DeepSpec 将推测解码从「论文复现」推进到「即取即用」阶段,对使用 Qwen3 与 Gemma 系列做本地推理部署的团队具有直接参考价值。
