DeepSeek 开源 DeepSpec：投机解码草稿模型全栈训练框架

DeepSeek-AI 在 GitHub 发布并开源了 DeepSpec，这是一个面向投机解码（speculative decoding）场景的「全栈」代码库，覆盖数据准备、草稿模型训练与下游评测的完整流程。项目以 MIT 协议发布，适合希望在自建模型上复现或改进投机解码方案的研究者与工程团队使用。

项目定位与组成

DeepSpec 将投机解码草稿模型的研发拆分为三个串联阶段，每一阶段的输出会作为下一阶段的输入：

数据准备：下载提示词数据集，使用目标模型重新生成答案，并构建「目标缓存（target cache）」以加速后续训练。
草稿模型训练：基于目标缓存，训练一个轻量草稿模型去近似目标模型的输出分布。
评测：在标准基准上测量草稿 token 被目标模型接受的概率，从而评估加速效果。

支持的算法与目标模型

当前仓库内置三种草稿模型实现：

DSpark
DFlash（借鉴自同名 MIT 项目）
Eagle3（训练框架与建模代码参考自 SpecForge，Apache-2.0）

目标模型侧支持 Qwen3 与 Gemma 两大系列，默认配置为 Qwen/Qwen3-4B，训练硬件假设为单节点 8 卡 GPU（可通过 CUDA_VISIBLE_DEVICES 缩减）。

评测任务与运行方式

评测阶段覆盖的基准任务包括 gsm8k、math500、aime25、humaneval、mbpp、livecodebench、mt-bench、alpaca 与 arena-hard-v2，涵盖数学推理、代码生成与通用对话等场景。运行入口分别为：

训练：bash scripts/train/train.sh，通过 config_path 指定具体算法与目标模型配置。
评测：bash scripts/eval/eval.sh，需设置 target_name_or_path 与 draft_name_or_path。

资源占用与许可

需要注意的是，目标缓存在默认 Qwen3-4B 设置下约需 38 TB 存储，工程团队在落地前需提前规划磁盘资源。仓库整体采用 MIT 协议，并对借鉴自 SpecForge（Apache-2.0）、DFlash（MIT）等第三方项目的代码在文件头与 NOTICE 中进行了完整署名。项目维护者表示欢迎社区贡献新的草稿模型算法。