DeepSeek 发布 DSpark 论文：推理提速 60%–85%，同步开源训练框架

DeepSeek 创始人梁文锋近日挂名发表论文《DSpark：基于置信度调度的推测解码与半自回归生成》，提出一套面向大模型推理的加速方案。根据论文与公开数据，DSpark 在不更换硬件的前提下，可将单用户生成速度提升 60%–85%，并有效缓解 DeepSeek 高峰时段的卡顿与宕机问题。同时，DeepSeek 配套开源了用于训练草稿模型的统一工具箱 DeepSpec。

DSpark 是什么

大模型的文本生成本质上是逐字自回归过程：每写一个字，模型都要把已生成的上下文重新计算一遍，效率受限于串行依赖。推测解码（Speculative Decoding）的思路是让一个小而快的草稿模型先一口气猜出若干候选 token，再交给大模型批量验证，猜对则保留、猜错则由大模型接管续写。

业内已有的两类推测解码各有短板：保守式逐字猜测质量稳定但提速有限；激进式一次性全量猜测速度快，但随长度增加正确率快速衰减，即论文中所说的「后缀衰减」现象，第五、第六个 token 后基本在「瞎猜」。

DSpark 将两者结合，采用半自回归生成：草稿模型先快速铺出一串候选 token 并逐个打分（从 90 分递减到 30 分不等），再由调度器按「置信度」决定一次送给大模型验证多少 token。系统会先衡量大模型在不同批大小下的处理速度，按效率比决定是否纳入下一批：服务器空闲时尽量多送、多赚正确 token；服务器繁忙时只验证高置信度部分，舍弃低置信度猜测以节省 GPU 周期。这一机制被论文称为「置信度调度验证」。

性能数据

论文与公开实测给出了三组关键数字：

极低延迟场景：V4-Flash 要求每个用户每秒 120 字时，原 MTP-1 系统在高并发下基本崩溃，DSpark 仍可保持 6 倍以上吞吐量。
中等负载场景：要求每个用户每秒 80 字时，DSpark 在单 GPU 上的总吞吐量从 10000 token/秒提升到 15100 token/秒，提升约 51%。
用户体感：同等质量下，回复生成时间从约 10 秒缩短到 5–6 秒。

DSpark 重点改善的是高并发稳定性。过去许多加速方案单用户测速漂亮，一上量就崩，根源在于大量低质量候选 token 消耗了宝贵的 GPU 批处理容量。DSpark 通过动态缩短验证长度，让现有 GPU 在不扩容的情况下也能扛住流量尖峰。

质量与成本

质量层面，DSpark 依赖的拒绝采样机制在数学上严格保证：最终输出的每个 token 概率分布，与大模型逐字自回归生成的分布完全一致。论文原文写道：「接纳规则能够精准完整地保留目标分布，投机解码可在不损失输出质量的前提下加速生成过程。」在数学推理、代码生成、日常对话三个领域的离线准确率测试中，DSpark 与原模型无统计显著差异，线上也未收到质量下降反馈。

成本层面，草稿模型体量很小，占总计算量不足 10%。在 51% 吞吐量提升的对照下，这点负载几乎可以忽略。DeepSeek 推理成本据估算下降约 40%，叠加其本就偏低的 API 定价，留出了进一步降价或提升免费额度的空间。

配套开源：DeepSpec

本次不仅发布模型权重，DeepSeek 还将 DeepSpec 训练框架一并开源。DeepSpec 是专门训练推测解码草稿模型的统一工具箱，开发者可基于它为 Qwen3、Gemma 等其他模型训练定制草稿模型，将整条推理加速路径的门槛进一步降低。

梁文锋的「省钱」逻辑

DSpark 的方向选择，与梁文锋一以贯之的工程偏好高度一致。2010 年他在浙江大学的硕士论文研究低成本 PTZ 摄像机的目标跟踪，核心论点是「硬件差距可以用算法补」。16 年后，这一思路被复用到 AI 推理领域。

文章披露，DeepSeek 此前近三年完全由梁文锋创立的幻方量化以利润供养，并多次拒绝外部投资；本轮超 500 亿元融资中，梁文锋个人出资约 200 亿元，占比 40%，外部资金以有限合伙形式注入，不享有投票权且股份锁定五年。「研究者、管理者、投资者」三重身份叠加在一人身上，使梁文锋在「多买 100 张 GPU」与「做工程优化」之间，几乎没有悬念地选择了后者——DSpark 正是这条决策链下的最新产物。

DSpark 是什么

性能数据

论文与公开实测给出了三组关键数字：

极低延迟场景：V4-Flash 要求每个用户每秒 120 字时，原 MTP-1 系统在高并发下基本崩溃，DSpark 仍可保持 6 倍以上吞吐量。

中等负载场景：要求每个用户每秒 80 字时，DSpark 在单 GPU 上的总吞吐量从 10000 token/秒提升到 15100 token/秒，提升约 51%。

用户体感：同等质量下，回复生成时间从约 10 秒缩短到 5–6 秒。

质量与成本

梁文锋的「省钱」逻辑