梁文锋挂名发表 DSpark 论文,提出基于置信度调度的推测解码方案,速度提升 60%–85%,并开源 DeepSpec…
DeepSeek 创始人梁文锋近日挂名发表论文《DSpark:基于置信度调度的推测解码与半自回归生成》,提出一套面向大模型推理的加速方案。根据论文与公开数据,DSpark 在不更换硬件的前提下,可将单用户生成速度提升 60%–85%,并有效缓解 DeepSeek 高峰时段的卡顿与宕机问题。同时,DeepSeek 配套开源了用于训练草稿模型的统一工具箱 DeepSpec。
大模型的文本生成本质上是逐字自回归过程:每写一个字,模型都要把已生成的上下文重新计算一遍,效率受限于串行依赖。推测解码(Speculative Decoding)的思路是让一个小而快的草稿模型先一口气猜出若干候选 token,再交给大模型批量验证,猜对则保留、猜错则由大模型接管续写。
业内已有的两类推测解码各有短板:保守式逐字猜测质量稳定但提速有限;激进式一次性全量猜测速度快,但随长度增加正确率快速衰减,即论文中所说的「后缀衰减」现象,第五、第六个 token 后基本在「瞎猜」。
DSpark 将两者结合,采用半自回归生成:草稿模型先快速铺出一串候选 token 并逐个打分(从 90 分递减到 30 分不等),再由调度器按「置信度」决定一次送给大模型验证多少 token。系统会先衡量大模型在不同批大小下的处理速度,按效率比决定是否纳入下一批:服务器空闲时尽量多送、多赚正确 token;服务器繁忙时只验证高置信度部分,舍弃低置信度猜测以节省 GPU 周期。这一机制被论文称为「置信度调度验证」。
论文与公开实测给出了三组关键数字:
DSpark 重点改善的是高并发稳定性。过去许多加速方案单用户测速漂亮,一上量就崩,根源在于大量低质量候选 token 消耗了宝贵的 GPU 批处理容量。DSpark 通过动态缩短验证长度,让现有 GPU 在不扩容的情况下也能扛住流量尖峰。
质量层面,DSpark 依赖的拒绝采样机制在数学上严格保证:最终输出的每个 token 概率分布,与大模型逐字自回归生成的分布完全一致。论文原文写道:「接纳规则能够精准完整地保留目标分布,投机解码可在不损失输出质量的前提下加速生成过程。」在数学推理、代码生成、日常对话三个领域的离线准确率测试中,DSpark 与原模型无统计显著差异,线上也未收到质量下降反馈。
成本层面,草稿模型体量很小,占总计算量不足 10%。在 51% 吞吐量提升的对照下,这点负载几乎可以忽略。DeepSeek 推理成本据估算下降约 40%,叠加其本就偏低的 API 定价,留出了进一步降价或提升免费额度的空间。
本次不仅发布模型权重,DeepSeek 还将 DeepSpec 训练框架一并开源。DeepSpec 是专门训练推测解码草稿模型的统一工具箱,开发者可基于它为 Qwen3、Gemma 等其他模型训练定制草稿模型,将整条推理加速路径的门槛进一步降低。
DSpark 的方向选择,与梁文锋一以贯之的工程偏好高度一致。2010 年他在浙江大学的硕士论文研究低成本 PTZ 摄像机的目标跟踪,核心论点是「硬件差距可以用算法补」。16 年后,这一思路被复用到 AI 推理领域。
文章披露,DeepSeek 此前近三年完全由梁文锋创立的幻方量化以利润供养,并多次拒绝外部投资;本轮超 500 亿元融资中,梁文锋个人出资约 200 亿元,占比 40%,外部资金以有限合伙形式注入,不享有投票权且股份锁定五年。「研究者、管理者、投资者」三重身份叠加在一人身上,使梁文锋在「多买 100 张 GPU」与「做工程优化」之间,几乎没有悬念地选择了后者——DSpark 正是这条决策链下的最新产物。