DFlash 推测解码支持合并进 llama.cpp

Reddit 用户 sammcj 在 r/LocalLLaMA 板块宣布，DFlash 推测解码（speculative decoding）支持已合并进 llama.cpp 项目。DFlash 是一种在同模型内挂载轻量「草稿头」以加速生成的技术路线，合并后意味着本地部署用户可在 llama.cpp 体系内直接启用该加速方案。

合并信息要点

来源：Reddit r/LocalLLaMA 板块，由长期参与 llama.cpp 生态的用户 sammcj 提交。
内容方向：DFlash 支持代码已合入 llama.cpp 主分支。
适用范围：面向使用 llama.cpp 进行本地或服务端推理的用户。

信息局限

本次提交仅以标题与简短公告形式呈现，未附具体 PR 链接、技术说明、加速比测试或配置方法等细节，benchmark 数据、显存开销变化、是否默认开启等信息均不明，需进一步跟踪官方仓库或后续讨论。

后续关注点

是否提供可复现的推理速度对比。
兼容的模型架构与量化格式范围。
在不同上下文长度下的实际加速效果。