桃子桃子 AI 快讯
返回首页
研究论文

量化等级如何影响推测解码接受率?社区实测数据

Reddit 用户实测 Gemma 4-31B 在不同 GGUF 量化下使用 MTP drafter 的接受率,结果显示…

2026.06.28 · 周日3 分钟阅读评分 46
评分细项加权总分 46
重要性
38
新颖性
55
影响面
35
可信度
52
实质性
68

一位 Reddit 用户在 r/LocalLLaMA 社区发布了一组实验数据,测试了不同 GGUF 量化等级对推测解码(speculative decoding)中 MTP(Multi-Token Prediction)drafter 接受率的影响。实验采用 Gemma 4-31B-it 作为主模型,使用其 assistant 变体作为 MTP 草稿模型,统计了 5 道混合编程/推理提示词在 200 token、temperature=0.3、关闭思考模式条件下、3 次重复实验的平均接受率与标准差。

实验设置

主模型(Trunk)为 Gemma 4-31B-it 的 GGUF 量化版本,草稿模型(Drafter)为对应的 assistant MTP drafter。研究者将接受率作为草稿深度 n 与量化等级的函数进行测量,覆盖 n=1 到 n=4 共四个深度,以及 Q5_K_S、IQ4_XS、IQ3_M、IQ2_M 四种量化档位。

量化等级 vs 接受率

实验结果显示,随着草稿深度增加,接受率在各量化等级上均显著下降,且下降幅度随量化精度降低而扩大:

  • Q5_K_S:n=1 时 88.5±1.0%,n=2 时 81.9±0.3%,n=3 时 74.2±0.9%,n=4 时 66.7±0.5%
  • IQ4_XS:n=1 时 86.7±0.1%,n=2 时 80.3±0.9%,n=3 时 72.3±0.5%,n=4 时 65.2±0.9%
  • IQ3_M:n=1 时 86.8±0.9%,n=2 时 78.3±0.2%,n=3 时 71.7±1.6%,n=4 时 65.0±2.0%
  • IQ2_M:n=1 时 84.5±0.5%,n=2 时 76.7±2.5%,n=3 时 69.3±1.5%,n=4 时 61.2±2.0%

主要结论

从数据中可以提炼几点观察:

  • Q5_K_S 在所有深度上都保持了最高的接受率,符合「量化越轻、模型行为越一致」的直觉。
  • IQ4_XS 与 IQ3_M 表现几乎一致,说明在 4–3 bit 区间,量化对主-草稿模型一致性的影响已经较小。
  • 即使是 2 bit 的 IQ2_M,单 token 草稿(n=1)仍能维持 84.5% 的接受率,实用性尚可;不过深度拉到 n=4 时掉至 61%,收益明显收窄。

速度收益取决于硬件

作者特别强调,接受率只是推测解码加速的一个因素,实际速度提升高度依赖硬件与架构:在 CUDA 设备上 n=2 能带来最显著的加速,而 Apple Metal 在 n=1 时的边际收益就已经很小,更高深度几乎没有额外帮助。这意味着用户在选择草稿深度时,需要结合自己的推理后端(CUDA/Metal/Vulkan)做针对性调优,而不是简单照搬接受率最高的设置。

复现方式

研究者在 Hugging Face 上发布了权重。要以 IQ2_M 跑 31B 主模型大约需要 12 GB 显存;若使用 Q5_K_S 并保留视觉与 MTP 能力,则需要约 24 GB。可通过 llama-server 启动,指定 spec-type draft-mtp 与 spec-draft-n-max 参数即可启用 MTP 推测解码。

信源