量化等级如何影响推测解码接受率？社区实测数据

一位 Reddit 用户在 r/LocalLLaMA 社区发布了一组实验数据，测试了不同 GGUF 量化等级对推测解码（speculative decoding）中 MTP（Multi-Token Prediction）drafter 接受率的影响。实验采用 Gemma 4-31B-it 作为主模型，使用其 assistant 变体作为 MTP 草稿模型，统计了 5 道混合编程/推理提示词在 200 token、temperature=0.3、关闭思考模式条件下、3 次重复实验的平均接受率与标准差。

实验设置

主模型（Trunk）为 Gemma 4-31B-it 的 GGUF 量化版本，草稿模型（Drafter）为对应的 assistant MTP drafter。研究者将接受率作为草稿深度 n 与量化等级的函数进行测量，覆盖 n=1 到 n=4 共四个深度，以及 Q5_K_S、IQ4_XS、IQ3_M、IQ2_M 四种量化档位。

量化等级 vs 接受率

实验结果显示，随着草稿深度增加，接受率在各量化等级上均显著下降，且下降幅度随量化精度降低而扩大：

Q5_K_S：n=1 时 88.5±1.0%，n=2 时 81.9±0.3%，n=3 时 74.2±0.9%，n=4 时 66.7±0.5%
IQ4_XS：n=1 时 86.7±0.1%，n=2 时 80.3±0.9%，n=3 时 72.3±0.5%，n=4 时 65.2±0.9%
IQ3_M：n=1 时 86.8±0.9%，n=2 时 78.3±0.2%，n=3 时 71.7±1.6%，n=4 时 65.0±2.0%
IQ2_M：n=1 时 84.5±0.5%，n=2 时 76.7±2.5%，n=3 时 69.3±1.5%，n=4 时 61.2±2.0%

主要结论

从数据中可以提炼几点观察：

Q5_K_S 在所有深度上都保持了最高的接受率，符合「量化越轻、模型行为越一致」的直觉。
IQ4_XS 与 IQ3_M 表现几乎一致，说明在 4–3 bit 区间，量化对主-草稿模型一致性的影响已经较小。
即使是 2 bit 的 IQ2_M，单 token 草稿（n=1）仍能维持 84.5% 的接受率，实用性尚可；不过深度拉到 n=4 时掉至 61%，收益明显收窄。

速度收益取决于硬件

作者特别强调，接受率只是推测解码加速的一个因素，实际速度提升高度依赖硬件与架构：在 CUDA 设备上 n=2 能带来最显著的加速，而 Apple Metal 在 n=1 时的边际收益就已经很小，更高深度几乎没有额外帮助。这意味着用户在选择草稿深度时，需要结合自己的推理后端（CUDA/Metal/Vulkan）做针对性调优，而不是简单照搬接受率最高的设置。

复现方式

研究者在 Hugging Face 上发布了权重。要以 IQ2_M 跑 31B 主模型大约需要 12 GB 显存；若使用 Q5_K_S 并保留视觉与 MTP 能力，则需要约 24 GB。可通过 llama-server 启动，指定 spec-type draft-mtp 与 spec-draft-n-max 参数即可启用 MTP 推测解码。