社区开发者为 Ornith 35B 引入 MTP 推测解码，推理提速约 18%

Reddit 用户 kyr0x0 在 r/LocalLLaMA 发布了一项针对 Ornith 35B 模型的推理优化工作：将 MTP（Multi-Token Prediction，多 Token 预测）推测解码方案移植到该模型的 FP8 E4M3 量化版本，并在 vLLM 上完成端到端推理测试。帖子附带了一个「graft」脚本和预配置的高性能推理容器，供社区直接使用。

技术背景：MTP 与推测解码

MTP（Multi-Token Prediction）是一类典型的推测解码方法：用一个轻量的 drafter 模型先行预测多个候选 Token，再由主模型一次性验证，从而在保证输出分布的前提下提升自回归生成的吞吐量。帖子提到原作者在 vLLM 中找不到现成的「带 MTP drafter 支持」的 Ornith 35B 量化版本，因此自行完成了模型嫁接工作，将 MTP 模块挂接到目标 FP8 模型上。

性能与硬件需求

根据作者给出的数据：

在 FP8 E4M3 精度下，开启 MTP 后推理速度相比不开 MTP 提升约 18%；
drafter 的平均 Token 接受率约为 70%；
完整 256k 上下文窗口需要 80GB 以上显存的 RTX 显卡；
在统一内存架构（如 GB10）上可使用作者提供的脚本，把 MTP 模块嫁接到 NVFP4 目标模型上运行。

作者表示其测试平台基于 Hopper 与 Ada 世代 GPU，对这两类硬件而言是「Pareto 最优」配置。

资源与局限

相关脚本和推理容器已开源在 GitHub（kyr0/Ornith-35B-FP8-E4M3-MTP）。需要注意的是，该工作目前仅为单一社区开发者的自测结果，缺少在多硬件平台、不同 batch size / 序列长度下的系统化 benchmark，也未与其它推测解码实现（如 EAGLE、Medusa）做横向对比；Ornith 35B 本身也并非主流厂商发布的旗舰模型，其受众和影响范围相对有限。