工具
社区开发者为 Ornith 35B 引入 MTP 推测解码,推理提速约 18%
Reddit 用户 kyr0x0 将 MTP 推测解码移植到 Ornith 35B FP8 模型,搭配 vLLM 推理约…
2026.07.02 · 周四约 2 分钟阅读
Reddit 用户 kyr0x0 在 r/LocalLLaMA 发布了一项针对 Ornith 35B 模型的推理优化工作:将 MTP(Multi-Token Prediction,多 Token 预测)推测解码方案移植到该模型的 FP8 E4M3 量化版本,并在 vLLM 上完成端到端推理测试。帖子附带了一个「graft」脚本和预配置的高性能推理容器,供社区直接使用。
技术背景:MTP 与推测解码
MTP(Multi-Token Prediction)是一类典型的推测解码方法:用一个轻量的 drafter 模型先行预测多个候选 Token,再由主模型一次性验证,从而在保证输出分布的前提下提升自回归生成的吞吐量。帖子提到原作者在 vLLM 中找不到现成的「带 MTP drafter 支持」的 Ornith 35B 量化版本,因此自行完成了模型嫁接工作,将 MTP 模块挂接到目标 FP8 模型上。
性能与硬件需求
根据作者给出的数据:
- 在 FP8 E4M3 精度下,开启 MTP 后推理速度相比不开 MTP 提升约 18%;
- drafter 的平均 Token 接受率约为 70%;
- 完整 256k 上下文窗口需要 80GB 以上显存的 RTX 显卡;
- 在统一内存架构(如 GB10)上可使用作者提供的脚本,把 MTP 模块嫁接到 NVFP4 目标模型上运行。
作者表示其测试平台基于 Hopper 与 Ada 世代 GPU,对这两类硬件而言是「Pareto 最优」配置。
资源与局限
相关脚本和推理容器已开源在 GitHub(kyr0/Ornith-35B-FP8-E4M3-MTP)。需要注意的是,该工作目前仅为单一社区开发者的自测结果,缺少在多硬件平台、不同 batch size / 序列长度下的系统化 benchmark,也未与其它推测解码实现(如 EAGLE、Medusa)做横向对比;Ornith 35B 本身也并非主流厂商发布的旗舰模型,其受众和影响范围相对有限。
