社区发布 Qwen3.5/3.6 MTP 张量 GGUF 子集

近日，Reddit 用户 a4lg 在 r/LocalLLaMA 板块发布了一批专为 Qwen3.5/3.6 系列模型（包括 27B 及以上规模）打造的「MTP-only」GGUF 文件子集。这些文件仅保留 MTP（Multi-Token Prediction，多 Token 预测）相关的张量，目标用户是在 llama.cpp 上运行、但原生权重里不带 MTP 张量的 Qwen 衍生模型（包括官方系列与社区微调）。

什么是 MTP-only 子集

Qwen3 较新版本引入了 MTP 模块，用于在推理阶段实现多 Token 预测，从而支持推测解码等加速方案。本次发布的 GGUF 子集剥离了主模型权重，只保留 MTP 相关张量，文件体积相对较小。其核心思路有两个层面：

为不自带 MTP 的派生模型补齐 MTP 能力，使其在 llama.cpp 中可走推测解码路径；
以独立 GGUF 形式分发，便于用户在多种微调版本上做横向实验，而无需重新训练或合并权重。

作者表示，最早只是为自己转换的 trohrbaugh/Qwen3.5-122B-A10B-heretic 加速生成，后来才决定公开发布。

两种使用方式

子集在实际使用上分为两类，适用场景不同：

作为独立 draft 模型：搭配 llama.cpp 自带的 llama-server，使用 --model-draft 参数加载草稿模型，与主模型配合完成推测解码；
用于张量移植（Grafting）：将 MTP 张量直接嵌入已有的 GGUF 主模型文件，让最终模型原生支持 MTP，无需每次启动时挂载 draft。

作者提到，Ornith-1.0-35B 的部分量化版本已经在主模型内嵌入了 MTP 张量，追溯后发现其源头实际来自 Qwopus3.6-35B-A3B，再往上则是原生 Qwen 权重——这正是此次发布「MTP-only」子集的动机之一，希望其他人可以更方便地复现和验证这类移植。

适用对象与局限

需要注意的是，这批文件高度依赖 llama.cpp 对 MTP 的具体实现以及 Qwen 系列的张量命名约定，适用范围较窄，主要面向：

在本地跑 Qwen 衍生模型、并希望压榨推理速度的中高级用户；
研究 Qwen3.5/3.6 MTP 行为、尝试不同 draft 策略的开发者。

对于普通用户，使用官方或社区已有的完整 Qwen 量化版本仍是更省心的选择。a4lg 也在文末说明，希望这些子集能帮助大家更轻松地实验各类 Qwen3.5/3.6 微调模型，而非替代主模型的发布。