社区发布 Qwen3.5/3.6 MTP 张量 GGUF 子集
社区开发者发布 Qwen3.5/3.6 系列模型的 MTP-only GGUF 子集,可在 llama.cpp 中为不含…
- 重要性
- 30
- 新颖性
- 50
- 影响面
- 25
- 可信度
- 55
- 实质性
- 48
近日,Reddit 用户 a4lg 在 r/LocalLLaMA 板块发布了一批专为 Qwen3.5/3.6 系列模型(包括 27B 及以上规模)打造的「MTP-only」GGUF 文件子集。这些文件仅保留 MTP(Multi-Token Prediction,多 Token 预测)相关的张量,目标用户是在 llama.cpp 上运行、但原生权重里不带 MTP 张量的 Qwen 衍生模型(包括官方系列与社区微调)。
什么是 MTP-only 子集
Qwen3 较新版本引入了 MTP 模块,用于在推理阶段实现多 Token 预测,从而支持推测解码等加速方案。本次发布的 GGUF 子集剥离了主模型权重,只保留 MTP 相关张量,文件体积相对较小。其核心思路有两个层面:
- 为不自带 MTP 的派生模型补齐 MTP 能力,使其在 llama.cpp 中可走推测解码路径;
- 以独立 GGUF 形式分发,便于用户在多种微调版本上做横向实验,而无需重新训练或合并权重。
作者表示,最早只是为自己转换的 trohrbaugh/Qwen3.5-122B-A10B-heretic 加速生成,后来才决定公开发布。
两种使用方式
子集在实际使用上分为两类,适用场景不同:
- 作为独立 draft 模型:搭配 llama.cpp 自带的 llama-server,使用 --model-draft 参数加载草稿模型,与主模型配合完成推测解码;
- 用于张量移植(Grafting):将 MTP 张量直接嵌入已有的 GGUF 主模型文件,让最终模型原生支持 MTP,无需每次启动时挂载 draft。
作者提到,Ornith-1.0-35B 的部分量化版本已经在主模型内嵌入了 MTP 张量,追溯后发现其源头实际来自 Qwopus3.6-35B-A3B,再往上则是原生 Qwen 权重——这正是此次发布「MTP-only」子集的动机之一,希望其他人可以更方便地复现和验证这类移植。
适用对象与局限
需要注意的是,这批文件高度依赖 llama.cpp 对 MTP 的具体实现以及 Qwen 系列的张量命名约定,适用范围较窄,主要面向:
- 在本地跑 Qwen 衍生模型、并希望压榨推理速度的中高级用户;
- 研究 Qwen3.5/3.6 MTP 行为、尝试不同 draft 策略的开发者。
对于普通用户,使用官方或社区已有的完整 Qwen 量化版本仍是更省心的选择。a4lg 也在文末说明,希望这些子集能帮助大家更轻松地实验各类 Qwen3.5/3.6 微调模型,而非替代主模型的发布。
