桃子桃子 AI 快讯
返回首页
研究论文

Qwen3.6-35B 后置 MoE 自适应门控实验发布

研究者发布对 Qwen3.6-35B-A3B 的后置自适应 MoE 门控实验,揭示固定 k 路由器分布平坦导致信号损失。

2026.06.29 · 周一4 分钟阅读评分 46
评分细项加权总分 46
重要性
40
新颖性
58
影响面
30
可信度
50
实质性
63

近日,Reddit 用户 cjhudlin 在 r/MachineLearning 板块发布了一项针对 Qwen3.6-35B-A3B 的自适应混合专家(MoE)门控实验,填补了「对预训练固定 k 值 MoE 模型施加后置自适应门控」这一研究的空白。项目以开源代码形式托管在 GitHub,包含完整方法、原始困惑度日志、llama.cpp 补丁脚本以及路由器微调管线。

研究背景

自适应 MoE 路由——即根据路由置信度为每个 token 选择可变数量的专家——在 XMoE(2024)、DynMoE(ICLR 2025)、Huang 等人的 TopP 路由(2024)等论文中已有讨论。然而此前所有成功实现均基于从零训练,尚无公开工作针对「在生产规模上对已训练好的固定 k 模型应用后置自适应门控」进行实证评估。本次实验正是对这一空白的尝试。

方法设计

作者针对 Qwen3.6-35B-A3B(每层 256 个专家,固定 k=8)开发了一个 llama.cpp 推理时补丁,在路由权重归一化之后对其施加累积概率阈值裁剪。由于 GGML 静态图约束无法实现真正动态的 k 值,作者采用「零门控」(zero-gating)方案:所有 k 个 FFN 均参与计算,但将低置信度专家的输出置零,并从最终结果中重新归一化剔除。阈值、min_k 与 max_k 上限均可通过环境变量在运行时配置。

关键实验结果

评测采用 PTB 语料、192 个文本块、ctx=512,困惑度(PPL)结果如下:

  • k8 基线:PPL 11.3277 ±0.143,平均激活 8.00/8 专家
  • k8 + 阈值 0.75:PPL 12.1226 ±0.155,平均激活 5.42/8 专家
  • k12 无门控:PPL 11.3379 ±0.144,平均激活 12.00/12 专家
  • k12 + 阈值 0.90:PPL 11.2925 ±0.143,平均激活 10.31/12 专家

作者指出,固定 k=8 训练出的路由器在归一化后分布天然平坦,典型形态为 [0.16, 0.14, 0.13, 0.12, 0.12, 0.11, 0.11, 0.11],阈值裁剪没有「尖峰」可以利用;将激活专家从 8 个减至约 5.4 个,相当于直接丢弃贡献 11–13% 输出的专家,属于真实信号损失而非噪声。

k12 + 阈值 0.90 这一结果略优于基线,但其解读较为微妙:新增的 4 个专家模型从未训练过,而 0.90 阈值恰好能剔除外加专家中权重最弱的 1–2 个,留下稍干净的信号。考虑到 ±0.143 的标准差,这一方向是否真实存在仍不明确,但方向一致。

贡献与遗留问题

本次工作的两项可被验证的新贡献包括:首次在生产推理引擎中给出可用的 ggml_map_custom1 回调以支持自适应门控;以及针对 GGML 静态图约束的「零门控」实用绕过方案。

作者也明确指出,真正实现逐 token 可变专家数的路径,是对仅约 2100 万参数的路由器权重做带熵正则化的微调(L = L_LM + λ_entropy · H(router) + λ_balance · KL(usage, uniform)),并将全部专家 FFN 权重冻结。该训练管线已随项目开源,但需要约 20GB 显存,作者在 16GB 的 A5000 上暂时无法运行,公开征集有硬件条件的协作者复现。

项目仓库地址:https://github.com/cjhudlin/Adaptive-MoE-Gate-AMG-for-Qwen3.6-35B

信源