Qwen3.6-35B 后置 MoE 自适应门控实验发布

近日，Reddit 用户 cjhudlin 在 r/MachineLearning 板块发布了一项针对 Qwen3.6-35B-A3B 的自适应混合专家（MoE）门控实验，填补了「对预训练固定 k 值 MoE 模型施加后置自适应门控」这一研究的空白。项目以开源代码形式托管在 GitHub，包含完整方法、原始困惑度日志、llama.cpp 补丁脚本以及路由器微调管线。

研究背景

自适应 MoE 路由——即根据路由置信度为每个 token 选择可变数量的专家——在 XMoE（2024）、DynMoE（ICLR 2025）、Huang 等人的 TopP 路由（2024）等论文中已有讨论。然而此前所有成功实现均基于从零训练，尚无公开工作针对「在生产规模上对已训练好的固定 k 模型应用后置自适应门控」进行实证评估。本次实验正是对这一空白的尝试。

方法设计

作者针对 Qwen3.6-35B-A3B（每层 256 个专家，固定 k=8）开发了一个 llama.cpp 推理时补丁，在路由权重归一化之后对其施加累积概率阈值裁剪。由于 GGML 静态图约束无法实现真正动态的 k 值，作者采用「零门控」（zero-gating）方案：所有 k 个 FFN 均参与计算，但将低置信度专家的输出置零，并从最终结果中重新归一化剔除。阈值、min_k 与 max_k 上限均可通过环境变量在运行时配置。

关键实验结果

评测采用 PTB 语料、192 个文本块、ctx=512，困惑度（PPL）结果如下：

k8 基线：PPL 11.3277 ±0.143，平均激活 8.00/8 专家
k8 + 阈值 0.75：PPL 12.1226 ±0.155，平均激活 5.42/8 专家
k12 无门控：PPL 11.3379 ±0.144，平均激活 12.00/12 专家
k12 + 阈值 0.90：PPL 11.2925 ±0.143，平均激活 10.31/12 专家

作者指出，固定 k=8 训练出的路由器在归一化后分布天然平坦，典型形态为 [0.16, 0.14, 0.13, 0.12, 0.12, 0.11, 0.11, 0.11]，阈值裁剪没有「尖峰」可以利用；将激活专家从 8 个减至约 5.4 个，相当于直接丢弃贡献 11–13% 输出的专家，属于真实信号损失而非噪声。

k12 + 阈值 0.90 这一结果略优于基线，但其解读较为微妙：新增的 4 个专家模型从未训练过，而 0.90 阈值恰好能剔除外加专家中权重最弱的 1–2 个，留下稍干净的信号。考虑到 ±0.143 的标准差，这一方向是否真实存在仍不明确，但方向一致。

贡献与遗留问题

本次工作的两项可被验证的新贡献包括：首次在生产推理引擎中给出可用的 ggml_map_custom1 回调以支持自适应门控；以及针对 GGML 静态图约束的「零门控」实用绕过方案。

作者也明确指出，真正实现逐 token 可变专家数的路径，是对仅约 2100 万参数的路由器权重做带熵正则化的微调（L = L_LM + λ_entropy · H(router) + λ_balance · KL(usage, uniform)），并将全部专家 FFN 权重冻结。该训练管线已随项目开源，但需要约 20GB 显存，作者在 16GB 的 A5000 上暂时无法运行，公开征集有硬件条件的协作者复现。

项目仓库地址：https://github.com/cjhudlin/Adaptive-MoE-Gate-AMG-for-Qwen3.6-35B