Qwen3.6-35B-A3B 去对齐版开源:保范投影实现零拒答
开发者对 Qwen3.6-35B-A3B 应用保范去对齐技术,发布零拒答开源模型与数据集,基准成绩保持不变。
- 重要性
- 45
- 新颖性
- 55
- 影响面
- 40
- 可信度
- 60
- 实质性
- 72
开发者将「保范投影」去对齐技术应用于混合专家模型 Qwen3.6-35B-A3B,发布了完全开源的去对齐模型、数据集与 GGUF 量化版本。在该模型上,去对齐后拒答率降至 0%,数学与代码基准成绩与原模型基本持平。
背景:从 Arditi 等人的论文说起
「Abliteration」是一种去除大语言模型安全拒答行为的技术,其理论基础来自 Arditi 等人 2024 年的可解释性研究:模型对有害请求的拒答行为由残差流中一个几何上一致的方向介导。通过对比有害与无害提示下的激活均值即可找到该方向,再将其从权重矩阵中投影出去即可抑制拒答。
不过,社区广为流传的原始 abliteration 方法(如 mlabonne 的实现)会显著拉低模型基准成绩。原因在于:把权重向量沿拒答方向投影出去后,向量范数会缩小;在一个 35B 参数的 MoE 模型中,这一操作在数百个矩阵上叠加,导致残差流幅度逐层衰减,模型整体能力随之下降。
关键改进:保范双投影
grimjim 提出的「保范双投影」(norm-preserving biprojection)技术解决了上述问题:在将每个权重行与拒答方向正交化之后,重新将其缩放回原始的 L2 范数。这样得到的向量在拒答方向上的分量为零,但模长与原始向量一致。这一改动使去对齐模型从「理论上可行」变成「实际能通过基准测试」。
应用于混合专家模型的工程难点
Qwen3.6-35B-A3B 是一个混合架构的 MoE 模型,拥有 256 个路由专家加 1 个共享专家,并混合使用标准自注意力与线性注意力层。直接套用现成脚本会遇到两个静默失败的工程问题:
- 混合注意力层:部分层使用
self_attn.o_proj,另一部分使用linear_attn.out_proj。漏掉线性注意力层会导致去对齐不完整。 - 三维专家张量:路由专家的下投影权重以
(n_experts, d_hidden, d_model)的三维张量存储,不能当作普通 2D 矩阵处理,需通过einsum 'ij,ejk->eik'按专家独立施加投影。
此外,作者构建了一个增强版有害数据集:包含 7356 条提示,覆盖 35 个类别、10 种提示风格。作者指出,提示的多样性比数量更重要——若有害数据集全是「如何制造炸弹」之类的固定句式,提取出的方向捕捉到的是句式模式,而非真正的拒答机制。
结果与开源发布
最终模型在留出测试集上实现 0% 拒答率,同时数学与代码基准成绩保持完整。作者把「保范」视为基准无损的关键解释。
全部产物均已开源:
- 模型(bf16 safetensors):
Bahushruth/Qwen3.6-35B-A3B-abliterated-v4 - GGUF 量化版本:
Bahushruth/Qwen3.6-35B-A3B-abliterated-v4-GGUF,覆盖 Q4_K_M 至 Q8_0 - 数据集:
Bahushruth/abliteration-harmful-enriched
文章还提供了完整代码、交互式正交化几何可视化以及逐层拒答分数图。
相关研究
文中引用的主要参考文献包括:Arditi 等人 2024 年关于「拒答由单一方向介导」的论文;grimjim 2025 年的「保范双投影 abliteration」方案;Pan 等人在 ICML 2025 上发表的「LLM 对齐的隐藏维度」,从理论上证明拒答行为是多维的;以及 Nanfack 等人 2026 年提出的基于最优传输的高效拒答消融方法,作为另一种去对齐技术路径。
