Qwen3.6-35B-A3B 去对齐版开源：保范投影实现零拒答

开发者将「保范投影」去对齐技术应用于混合专家模型 Qwen3.6-35B-A3B，发布了完全开源的去对齐模型、数据集与 GGUF 量化版本。在该模型上，去对齐后拒答率降至 0%，数学与代码基准成绩与原模型基本持平。

背景：从 Arditi 等人的论文说起

「Abliteration」是一种去除大语言模型安全拒答行为的技术，其理论基础来自 Arditi 等人 2024 年的可解释性研究：模型对有害请求的拒答行为由残差流中一个几何上一致的方向介导。通过对比有害与无害提示下的激活均值即可找到该方向，再将其从权重矩阵中投影出去即可抑制拒答。

不过，社区广为流传的原始 abliteration 方法（如 mlabonne 的实现）会显著拉低模型基准成绩。原因在于：把权重向量沿拒答方向投影出去后，向量范数会缩小；在一个 35B 参数的 MoE 模型中，这一操作在数百个矩阵上叠加，导致残差流幅度逐层衰减，模型整体能力随之下降。

关键改进：保范双投影

grimjim 提出的「保范双投影」（norm-preserving biprojection）技术解决了上述问题：在将每个权重行与拒答方向正交化之后，重新将其缩放回原始的 L2 范数。这样得到的向量在拒答方向上的分量为零，但模长与原始向量一致。这一改动使去对齐模型从「理论上可行」变成「实际能通过基准测试」。

应用于混合专家模型的工程难点

Qwen3.6-35B-A3B 是一个混合架构的 MoE 模型，拥有 256 个路由专家加 1 个共享专家，并混合使用标准自注意力与线性注意力层。直接套用现成脚本会遇到两个静默失败的工程问题：

混合注意力层：部分层使用 self_attn.o_proj，另一部分使用 linear_attn.out_proj。漏掉线性注意力层会导致去对齐不完整。
三维专家张量：路由专家的下投影权重以 (n_experts, d_hidden, d_model) 的三维张量存储，不能当作普通 2D 矩阵处理，需通过 einsum 'ij,ejk->eik' 按专家独立施加投影。

此外，作者构建了一个增强版有害数据集：包含 7356 条提示，覆盖 35 个类别、10 种提示风格。作者指出，提示的多样性比数量更重要——若有害数据集全是「如何制造炸弹」之类的固定句式，提取出的方向捕捉到的是句式模式，而非真正的拒答机制。

结果与开源发布

最终模型在留出测试集上实现 0% 拒答率，同时数学与代码基准成绩保持完整。作者把「保范」视为基准无损的关键解释。

全部产物均已开源：

模型（bf16 safetensors）：Bahushruth/Qwen3.6-35B-A3B-abliterated-v4
GGUF 量化版本：Bahushruth/Qwen3.6-35B-A3B-abliterated-v4-GGUF，覆盖 Q4_K_M 至 Q8_0
数据集：Bahushruth/abliteration-harmful-enriched

文章还提供了完整代码、交互式正交化几何可视化以及逐层拒答分数图。

背景：从 Arditi 等人的论文说起

关键改进：保范双投影

应用于混合专家模型的工程难点

结果与开源发布

相关研究