桃子桃子 AI 快讯
返回首页
开源

Qwen3.6-35B-A3B 去对齐版开源:保范投影实现零拒答

开发者对 Qwen3.6-35B-A3B 应用保范去对齐技术,发布零拒答开源模型与数据集,基准成绩保持不变。

2026.06.30 · 周二4 分钟阅读评分 50
评分细项加权总分 50
重要性
45
新颖性
55
影响面
40
可信度
60
实质性
72

开发者将「保范投影」去对齐技术应用于混合专家模型 Qwen3.6-35B-A3B,发布了完全开源的去对齐模型、数据集与 GGUF 量化版本。在该模型上,去对齐后拒答率降至 0%,数学与代码基准成绩与原模型基本持平。

背景:从 Arditi 等人的论文说起

「Abliteration」是一种去除大语言模型安全拒答行为的技术,其理论基础来自 Arditi 等人 2024 年的可解释性研究:模型对有害请求的拒答行为由残差流中一个几何上一致的方向介导。通过对比有害与无害提示下的激活均值即可找到该方向,再将其从权重矩阵中投影出去即可抑制拒答。

不过,社区广为流传的原始 abliteration 方法(如 mlabonne 的实现)会显著拉低模型基准成绩。原因在于:把权重向量沿拒答方向投影出去后,向量范数会缩小;在一个 35B 参数的 MoE 模型中,这一操作在数百个矩阵上叠加,导致残差流幅度逐层衰减,模型整体能力随之下降。

关键改进:保范双投影

grimjim 提出的「保范双投影」(norm-preserving biprojection)技术解决了上述问题:在将每个权重行与拒答方向正交化之后,重新将其缩放回原始的 L2 范数。这样得到的向量在拒答方向上的分量为零,但模长与原始向量一致。这一改动使去对齐模型从「理论上可行」变成「实际能通过基准测试」。

应用于混合专家模型的工程难点

Qwen3.6-35B-A3B 是一个混合架构的 MoE 模型,拥有 256 个路由专家加 1 个共享专家,并混合使用标准自注意力与线性注意力层。直接套用现成脚本会遇到两个静默失败的工程问题:

  • 混合注意力层:部分层使用 self_attn.o_proj,另一部分使用 linear_attn.out_proj。漏掉线性注意力层会导致去对齐不完整。
  • 三维专家张量:路由专家的下投影权重以 (n_experts, d_hidden, d_model) 的三维张量存储,不能当作普通 2D 矩阵处理,需通过 einsum 'ij,ejk->eik' 按专家独立施加投影。

此外,作者构建了一个增强版有害数据集:包含 7356 条提示,覆盖 35 个类别、10 种提示风格。作者指出,提示的多样性比数量更重要——若有害数据集全是「如何制造炸弹」之类的固定句式,提取出的方向捕捉到的是句式模式,而非真正的拒答机制。

结果与开源发布

最终模型在留出测试集上实现 0% 拒答率,同时数学与代码基准成绩保持完整。作者把「保范」视为基准无损的关键解释。

全部产物均已开源:

  • 模型(bf16 safetensors):Bahushruth/Qwen3.6-35B-A3B-abliterated-v4
  • GGUF 量化版本:Bahushruth/Qwen3.6-35B-A3B-abliterated-v4-GGUF,覆盖 Q4_K_M 至 Q8_0
  • 数据集:Bahushruth/abliteration-harmful-enriched

文章还提供了完整代码、交互式正交化几何可视化以及逐层拒答分数图。

相关研究

文中引用的主要参考文献包括:Arditi 等人 2024 年关于「拒答由单一方向介导」的论文;grimjim 2025 年的「保范双投影 abliteration」方案;Pan 等人在 ICML 2025 上发表的「LLM 对齐的隐藏维度」,从理论上证明拒答行为是多维的;以及 Nanfack 等人 2026 年提出的基于最优传输的高效拒答消融方法,作为另一种去对齐技术路径。

信源