社区测试：去拒绝训练后 MoE 模型数学与代码反超原版

近日，Reddit 用户 JLeonsarmiento 在 r/LocalLLaMA 板块发布了一组对比测试结果：在完全相同的自定义量化方案下，经过 abliteration（去除模型拒绝/对齐行为）处理的 HuiHui 版本，在其自建的 oMLX 基准的数学与代码题目上，得分反超了未做处理的 3.6-35B-A3B 原版（instruct 模式）。该帖子随后被同步发布到 Hugging Face，供 Mac 用户下载体验。

测试背景与方法

作者使用的对比对象是一类 350 亿参数、激活约 30 亿参数的 MoE 架构模型（帖子中以「3.6-35B-A3B」代称）。测试工具为作者本人维护的 oMLX 基准套件，针对 macOS 上的本地推理场景，题目覆盖数学与代码两类。量化方案在原版与 HuiHui abliterated 版之间保持完全一致，仅权重层面的对齐行为被剥离。

主要观察

在 instruct 模式下，HuiHui 去拒绝版本在数学子项与代码子项上均跑出高于原版的得分；
作者表示本次只跑了短推理链路，没有时间测试需要长链推理的 3.6 版本；
作者猜测，对齐训练阶段施加的某些「拒绝式」约束，可能在客观题回答上压低了模型表现，移除后反而释放了能力。

局限与待验证问题

帖子引发讨论的同时，作者也明确指出了多项不确定性：

样本量小，单次跑分波动可能影响结论；
题目可能已在 abliteration 流程中被见过（即潜在的数据泄漏），虽然作者认为概率较低；
缺乏跨框架、跨任务的横向验证，目前只在 oMLX 一套题目上得出结论。

因此，「去拒绝=更强」目前只是一条有趣的社区观察，尚不能视作对 abliteration 技术的系统性结论。若要在更多模型与基准上复现，仍需要独立测试者补全数据。