研究论文
社区测试:去拒绝训练后 MoE 模型数学与代码反超原版
Reddit 用户实测发现,对 35B-A3B 类 MoE 模型做 abliteration 处理后,自有 oMLX 基…
2026.06.29 · 周一约 2 分钟阅读评分 34
评分细项加权总分 34
- 重要性
- 32
- 新颖性
- 45
- 影响面
- 28
- 可信度
- 35
- 实质性
- 25
近日,Reddit 用户 JLeonsarmiento 在 r/LocalLLaMA 板块发布了一组对比测试结果:在完全相同的自定义量化方案下,经过 abliteration(去除模型拒绝/对齐行为)处理的 HuiHui 版本,在其自建的 oMLX 基准的数学与代码题目上,得分反超了未做处理的 3.6-35B-A3B 原版(instruct 模式)。该帖子随后被同步发布到 Hugging Face,供 Mac 用户下载体验。
测试背景与方法
作者使用的对比对象是一类 350 亿参数、激活约 30 亿参数的 MoE 架构模型(帖子中以「3.6-35B-A3B」代称)。测试工具为作者本人维护的 oMLX 基准套件,针对 macOS 上的本地推理场景,题目覆盖数学与代码两类。量化方案在原版与 HuiHui abliterated 版之间保持完全一致,仅权重层面的对齐行为被剥离。
主要观察
- 在 instruct 模式下,HuiHui 去拒绝版本在数学子项与代码子项上均跑出高于原版的得分;
- 作者表示本次只跑了短推理链路,没有时间测试需要长链推理的 3.6 版本;
- 作者猜测,对齐训练阶段施加的某些「拒绝式」约束,可能在客观题回答上压低了模型表现,移除后反而释放了能力。
局限与待验证问题
帖子引发讨论的同时,作者也明确指出了多项不确定性:
- 样本量小,单次跑分波动可能影响结论;
- 题目可能已在 abliteration 流程中被见过(即潜在的数据泄漏),虽然作者认为概率较低;
- 缺乏跨框架、跨任务的横向验证,目前只在 oMLX 一套题目上得出结论。
因此,「去拒绝=更强」目前只是一条有趣的社区观察,尚不能视作对 abliteration 技术的系统性结论。若要在更多模型与基准上复现,仍需要独立测试者补全数据。
