桃子桃子 AI 快讯
返回首页
研究论文

社区测试:去拒绝训练后 MoE 模型数学与代码反超原版

Reddit 用户实测发现,对 35B-A3B 类 MoE 模型做 abliteration 处理后,自有 oMLX 基…

2026.06.29 · 周一2 分钟阅读评分 34
评分细项加权总分 34
重要性
32
新颖性
45
影响面
28
可信度
35
实质性
25

近日,Reddit 用户 JLeonsarmiento 在 r/LocalLLaMA 板块发布了一组对比测试结果:在完全相同的自定义量化方案下,经过 abliteration(去除模型拒绝/对齐行为)处理的 HuiHui 版本,在其自建的 oMLX 基准的数学与代码题目上,得分反超了未做处理的 3.6-35B-A3B 原版(instruct 模式)。该帖子随后被同步发布到 Hugging Face,供 Mac 用户下载体验。

测试背景与方法

作者使用的对比对象是一类 350 亿参数、激活约 30 亿参数的 MoE 架构模型(帖子中以「3.6-35B-A3B」代称)。测试工具为作者本人维护的 oMLX 基准套件,针对 macOS 上的本地推理场景,题目覆盖数学与代码两类。量化方案在原版与 HuiHui abliterated 版之间保持完全一致,仅权重层面的对齐行为被剥离。

主要观察

  • 在 instruct 模式下,HuiHui 去拒绝版本在数学子项与代码子项上均跑出高于原版的得分;
  • 作者表示本次只跑了短推理链路,没有时间测试需要长链推理的 3.6 版本;
  • 作者猜测,对齐训练阶段施加的某些「拒绝式」约束,可能在客观题回答上压低了模型表现,移除后反而释放了能力。

局限与待验证问题

帖子引发讨论的同时,作者也明确指出了多项不确定性:

  • 样本量小,单次跑分波动可能影响结论;
  • 题目可能已在 abliteration 流程中被见过(即潜在的数据泄漏),虽然作者认为概率较低;
  • 缺乏跨框架、跨任务的横向验证,目前只在 oMLX 一套题目上得出结论。

因此,「去拒绝=更强」目前只是一条有趣的社区观察,尚不能视作对 abliteration 技术的系统性结论。若要在更多模型与基准上复现,仍需要独立测试者补全数据。

信源