开源 MoE 稀疏微调方法 USAF:在 12GB 消费级 GPU 上微调 Qwen3-30B-A3B
开发者 tsuyu122 发布开源项目 USAF,提出针对 MoE 模型的稀疏微调方法,仅训练稀疏专家权重与路由器,在…
一名独立开发者在 r/MachineLearning 社区分享了其耗时数月开发的开源项目 USAF,这是一种面向 MoE(Mixture of Experts)模型的稀疏微调方法。其核心思路是:仅训练稀疏的专家权重与路由器(router),而非适配器(adapter),从而将微调所需的显存压缩到接近推理水平,让消费级 GPU 也能完成 MoE 模型微调。
方法要点
USAF 的设计目标明确——只要 GPU 能跑某个 MoE 模型的推理,就应当同样能微调该模型。作者在帖子中以 Qwen3-30B-A3B 为例进行了验证:在一块 12GB 显存的 AMD RX 6750 XT 显卡上,仅对稀疏专家权重与路由器进行训练,即可完成微调流程。该方法跳过了传统 LoRA 等适配器方案对额外参数的依赖,直接对模型自身稀疏结构中的关键权重进行更新。
验证环境与运行要求
- 显卡:AMD RX 6750 XT(12GB 显存)
- 模型:Qwen3-30B-A3B(MoE 架构)
- 训练对象:稀疏专家权重 + 路由器
从硬件角度看,这意味着在单张 12GB 显存的消费级显卡上微调 30B 级别的 MoE 模型成为可能,对于本地硬件预算有限的研究者与爱好者具有现实意义。
开源与社区反馈
项目以 Apache 2.0 许可证完全开源,作者明确表示不打算围绕该项目进行商业化或变现,仅希望与社区交流技术思路。代码仓库已在 GitHub 上线(github.com/tsuyu122/usaf)。作者特别呼吁在 MoE 模型上有实践经验的研究者试用并提供反馈,以验证方法的通用性与稳定性。
当前局限与待验证点
目前帖子中披露的信息以方法思路与单卡验证为主,尚缺少完整的 benchmark 数据、与 LoRA/QLoRA 等成熟方案的横向对比,以及在不同 MoE 模型(如 Mixtral、DeepSeek-MoE 等)上的迁移测试结果。这些将成为评估 USAF 实际价值的关键后续工作。
