开源 MoE 稀疏微调方法 USAF：在 12GB 消费级 GPU 上微调 Qwen3-30B-A3B

一名独立开发者在 r/MachineLearning 社区分享了其耗时数月开发的开源项目 USAF，这是一种面向 MoE（Mixture of Experts）模型的稀疏微调方法。其核心思路是：仅训练稀疏的专家权重与路由器（router），而非适配器（adapter），从而将微调所需的显存压缩到接近推理水平，让消费级 GPU 也能完成 MoE 模型微调。

方法要点

USAF 的设计目标明确——只要 GPU 能跑某个 MoE 模型的推理，就应当同样能微调该模型。作者在帖子中以 Qwen3-30B-A3B 为例进行了验证：在一块 12GB 显存的 AMD RX 6750 XT 显卡上，仅对稀疏专家权重与路由器进行训练，即可完成微调流程。该方法跳过了传统 LoRA 等适配器方案对额外参数的依赖，直接对模型自身稀疏结构中的关键权重进行更新。

验证环境与运行要求

显卡：AMD RX 6750 XT（12GB 显存）
模型：Qwen3-30B-A3B（MoE 架构）
训练对象：稀疏专家权重 + 路由器

从硬件角度看，这意味着在单张 12GB 显存的消费级显卡上微调 30B 级别的 MoE 模型成为可能，对于本地硬件预算有限的研究者与爱好者具有现实意义。

开源与社区反馈

项目以 Apache 2.0 许可证完全开源，作者明确表示不打算围绕该项目进行商业化或变现，仅希望与社区交流技术思路。代码仓库已在 GitHub 上线（github.com/tsuyu122/usaf）。作者特别呼吁在 MoE 模型上有实践经验的研究者试用并提供反馈，以验证方法的通用性与稳定性。

当前局限与待验证点

目前帖子中披露的信息以方法思路与单卡验证为主，尚缺少完整的 benchmark 数据、与 LoRA/QLoRA 等成熟方案的横向对比，以及在不同 MoE 模型（如 Mixtral、DeepSeek-MoE 等）上的迁移测试结果。这些将成为评估 USAF 实际价值的关键后续工作。