桃子 AI 快讯

←返回首页

开源8 小时快讯 · 2026.06.26 16:01

英伟达MoE新开源：一行import，微调加速3.7倍

【来源1·量子位】英伟达MoE新开源：一行import，微调加速3.7倍。英伟达MoE新开源：一行i…

2026.06.26 · 周五约 3 分钟阅读评分 85

【来源1·量子位】英伟达MoE新开源：一行import，微调加速3.7倍。英伟达MoE新开源：一行import，微调加速3.7倍鱼羊 2026-06-26 11:23:35 来源：量子位在Transformers v5的基础上，增加了专家并行、DeepEP和TransformerEngine 鱼羊发自凹非寺量子位 | 公众号 QbitAI 一行import，MoE大模型微调提速3.7倍。英伟达最新研究成果现已开源： NeMo AutoModel ，专为大规模构建和微调生成式AI模型而打造。在Hugging Face Transformers v5的基础之上，NeMo AutoModel能做到不改代码API，只添一行import，就实现对MoE模型更快速的微调。实验显示，相比Hugging Face原版Transformers v5，英伟达NeMo AutoModel能在MoE微调中实现 3.4-3.7倍训练吞吐提升，并减少29%-32% GPU显存占用。在单节点8xH100 80GB GPU上，以Qwen3-30B-A3B为例，NeMo AutoModel直接把TPS/GPU（每GPU每秒吞吐量）从3075拉到11340，提升达到3.69倍。核心技术解析 MoE已经成为当前前沿模型的主流架构，但MoE也给高效训练带来了新的挑战：专家并行、通信融合、kernel优化……这些复杂工程都需要配套的基础设施来支持。 HuggingFace的Transformers v5是目前被用得比较多的MoE训练“通用底座”。v5增强了对MoE的原生支持，引入了expert backends、dynamic weight loading、分布式执行等MoE基础能力。这一次，英伟达的思路就是站在前辈的肩膀上，兼容HuggingFace Transformers的API ，让大家能不大改代码，就在MoE微调里获得更高训练吞吐和更低显存占用。具体来说，NeMo AutoModel在Transformers v5的基础上，增加了专家并行（EP）、 DeepEP 和 TransformerEngine 。专家并行（Expert Parallelism）专家并行技术主要用来降低内存压力。 EP把专家权重分布到了多个GPU上，每张GPU不再完整持有所有expert，而是只持有其中一部分参数。举个例子，8张GPU上ep_size=8，专家权重被分布至8块GPU，每张GPU的MoE内存占用能降到原来的1/8 。从实验结果来看，对于Qwen3，这项技术能将峰值内存从68.2GiB降至48.1GiB，降幅29%。对于Nemotron Nanomo模型，内存占用从62.1 GiB降至42.5 GiB，降幅 32%。释放出的空间可以用来支持更大批次、更长的序列。 DeepEP DeepEP实现了计算和通信的融合。传统方…

【来源2·36 氪 · AI】英伟达MoE新开源：一行import，微调加速3.7倍。兼容HuggingFace Transformers的API

本条由桃子采集流水线（启发式模式）自动整理，原文见文末信源。

关键词#Qwen #英伟达 #Hugging Face

信源

← 全部资讯回到首页 →