开源
华为 openPangu-2.0-Flash 开源:92B MoE 模型,512K 上下文
华为开源 openPangu-2.0-Flash,92B 总参 / 6B 激活 MoE 模型,支持 512K 上下文,采…
2026.07.01 · 周三约 3 分钟阅读
华为正式开源大语言模型 openPangu-2.0-Flash,总参数量达 920 亿,单次推理仅激活约 60 亿参数,上下文长度支持到 512K。这是继 Pangu 系列之后,华为再次释出基于昇腾(Ascend)硬件训练的大规模 MoE 模型权重。
模型总览
openPangu-2.0-Flash 是一款典型的稀疏激活 MoE 架构模型,预训练数据量达到 34T tokens。其核心规格如下:
- 总参数:92B
- 激活参数:6B
- 上下文长度:512K
- 预训练数据:34T tokens
- 训练硬件:昇腾(Ascend)NPU
在训练阶段,模型引入了统一 SFT,同时注入慢思考与快思考能力;后训练阶段进一步采用多专家 RL 与 On-policy 蒸馏,将多个强化学习专家的能力融合到单一模型中。
架构创新
相比常见 MoE 设计,openPangu-2.0-Flash 在注意力机制与残差结构上均做了调整:
- 高效注意力:保留 MLA 以降低推理开销,并以 1:2 的层数比例混合 DSA(稀疏全局)与 SWA(局部窗口)注意力。SWA 层负责局部建模,DSA 层捕获稀疏全局上下文,在长上下文场景下兼顾精度与计算效率。
- 残差拓扑:传统残差路径被替换为 4 流 mHC(multi-Head Compression)结构,提升表征多样性与泛化能力。
- 多 token 预测(MTP):模型额外设置 3 个 MTP 头,每步可草拟 3 个后续 token,配合自投机解码(self-speculative decoding)加速推理。
- 优化器:训练采用 Muon 优化器以加快收敛。
训练与后训练策略
后训练被划分为多个阶段:先通过统一 SFT 让模型同时具备慢思考(深度推理)与快思考(直接回答)两种模式;再训练多个 RL 专家分别覆盖不同任务方向;最后通过 On-policy 蒸馏将各专家能力合并进最终模型。
定位与意义
openPangu-2.0-Flash 是华为在昇腾全栈上完成的大规模 MoE 开源权重,92B 总参 / 6B 激活的配比在推理成本与能力之间寻求平衡,512K 上下文与 MTP 推理也使其在长文档处理上具备一定竞争力。对中文开源生态而言,这一权重提供了又一款可在国产硬件上部署的旗舰级基座选择。不过,原文摘录中暂未披露 benchmark 跑分、推理速度与许可协议等关键信息,社区在实际评测与商用前仍需补充验证。
