华为 openPangu-2.0-Flash 开源：92B MoE 模型，512K 上下文

华为正式开源大语言模型 openPangu-2.0-Flash，总参数量达 920 亿，单次推理仅激活约 60 亿参数，上下文长度支持到 512K。这是继 Pangu 系列之后，华为再次释出基于昇腾（Ascend）硬件训练的大规模 MoE 模型权重。

模型总览

openPangu-2.0-Flash 是一款典型的稀疏激活 MoE 架构模型，预训练数据量达到 34T tokens。其核心规格如下：

总参数：92B
激活参数：6B
上下文长度：512K
预训练数据：34T tokens
训练硬件：昇腾（Ascend）NPU

在训练阶段，模型引入了统一 SFT，同时注入慢思考与快思考能力；后训练阶段进一步采用多专家 RL 与 On-policy 蒸馏，将多个强化学习专家的能力融合到单一模型中。

架构创新

相比常见 MoE 设计，openPangu-2.0-Flash 在注意力机制与残差结构上均做了调整：

高效注意力：保留 MLA 以降低推理开销，并以 1:2 的层数比例混合 DSA（稀疏全局）与 SWA（局部窗口）注意力。SWA 层负责局部建模，DSA 层捕获稀疏全局上下文，在长上下文场景下兼顾精度与计算效率。
残差拓扑：传统残差路径被替换为 4 流 mHC（multi-Head Compression）结构，提升表征多样性与泛化能力。
多 token 预测（MTP）：模型额外设置 3 个 MTP 头，每步可草拟 3 个后续 token，配合自投机解码（self-speculative decoding）加速推理。
优化器：训练采用 Muon 优化器以加快收敛。

训练与后训练策略

后训练被划分为多个阶段：先通过统一 SFT 让模型同时具备慢思考（深度推理）与快思考（直接回答）两种模式；再训练多个 RL 专家分别覆盖不同任务方向；最后通过 On-policy 蒸馏将各专家能力合并进最终模型。

定位与意义

openPangu-2.0-Flash 是华为在昇腾全栈上完成的大规模 MoE 开源权重，92B 总参 / 6B 激活的配比在推理成本与能力之间寻求平衡，512K 上下文与 MTP 推理也使其在长文档处理上具备一定竞争力。对中文开源生态而言，这一权重提供了又一款可在国产硬件上部署的旗舰级基座选择。不过，原文摘录中暂未披露 benchmark 跑分、推理速度与许可协议等关键信息，社区在实际评测与商用前仍需补充验证。