华为昇腾团队 openPangu-2.0-Flash 上线:92B MoE、512K 上下文
华为昇腾团队在 GitCode 发布 openPangu-2.0-Flash,92B 总参数、6B 激活参数,支持 51…
- 重要性
- 70
- 新颖性
- 65
- 影响面
- 60
- 可信度
- 55
- 实质性
- 58
华为昇腾团队近日在代码托管平台 GitCode 上线了 openPangu-2.0-Flash 模型,延续 Pangu 系列的「open」开源路线。该模型基于昇腾(Ascend)硬件完成训练,是一款面向长上下文与高效推理场景的 MoE 架构大模型,目前尚未在 HuggingFace 同步发布。
模型架构与规模
openPangu-2.0-Flash 采用混合专家(Mixture of Experts,MoE)架构,主要参数配置如下:
- 总参数量:92B
- 单次激活参数量:6B
- 上下文长度:512K
- 预训练数据规模:34T tokens
总参数与激活参数之间超过 15 倍的差距,意味着模型在保持大知识容量的同时,单次前向推理仅需调用约 6B 参数,兼顾了容量与推理效率。512K 的上下文窗口在当前开源模型中仍属较长水平,适合长文档理解、代码仓库级分析等任务。
训练方法
在后训练(post-training)阶段,openPangu-2.0-Flash 使用了多阶段组合策略:
- 统一监督微调(SFT),在同一框架中同时支持慢思考(slow thinking)与快思考(fast thinking)能力;
- 多专家强化学习(multiple specialist RL training),针对不同任务训练专精策略;
- 多 RL 专家融合的 on-policy 蒸馏,将不同专精模型的能力整合到最终模型中。
这种「统一 SFT + 多专家 RL + on-policy 蒸馏」的组合,是近期主流开源大模型常用的后训练范式,强调在不显著增加推理成本的情况下提升综合能力。
生态与发布渠道
本次发布选择了 GitCode(ai.gitcode.com/ascend-tribe/openPangu-2.0-Flash)作为主要托管平台,而非 HuggingFace。结合「ascend-tribe」的组织命名和模型在昇腾上训练的事实,openPangu-2.0-Flash 主要面向华为昇腾生态的开发者与研究机构,权重与推理脚本预计将围绕 CANN、MindSpore 等昇腾软件栈进行适配。
需要注意的是,截至目前社区尚未披露该模型在公开基准(如 MMLU、GSM8K、HumanEval 等)上的评测结果,模型的实际能力与适用场景仍有待后续验证。Reddit r/LocalLLaMA 板块用户首先发现并分享了该链接,提示其 HuggingFace 镜像尚未上传。
