720亿参数！华为首个开源大模型发布，用4000颗昇腾训练的

智东西

作者 | 李水青

编辑 | 云鹏

智东西6月30日报道，今日，华为首个开源大模型来了。70亿个参数的稠密模型“盘古Embedded 7B”、720亿个参数的混合专家模型“盘古Pro MoE”以及基于昇腾的模型推理技术，今日一齐开源。

720亿参数！华为首个开源大模型发布，用4000颗昇腾训练的

基于4000颗昇腾NPU并行训练，激活参数量16B的盘古Pro MoE在MMLU、C-Eval、GSM8K等多种基准测试中，性能超越Qwen3-32B、GLM-Z1-32B等主流开源模型。其在昇腾800I A2上单卡推理吞吐性能可达1528 tokens/s，显著优于同等规模的320亿和720亿个参数的稠密模型。

目前，盘古Pro MoE 72B模型权重、基础推理码，以及基于昇腾的超大规模MoE模型推理代码，已正式上线开源平台。

720亿参数！华为首个开源大模型发布，用4000颗昇腾训练的

展开全文

▲盘古Pro MoE以及基于昇腾的模型推理技术的报告截图

技术报告地址：

https://arxiv.org/abs/2505.21411

模型下载地址：

https://gitcode.com/ascend-tribe/pangu-pro-moe-model

针对昇腾硬件优化的推理代码地址：

https://gitcode.com/ascend-tribe/ascend-inference-system

盘古Embedded 7B模型是一个引入“快思考”和“慢思考”双系统，简单问题用快速模式响应，复杂问题用深度模式推理，可自动切换。在数学、编程等多个基准测试中，盘古Embedded 7B性能超过了类似规模的Qwen3-8B、GLM4-9B等模型。

盘古7B相关模型权重与推理代码将于近期上线开源平台。

720亿参数！华为首个开源大模型发布，用4000颗昇腾训练的

▲盘古Embedded 7B技术报告截图

技术报告地址：

https://arxiv.org/abs/2505.22375

此外，自5月19日起，华为分享了基于昇腾打造超大规模MoE模型推理部署最佳实践的技术报告，而从6月30日开始，这些技术报告相关的代码也会陆续开源出来。

一、盘古Pro MoE：基于昇腾NPU，16B激活参数比肩Qwen3-32B

混合专家模型（MoE）在大语言模型中逐渐兴起，但不同专家的激活频率在实际部署中存在严重的不均衡问题，导致系统效率低下。

为此，华为提出了如下新型的分组混合专家模型（Mixture of Grouped Experts, MoGE），它在专家选择阶段对专家进行分组，并约束token在每个组内激活等量专家，从而实现专家负载均衡，显著提升模型在昇腾平台的部署效率。

720亿参数！华为首个开源大模型发布，用4000颗昇腾训练的

当模型执行分布在多个设备上时，这对于具有数百亿个参数的模型来说是必需的，MoGE架构设计可确保跨设备平衡的计算负载，从而显著提高吞吐量，尤其是在推理阶段。

基于MoGE架构，华为构建了总参数量720亿、激活参数量160亿的稀疏模型盘古Pro MoE模型，并针对昇腾300I Duo和800I A2平台进行系统优化。

在预训练阶段，华为使用了4000个昇腾NPU，在包含13万亿tokens的高质量语料库上进行预训练，分为通用、推理和退火三个阶段，逐步提升模型能力。

在后训练阶段，其通过监督微调（SFT）和强化学习（RL）进一步增强推理能力，还采用了检查点合并等技术优化模型。

最终，盘古Pro MoE在昇腾800I A2上实现了单卡1148 tokens/s的推理吞吐性能，并可进一步通过投机加速等技术提升至1528 tokens/s，显著优于同等规模的320亿和720亿个参数的稠密模型；在昇腾300I Duo推理服务器上，华为也实现了极具性价比的模型推理方案。

华为的研究表明，昇腾NPU能够支持盘古Pro MoE的大规模并行训练。多项公开基准测试结果表明，盘古Pro MoE在千亿内总参数模型中处于领先地位。

如下图所示，盘古Pro MoE在英语、中文及推理领域的多项能力测试中全面超越Gemma3-27B、Llama4-scout。在MMLU、C-Eval、GSM8K等多种基准测试中，盘古Pro MoE性能超越GLM-Z1-32B、Qwen3-32B等主流开源模型，展现了在多语言理解、推理等方面的领先能力。

720亿参数！华为首个开源大模型发布，用4000颗昇腾训练的