美团 LongCat-2.0：1.6 万亿参数模型全程跑在国产 AI 芯片上

美团近日正式发布基础大模型 LongCat-2.0，总参数量达到 1.6 万亿，采用 Mixture-of-Experts 架构，每个 token 激活约 480 亿参数。与常见的版本迭代不同，这款模型最具讨论价值的地方不是参数规模，而是它的硬件故事：官方资料强调，从完整训练到大规模推理部署，整条链路均建立在「国产 AI ASIC 超节点」之上，没有引入英伟达 GPU。

模型规格与面世经过

LongCat-2.0 的关键参数如下：

架构：MoE，总参数量约 1.6 万亿，每个 token 激活约 480 亿参数。
训练规模：跨 35 万亿以上 token 持续预训练，全程无回滚或不可恢复的 loss spike。
发布前曝光：模型曾以匿名代号「Owl Alpha」出现在 OpenRouter 平台，并一度进入平台用量前三；在 Claude Code Agent 场景中，按使用量排名全球第二，仅次于 Claude Opus 4.8。

单看性能，它并非「全球最强」叙事。社区普遍认为其 agentic 能力接近 Claude Opus 4.6、落后于 Claude Opus 4.8；在编码任务上略强于 GLM-5.1，但弱于 GLM-5.2；在 OpenRouter 上的用量也并非国产模型第一——腾讯、阿里、DeepSeek 的低价或免费模型同样占据了榜单前列。

真正的关键词：训练与推理均无英伟达身影

美团公开的模型卡将该集群描述为「AI ASIC 超节点」，并未公开点名具体芯片型号，也未给出总卡数。广泛被引用的「约 5 万张昇腾 910C」来自中文媒体与社区推断，线索包括 200Gbps RDMA、单 die 64GB HBM 等规格匹配，并无美团或华为官方确认；另一些报道仅表述为「万卡级」，区间大致落在 5 万到 6 万张卡之间。

这与以往国内厂商的「国产化」叙事有明显区别。过去被反复报道的里程碑，更多停留在「用国产芯片跑推理」「在国产芯片上做后训练」这一类范围相对有限的环节。LongCat-2.0 则宣称覆盖了「万亿级模型从零开始预训练 + 大规模推理服务」这一更难的目标，相当于把基础、主体、入住以及可用性验证一并跑通。

工程指标：稳定性被视为真正的难点

在国产算力平台上从零预训练万亿参数模型，对系统稳定性要求极高：任何一次 loss spike、通信超时或静默数据损坏，都可能造成巨额电力与算力浪费。美团披露的工程指标显示：

训练 MFU（模型算力利用率）提升约 1.5 倍，最终达到 30% 以上；
平均日均故障率下降超过 70%；
关键算子效率提升约 14%。

这些数字背后实际解决的是算子适配、通信优化、HCCL 异常处理、自动故障恢复等问题。一位从业者被引用时形容：之前的国产化尝试像是「房子在外面盖好，再用国产算力装修」，LongCat-2.0 更像是「从打地基开始，全程在国产算力上把整栋楼盖完，还能住人」。

现实约束：算力软件栈差距仍在

报道并未回避现实差距。国产芯片普遍存在单卡显存偏小、需要更多卡数堆叠、通信带宽偏弱等结构性问题，进而拖累整体利用率；而在软件层面，英伟达 CUDA 生态、算子库、调试工具链等高度成熟，迁移到国产算力平台意味着大量基础设施需要重建与重优化。换言之，挑战并不止于「造出一颗 AI 芯片」，而是要把整台「机器」调教成一座可靠的 AI 工厂。

综合来看，LongCat-2.0 的意义不在于刷新模型能力榜单，而在于给出一条工业级路径：在中美算力博弈背景下，万亿参数模型的训练与服务可以完全不依赖英伟达卡，并在稳定性上达到可发布的水准。对于中国的 AI 产业而言，这是从「能不能跑」迈向「能不能稳定跑成日常」的关键一步。