美团 LongCat-2.0:1.6 万亿参数模型全程跑在国产 AI 芯片上
美团发布 1.6 万亿参数 MoE 模型 LongCat-2.0,官方称从训练到部署均基于国产 AI ASIC 集群,3…
美团近日正式发布基础大模型 LongCat-2.0,总参数量达到 1.6 万亿,采用 Mixture-of-Experts 架构,每个 token 激活约 480 亿参数。与常见的版本迭代不同,这款模型最具讨论价值的地方不是参数规模,而是它的硬件故事:官方资料强调,从完整训练到大规模推理部署,整条链路均建立在「国产 AI ASIC 超节点」之上,没有引入英伟达 GPU。
模型规格与面世经过
LongCat-2.0 的关键参数如下:
- 架构:MoE,总参数量约 1.6 万亿,每个 token 激活约 480 亿参数。
- 训练规模:跨 35 万亿以上 token 持续预训练,全程无回滚或不可恢复的 loss spike。
- 发布前曝光:模型曾以匿名代号「Owl Alpha」出现在 OpenRouter 平台,并一度进入平台用量前三;在 Claude Code Agent 场景中,按使用量排名全球第二,仅次于 Claude Opus 4.8。
单看性能,它并非「全球最强」叙事。社区普遍认为其 agentic 能力接近 Claude Opus 4.6、落后于 Claude Opus 4.8;在编码任务上略强于 GLM-5.1,但弱于 GLM-5.2;在 OpenRouter 上的用量也并非国产模型第一——腾讯、阿里、DeepSeek 的低价或免费模型同样占据了榜单前列。
真正的关键词:训练与推理均无英伟达身影
美团公开的模型卡将该集群描述为「AI ASIC 超节点」,并未公开点名具体芯片型号,也未给出总卡数。广泛被引用的「约 5 万张昇腾 910C」来自中文媒体与社区推断,线索包括 200Gbps RDMA、单 die 64GB HBM 等规格匹配,并无美团或华为官方确认;另一些报道仅表述为「万卡级」,区间大致落在 5 万到 6 万张卡之间。
这与以往国内厂商的「国产化」叙事有明显区别。过去被反复报道的里程碑,更多停留在「用国产芯片跑推理」「在国产芯片上做后训练」这一类范围相对有限的环节。LongCat-2.0 则宣称覆盖了「万亿级模型从零开始预训练 + 大规模推理服务」这一更难的目标,相当于把基础、主体、入住以及可用性验证一并跑通。
工程指标:稳定性被视为真正的难点
在国产算力平台上从零预训练万亿参数模型,对系统稳定性要求极高:任何一次 loss spike、通信超时或静默数据损坏,都可能造成巨额电力与算力浪费。美团披露的工程指标显示:
- 训练 MFU(模型算力利用率)提升约 1.5 倍,最终达到 30% 以上;
- 平均日均故障率下降超过 70%;
- 关键算子效率提升约 14%。
这些数字背后实际解决的是算子适配、通信优化、HCCL 异常处理、自动故障恢复等问题。一位从业者被引用时形容:之前的国产化尝试像是「房子在外面盖好,再用国产算力装修」,LongCat-2.0 更像是「从打地基开始,全程在国产算力上把整栋楼盖完,还能住人」。
现实约束:算力软件栈差距仍在
报道并未回避现实差距。国产芯片普遍存在单卡显存偏小、需要更多卡数堆叠、通信带宽偏弱等结构性问题,进而拖累整体利用率;而在软件层面,英伟达 CUDA 生态、算子库、调试工具链等高度成熟,迁移到国产算力平台意味着大量基础设施需要重建与重优化。换言之,挑战并不止于「造出一颗 AI 芯片」,而是要把整台「机器」调教成一座可靠的 AI 工厂。
综合来看,LongCat-2.0 的意义不在于刷新模型能力榜单,而在于给出一条工业级路径:在中美算力博弈背景下,万亿参数模型的训练与服务可以完全不依赖英伟达卡,并在稳定性上达到可发布的水准。对于中国的 AI 产业而言,这是从「能不能跑」迈向「能不能稳定跑成日常」的关键一步。
