美团 LongCat-2.0 开源：1.6 万亿参数，全程脱离英伟达训练

美团正式开源大模型 LongCat-2.0，总参数规模达到 1.6 万亿，采用 MoE 架构、激活参数约 480 亿，上下文窗口为 100 万 token。LongCat-2.0 的关键看点不在参数本身，而在于训练与推理全部跑在国产芯片上——美团称这是业界首个在端到端国产硬件上完成万亿级模型预训练与推理的项目。

模型架构与核心特性

LongCat-2.0 围绕长上下文与智能体编码（agentic coding）场景设计，主要技术亮点包括：

1.6 万亿总参数、约 480 亿激活参数的 MoE 结构；
100 万 token 上下文窗口；
自研 LongCat Sparse Attention（LSA）注意力机制，用于在 1M 上下文下高效扩展；
模型已在 OpenRouter 上以代号「Owl Alpha」上线，现已开放下载。

模型权重开源，意味着开发者可以直接基于 LongCat-2.0 做微调和二次开发。

全程脱离英伟达：国产算力的标志性突破

LongCat-2.0 训练所用集群由大规模 ASIC 超级节点组成，并通过华为的集合通信库 HCCL 管理芯片间协同，角色类似英伟达 NCCL 在 GPU 集群中的定位。

与已有的国产化路径相比，LongCat-2.0 的差异在于：

DeepSeek V4-pro 等此前模型仅在推理阶段使用国产芯片；
LongCat-2.0 把国产化推到了算力需求最高的预训练阶段；
美团表示，这是首批在约 5 万块国产加速器上完成近前沿水平训练的模型之一。

多位行业评论者认为，这一进展印证了「出口管制不会阻止中国 AI，只会加速国产替代」的观点。

基准测试表现：超越 Gemini 3.1 Pro，仍落后最前沿闭源模型

在公开基准上，LongCat-2.0 的表现呈现「部分领先、整体追赶」的格局：

在 Terminal-Bench 2.1 与 SWE-Bench Pro 上，跑赢 Google 较早期的 Gemini 3.1 Pro；
在更高难度的智能体与推理任务上，仍落后于 OpenAI GPT-5.5 与 Anthropic Opus 4.8 等闭源前沿系统。

现实瓶颈与下一步

美团自身也承认，国产硬件栈仍存在明显短板：

软件生态成熟度落后于英伟达 CUDA/NCCL 体系；
预训练阶段的主要瓶颈是显存容量，单卡显存低于此前被禁的英伟达 H800。

尽管如此，LongCat-2.0 已经证明，万亿级模型的预训练在国产加速器上具备工程可行性。开源权重的开放，加上 1M 上下文与 agentic coding 的能力定位，可能会缩小中国开源模型与西方顶级闭源系统之间的差距。