美团LongCat-2.0：首个纯国产算力训推万亿模型

美团正式推出基座大模型 LongCat-2.0，总参数达 1.6 万亿，每 token 激活约 480 亿参数，原生支持 1M 超长上下文。该模型采用自研 MoE 混合专家架构，从训练到推理全程运行在约 5 万张国产 AI 芯片上，是公开信息中首个在国产算力上实现「万亿参数 + 全链路训推闭环」的模型。此前，它以匿名身份「Owl Alpha」出现在 OpenRouter 平台上，月调用量在 Hermes、Claude Code 和 OpenClaw 三类场景中分别位列全球第一、第二和第三，已被海外开发者大规模使用。

模型规格与核心数据

LongCat-2.0 的关键参数如下：

总参数：1.6 万亿（MoE 架构）
单 token 激活参数：约 480 亿
原生上下文长度：1M tokens
训练与推理硬件：约 5 万张国产 AI 加速卡，全程未使用英伟达 GPU

美团在官方技术报告中披露了多项工程指标：在 5 万卡规模下，硬件利用率（MFU）由 17.8% 提升至 27.68%，单日 Token 处理能力由 7170 亿提升至 1.12 万亿；自动化故障处理体系将日均故障率从万分之 15.7 降至万分之 4.4，并支持训练任务从 2560 张卡弹性扩展到 5 万多张卡而不必推倒重来。

架构创新：LSA 与 N-gram Embedding

LongCat-2.0 的两项代表性架构设计针对 Agent 时代的实际负载做了专门优化。

LongCat Sparse Attention（LSA）是面向 1M 长上下文的稀疏注意力方案。在 DeepSeek DSA「筛选关键 token 降计算量」的思路之上，LSA 对索引器做了三项独立、可组合的优化：

将零散访问整理为连续读取，减少显存碎片
相邻层共享索引结果，降低重复计算
两阶段筛选，减少索引本身的计算量

官方称叠加后可在 1M 上下文下显著提升处理速度，且模型质量基本无损。

N-gram Embedding 继承自 LongCat-Flash-Lite 并做了增强。与常见的「堆专家、扩参数」路线不同，它将一部分参数前移到 Embedding 层，让模型在第一层就能识别更多高频词组和语言模式，从而减少深层推理开销，也降低专家间的通信压力。配合 ScMoE 快捷连接、零计算专家等设计，整体目标是把算力集中到真正值得计算的 token 上。

5 万张国产卡的工程攻坚

万亿参数模型跑在国产芯片上，难点集中在三个层面：

显存与通信：单卡显存更小，1.6 万亿参数需拆到上万张卡；跨节点通信带宽与延迟不及 NVLink，计算与通信容易出现不对齐，整体吞吐受限。
软件生态：FlashAttention 反向梯度算子在国产芯片上的原有确定性实现只能单核串行，速度比成熟方案慢 20–70 倍，无法直接用于生产。
可靠性：5 万卡规模下硬件故障几乎每天发生，必须依赖自动化异常检测、链路切换与恢复流程。

LongCat 团队针对上述问题重写了算子库与并行方案，并搭建了端到端的自动化故障处理体系。叠加 LSA、N-gram Embedding 等架构设计后，模型在训练和推理成本上相对同等规模的英伟达路线显著下降——官方演示中，相同提示词下 LongCat-2.0 生成物理仿真代码的 token 用量为 9004，按美团计费折算不到 0.1 元。

OpenRouter 匿名验证与开发者反响

LongCat-2.0 在正式公布前，以匿名代号 Owl Alpha 在 OpenRouter 上提供服务。两个月内，它在多个 Agent 开发场景中成为开发者首选：

Hermes 月调用量全球第一
Claude Code 月调用量全球第二
OpenClaw 月调用量全球第三

测试者在长上下文阅读理解、跨文件代码修改（HTML/JS 改配色、改棋盘规格、迁移到 React）、自主调研（基于 Agent 能力联网生成结构化报告）、代码仓库分析等任务中均给出了正面反馈。在与 GPT-5.5、Claude Opus 4.6、Opus 4.8 的同题对比中，LongCat-2.0 的输出效果与其他选手肉眼接近，但 token 用量明显更低。

三年布局：从千亿到万亿的国产算力路线

美团自 2023 年初成立 LongCat 基座团队，第一件事即搭建国产算力集群。三年的关键节点如下：

2023 年：在国产卡集群上跑通千亿参数训练流程
2024 年：完成 MoE 架构在国产算力上的验证
2025 年：推出 5600 亿参数的 LongCat-Flash
2026 年：落地 1.6 万亿参数的 LongCat-2.0

美团核心本地商业 CEO 王莆中在今年 3 月的内部沟通中提出「建设物理世界 AI 底座」的思路，强调做「有特色、低推理成本，同时能力紧跟 SOTA」的模型。LongCat-2.0 全流程跑在国产算力上，被视为这一战略的阶段性落地：基模能力站住之后，理解层与行动层才有可持续迭代的基础。