桃子桃子快讯
返回首页
模型发布

美团LongCat-2.0:首个纯国产算力训推万亿模型

美团发布LongCat-2.0万亿参数MoE模型,全程基于国产芯片完成训练与推理,并以匿名身份在OpenRouter获海…

2026.07.02 · 周四5 分钟阅读

美团正式推出基座大模型 LongCat-2.0,总参数达 1.6 万亿,每 token 激活约 480 亿参数,原生支持 1M 超长上下文。该模型采用自研 MoE 混合专家架构,从训练到推理全程运行在约 5 万张国产 AI 芯片上,是公开信息中首个在国产算力上实现「万亿参数 + 全链路训推闭环」的模型。此前,它以匿名身份「Owl Alpha」出现在 OpenRouter 平台上,月调用量在 Hermes、Claude Code 和 OpenClaw 三类场景中分别位列全球第一、第二和第三,已被海外开发者大规模使用。

模型规格与核心数据

LongCat-2.0 的关键参数如下:

  • 总参数:1.6 万亿(MoE 架构)
  • 单 token 激活参数:约 480 亿
  • 原生上下文长度:1M tokens
  • 训练与推理硬件:约 5 万张国产 AI 加速卡,全程未使用英伟达 GPU

美团在官方技术报告中披露了多项工程指标:在 5 万卡规模下,硬件利用率(MFU)由 17.8% 提升至 27.68%,单日 Token 处理能力由 7170 亿提升至 1.12 万亿;自动化故障处理体系将日均故障率从万分之 15.7 降至万分之 4.4,并支持训练任务从 2560 张卡弹性扩展到 5 万多张卡而不必推倒重来。

架构创新:LSA 与 N-gram Embedding

LongCat-2.0 的两项代表性架构设计针对 Agent 时代的实际负载做了专门优化。

LongCat Sparse Attention(LSA)是面向 1M 长上下文的稀疏注意力方案。在 DeepSeek DSA「筛选关键 token 降计算量」的思路之上,LSA 对索引器做了三项独立、可组合的优化:

  • 将零散访问整理为连续读取,减少显存碎片
  • 相邻层共享索引结果,降低重复计算
  • 两阶段筛选,减少索引本身的计算量

官方称叠加后可在 1M 上下文下显著提升处理速度,且模型质量基本无损。

N-gram Embedding 继承自 LongCat-Flash-Lite 并做了增强。与常见的「堆专家、扩参数」路线不同,它将一部分参数前移到 Embedding 层,让模型在第一层就能识别更多高频词组和语言模式,从而减少深层推理开销,也降低专家间的通信压力。配合 ScMoE 快捷连接、零计算专家等设计,整体目标是把算力集中到真正值得计算的 token 上。

5 万张国产卡的工程攻坚

万亿参数模型跑在国产芯片上,难点集中在三个层面:

  • 显存与通信:单卡显存更小,1.6 万亿参数需拆到上万张卡;跨节点通信带宽与延迟不及 NVLink,计算与通信容易出现不对齐,整体吞吐受限。
  • 软件生态:FlashAttention 反向梯度算子在国产芯片上的原有确定性实现只能单核串行,速度比成熟方案慢 20–70 倍,无法直接用于生产。
  • 可靠性:5 万卡规模下硬件故障几乎每天发生,必须依赖自动化异常检测、链路切换与恢复流程。

LongCat 团队针对上述问题重写了算子库与并行方案,并搭建了端到端的自动化故障处理体系。叠加 LSA、N-gram Embedding 等架构设计后,模型在训练和推理成本上相对同等规模的英伟达路线显著下降——官方演示中,相同提示词下 LongCat-2.0 生成物理仿真代码的 token 用量为 9004,按美团计费折算不到 0.1 元。

OpenRouter 匿名验证与开发者反响

LongCat-2.0 在正式公布前,以匿名代号 Owl Alpha 在 OpenRouter 上提供服务。两个月内,它在多个 Agent 开发场景中成为开发者首选:

  • Hermes 月调用量全球第一
  • Claude Code 月调用量全球第二
  • OpenClaw 月调用量全球第三

测试者在长上下文阅读理解、跨文件代码修改(HTML/JS 改配色、改棋盘规格、迁移到 React)、自主调研(基于 Agent 能力联网生成结构化报告)、代码仓库分析等任务中均给出了正面反馈。在与 GPT-5.5、Claude Opus 4.6、Opus 4.8 的同题对比中,LongCat-2.0 的输出效果与其他选手肉眼接近,但 token 用量明显更低。

三年布局:从千亿到万亿的国产算力路线

美团自 2023 年初成立 LongCat 基座团队,第一件事即搭建国产算力集群。三年的关键节点如下:

  • 2023 年:在国产卡集群上跑通千亿参数训练流程
  • 2024 年:完成 MoE 架构在国产算力上的验证
  • 2025 年:推出 5600 亿参数的 LongCat-Flash
  • 2026 年:落地 1.6 万亿参数的 LongCat-2.0

美团核心本地商业 CEO 王莆中在今年 3 月的内部沟通中提出「建设物理世界 AI 底座」的思路,强调做「有特色、低推理成本,同时能力紧跟 SOTA」的模型。LongCat-2.0 全流程跑在国产算力上,被视为这一战略的阶段性落地:基模能力站住之后,理解层与行动层才有可持续迭代的基础。

信源