WAIC 2026 算力观察:超节点与光互连重塑 AI 基座
WAIC 2026「基石筑底」篇章从超节点、光互连、开源生态与工程落地四方面,呈现中国算力从堆卡迈向系统级协同的完整图谱…
2026 年世界人工智能大会(WAIC)的「基石筑底」篇章,把焦点从单卡峰值拉到了系统级有效算力。当推理算力规模反超训练、算力成为全行业必须支付的运营成本时,行业关心的问题也从「有多少张卡」转向「有效算力是多少」。本届大会从架构、技术、生态和工程四个维度,给出了一套围绕超节点、光互连、统一软件底座与高密度部署的系统级答案。
超节点:突破单芯片物理天花板
单颗 GPU 算力每年提升 2 到 3 倍,但内存带宽年增仅 15%–30%,两者剪刀差持续扩大;GPT-5 级别模型训练中,跨节点通信开销已占总训练时间三成以上。超节点通过高速互联把几十到上百颗加速器变成统一「计算矩阵」,使跨机柜传输降为内部通信。
- 华为在 WAIC 2026 全球真机首展 Atlas 950 SuperPoD,单柜 64 卡起步,最多可连 8192 张 NPU 卡,面向万亿参数模型训练与推理,并提出「韬定律」,主张在成熟制程上靠架构创新压缩信号传输时延。
- 中兴通讯联合曦智、壁仞、沐曦、燧原、天数智芯等伙伴,基于 OEX+dOCS 架构打造 Matrix 超节点,主打多芯协同与 TCO 最优,已入围本届 SAIL 奖。
行业测算显示,集群线性度每提升 10 个百分点,硬件成本可降 15%、电费省 20%,对万卡集群意味着数亿元的真金白银。
光互连:从可选项升级为必选项
电信号受限于发热与带宽上限,「内存墙」「互连墙」难以靠电子技术翻越。光子具备高速、不发热、低功耗特性,被视为后摩尔时代的关键路径。资本已经先行:曦智科技 2026 年在港交所上市,被称为「全球 AI 硅光芯片第一股」,并将在 WAIC 举办大会历史上首场光技术专场论坛。
一个日益清晰的共识是,在万卡级超节点里,光模块不是可选项,而是必选项——华为 Atlas 950、中兴 Matrix 方案均依赖光模块实现万卡级互联,展示了国内自研光算力方案的落地路径。
开源生态:FlagOS 打通跨芯片软件栈
全球上百家 AI 芯片厂商各自维护编程模型、算子库与通信协议,模型跨芯片迁移往往要重新编译与优化,导致硬件投入能用起来的不足四成。本届 WAIC 由图灵奖得主大卫·帕特森领衔的全球 AI 开放计算与智能体技术生态论坛,核心方案是统一智算底座 FlagOS,让不同架构的芯片跑通同一套软件。
- 论坛邀请到 Linux、Eclipse、PyTorch 三大国际开源基金会,被视为国产算力首次拿到国际通行的「软件护照」。
- 西部数据首次参会并专设「面向 AI 时代的数据存储架构」论坛,聚焦存算安一体化。
- 美国数据编排公司 Hammerspace 展出高性能全局数据平台,凭借 Tier 0 功能可在 1.5 天内激活 20 PB 容量,GPU 利用率提升 40% 以上,每 TB 基础设施成本降低 50%。
工程落地:把单 Token 成本真正压下来
无问芯穹推出「Token 超级工厂」,以跨集群异构 PD 分离技术结合全栈推理优化,在万亿参数模型上把推理成本较传统单实例降低 10 倍。算丰信息联合立讯、沐曦、云合、道客、无问芯穹、复旦大学、创智学院和模合信息开发的 Shanghai Cube 单柜 128 卡液冷机柜,已真实运行 DeepSeek 671B,单柜功率密度突破 100 kW(传统风冷上限 20–30 kW/柜),实测 PUE 低于 1.05,较传统风冷节能 40% 以上。
中科曙光 scaleX 万卡超集群总算力突破 5 EFlops,兼容多品牌国产加速卡与 CUDA 生态,搭配 scaleFabric 无损网络与浸没式液冷实现 PUE 1.04。新华三 102.4T 智算交换机一跳直降延迟,通过算网协同使训练性能提升 30%、模型训练用时缩短 25%。
从超节点降损耗、光互连降能耗,到统一软件底座降适配成本、高密度液冷降 PUE,全链路正在共同把单 Token 综合成本压下来。上海已建成承载 16 万 P 异构算力的统一调度平台,并配套每年 10 亿元算力券,形成独有的系统级集群优势,为国家算力自主可控提供「上海方案」。
