WAIC 2026 算力观察：超节点与光互连重塑 AI 基座

2026 年世界人工智能大会（WAIC）的「基石筑底」篇章，把焦点从单卡峰值拉到了系统级有效算力。当推理算力规模反超训练、算力成为全行业必须支付的运营成本时，行业关心的问题也从「有多少张卡」转向「有效算力是多少」。本届大会从架构、技术、生态和工程四个维度，给出了一套围绕超节点、光互连、统一软件底座与高密度部署的系统级答案。

超节点：突破单芯片物理天花板

单颗 GPU 算力每年提升 2 到 3 倍，但内存带宽年增仅 15%–30%，两者剪刀差持续扩大；GPT-5 级别模型训练中，跨节点通信开销已占总训练时间三成以上。超节点通过高速互联把几十到上百颗加速器变成统一「计算矩阵」，使跨机柜传输降为内部通信。

华为在 WAIC 2026 全球真机首展 Atlas 950 SuperPoD，单柜 64 卡起步，最多可连 8192 张 NPU 卡，面向万亿参数模型训练与推理，并提出「韬定律」，主张在成熟制程上靠架构创新压缩信号传输时延。
中兴通讯联合曦智、壁仞、沐曦、燧原、天数智芯等伙伴，基于 OEX+dOCS 架构打造 Matrix 超节点，主打多芯协同与 TCO 最优，已入围本届 SAIL 奖。

行业测算显示，集群线性度每提升 10 个百分点，硬件成本可降 15%、电费省 20%，对万卡集群意味着数亿元的真金白银。

光互连：从可选项升级为必选项

电信号受限于发热与带宽上限，「内存墙」「互连墙」难以靠电子技术翻越。光子具备高速、不发热、低功耗特性，被视为后摩尔时代的关键路径。资本已经先行：曦智科技 2026 年在港交所上市，被称为「全球 AI 硅光芯片第一股」，并将在 WAIC 举办大会历史上首场光技术专场论坛。

一个日益清晰的共识是，在万卡级超节点里，光模块不是可选项，而是必选项——华为 Atlas 950、中兴 Matrix 方案均依赖光模块实现万卡级互联，展示了国内自研光算力方案的落地路径。

开源生态：FlagOS 打通跨芯片软件栈

全球上百家 AI 芯片厂商各自维护编程模型、算子库与通信协议，模型跨芯片迁移往往要重新编译与优化，导致硬件投入能用起来的不足四成。本届 WAIC 由图灵奖得主大卫·帕特森领衔的全球 AI 开放计算与智能体技术生态论坛，核心方案是统一智算底座 FlagOS，让不同架构的芯片跑通同一套软件。

论坛邀请到 Linux、Eclipse、PyTorch 三大国际开源基金会，被视为国产算力首次拿到国际通行的「软件护照」。
西部数据首次参会并专设「面向 AI 时代的数据存储架构」论坛，聚焦存算安一体化。
美国数据编排公司 Hammerspace 展出高性能全局数据平台，凭借 Tier 0 功能可在 1.5 天内激活 20 PB 容量，GPU 利用率提升 40% 以上，每 TB 基础设施成本降低 50%。

工程落地：把单 Token 成本真正压下来

无问芯穹推出「Token 超级工厂」，以跨集群异构 PD 分离技术结合全栈推理优化，在万亿参数模型上把推理成本较传统单实例降低 10 倍。算丰信息联合立讯、沐曦、云合、道客、无问芯穹、复旦大学、创智学院和模合信息开发的 Shanghai Cube 单柜 128 卡液冷机柜，已真实运行 DeepSeek 671B，单柜功率密度突破 100 kW（传统风冷上限 20–30 kW/柜），实测 PUE 低于 1.05，较传统风冷节能 40% 以上。

中科曙光 scaleX 万卡超集群总算力突破 5 EFlops，兼容多品牌国产加速卡与 CUDA 生态，搭配 scaleFabric 无损网络与浸没式液冷实现 PUE 1.04。新华三 102.4T 智算交换机一跳直降延迟，通过算网协同使训练性能提升 30%、模型训练用时缩短 25%。

从超节点降损耗、光互连降能耗，到统一软件底座降适配成本、高密度液冷降 PUE，全链路正在共同把单 Token 综合成本压下来。上海已建成承载 16 万 P 异构算力的统一调度平台，并配套每年 10 亿元算力券，形成独有的系统级集群优势，为国家算力自主可控提供「上海方案」。