在 AI 大模型参数与算力需求持续膨胀的背景下,存储与带宽的增速远跟不上模型膨胀的速度,「内存墙」问题长期困扰行业。主流 2.5D 封装(如台积电 CoWoS)虽然已实现高密度互连,但其本质仍是单一平面的横向扩展,在高算力场景下面临布局布线受限、芯片面积难以继续压缩的瓶颈。向下微缩边际效益递减,「向上生长」的 3D 堆叠技术由此成为行业的必然选项。对于面临先进工艺与高端 HBM 供给受限的国产 AI 芯片而言,3D 堆叠更被视为一条以空间换性能、绕过部分工艺封锁的可行路径。
从 2.5D 平面铺砖到 3D 立体盖楼
2.5D 封装借助硅中介层与硅通孔(TSV)实现多颗裸 die 的高速互连,已是国内 AI 芯片的主流方案。寒武纪、昆仑芯、壁仞科技、天数智芯等国产 GPU/AI 加速器基本都通过 2.5D 封装将计算芯粒与 HBM 显存并排连接,利用 Interposer 和 RDL 构建高密度网络。但此类显存外挂方案的带宽普遍仅 1–4 TB/s,且受限于平面面积,集成密度与互连带宽已逼近物理极限。
3D 堆叠则通过芯片堆叠或封装堆叠(如 TSV 或混合键合)在垂直方向叠层,从底层打破平面集成的限制。3D 封装将裸芯片垂直堆叠并借助微凸块或混合键合实现层间通信,大幅缩短互连路径;3.5D 封装在 3D 垂直堆叠基础上再引入 2.5D 硅中介层做横向扩展,形成「立体 + 平面」的复合架构。这两种路径都旨在用三维维度重新定义芯片集成方式。
国际巨头 3D/3.5D 已迈入量产
海外半导体厂商在 3D 与 3.5D 封装上布局领先,部分产品已规模交付。
- AMD 于 2023 年发布采用 3.5D 封装的 Instinct MI300 系列加速器,将 3D 堆叠的 GPU/I/O 芯片通过混合键合与 CoWoS(2.5D)集成,GPU/CPU 芯片经 Cu-Cu 混合键合垂直堆叠在 I/O 芯片之上,再与 HBM3 内存并排互连。
- 博通 2024 年 12 月首次公开 3.5D XDSiP 封装平台,结合 2.5D 与 Face-to-Face(F2F)3D-IC 集成,采用无凸块混合铜键合(HCB)实现上下芯片顶层金属直接连接,相比传统 F2B 方案,信号连接数增加 7 倍、芯片间界面功耗降低约 90%、延迟显著下降;基于 XDSiP 的 2nm 定制 SoC 已于 2026 年交付富士通,用于 AI 超算集群。
- 英特尔 EMIB 3.5D 把 EMIB 2.5D 嵌入式硅桥与 Foveros Direct 3D 混合键合结合,兼容 UCIe 标准,其数据中心 GPU Max 系列 SoC 包含超千亿晶体管、47 个主动模块、5 个制程节点,被英特尔称为「史上最复杂的量产型异构芯片」。
- 高通高带宽计算(HBC)技术通过 3D 堆叠硅基方案将计算与高速带宽内存融合:搭载第一代 HBC 的 AI250 单卡带宽达 133 TB/s,较基于 LPDDR5X 的 AI200 提升 18 倍;第二代 AI300 进一步将有效内存带宽提升至 AI200 的 54 倍。
国产 AI 芯片厂商集体押注 3D 堆叠
面对国际巨头的领先布局与国内供应链受限的现实,多家国产 AI 芯片厂商正以 3D 堆叠打开差异化空间:
- 紫光集团推出以 3D DRAM 为核心的紫弦架构,首创 3.5D 异质异构集成方案,存储带宽可达 30 TB/s;其 PNM 近存计算模式可将访存延迟最多降至 1/18,模拟仿真显示同等算力下 Token 吞吐率较 NVIDIA B200 系列高约 1.5–2 倍,且可基于国内供应链规模化量产。
- 清微智能下一代 AI 芯片采用 3.5D 异构堆叠,将可重构计算芯粒与 DRAM 存储芯粒三维垂直集成;第二代 3D 可重构芯片采用「3D 存算一体 + 四芯 Chiplet」方案,将传统 2D 单车道传输升级为「算力 4 车道 + 4 层存储高架」的立体架构。
- 算苗科技面向大模型推理的 3D TokenPU 芯片 A4E 已于 6 月 15 日正式流片,将 8 层存储晶圆垂直堆叠在计算逻辑晶圆上,通过 TSV 与微凸点把传统「毫米级」传输距离压缩两个数量级,访存带宽达 16 TB/s。
- 云天励飞宣布其正在研发的推理芯片将引入 3D 堆叠存储架构,以更高带宽与更低延迟突破内存墙。
- 由原快手异构计算与芯片事业部组建的凌川科技,下一代芯片已于今年 4 月完成流片,全国产 3D 堆叠下首创 3D 近存架构,并针对散热、一致性、可靠性做了专项优化;其首款芯片 SL200 已累计销售近十万颗,部署于快手、阿里云、百度云、B 站等平台,覆盖快手 99.7% 的直播转码业务,稳定服务 7 亿用户。
从实验室到量产,仍需跨过多道鸿沟
3D 堆叠的工程化难度远高于传统封装,至少面临五重挑战:
- 散热:3D 架构下热量须穿透多层硅片、TSV、底部填充胶与微凸块界面才能导出,单封装功率超过约 350 W 时,纯空气冷却将失效,必须引入液冷与高性能热界面材料。
- 混合键合与良率:无凸块 HCB 要求互连间距 < 10 μm 甚至 1 μm 级,对 CMP 平整度、键合精度、热膨胀匹配要求极高;硅桥与基板的热膨胀差异易引发机械应力与裂纹,良率提升依赖键合精度持续优化。
- EDA 工具与协同:3D 设计数据量爆炸式增长,热、信号、电源完整性需多维协同优化;目前国际三大 EDA 厂商已有较完整的 3D 堆叠设计工具,而本土 EDA 在布局布线、多芯片验证、Multi-Die DFT 测试等环节仍存在较大空白。
- 测试与可靠性:高密度 3D 堆叠封装对测试方法、设备与长期可靠性评估提出新要求。
- 组装复杂度与成本:不同厚度、不同热膨胀系数裸片需要精密对准与密集热机械认证,制造成本显著高于标准封装,需要通过工艺优化逐步降低。
后摩尔时代,单纯追赶国际巨头的 2.5D + HBM 路线难以形成差异化竞争力。从紫弦架构到清微智能的 3.5D 异构堆叠,国产 AI 芯片厂商正用三维集成重新定义芯片架构,把打破「内存墙」与「面积墙」作为在全球 AI 算力竞赛中弯道超车的关键路径。