国产 AI 芯片集体转向 3D 堆叠

在 AI 大模型参数与算力需求持续膨胀的背景下，存储与带宽的增速远跟不上模型膨胀的速度，「内存墙」问题长期困扰行业。主流 2.5D 封装（如台积电 CoWoS）虽然已实现高密度互连，但其本质仍是单一平面的横向扩展，在高算力场景下面临布局布线受限、芯片面积难以继续压缩的瓶颈。向下微缩边际效益递减，「向上生长」的 3D 堆叠技术由此成为行业的必然选项。对于面临先进工艺与高端 HBM 供给受限的国产 AI 芯片而言，3D 堆叠更被视为一条以空间换性能、绕过部分工艺封锁的可行路径。

从 2.5D 平面铺砖到 3D 立体盖楼

2.5D 封装借助硅中介层与硅通孔（TSV）实现多颗裸 die 的高速互连，已是国内 AI 芯片的主流方案。寒武纪、昆仑芯、壁仞科技、天数智芯等国产 GPU/AI 加速器基本都通过 2.5D 封装将计算芯粒与 HBM 显存并排连接，利用 Interposer 和 RDL 构建高密度网络。但此类显存外挂方案的带宽普遍仅 1–4 TB/s，且受限于平面面积，集成密度与互连带宽已逼近物理极限。

3D 堆叠则通过芯片堆叠或封装堆叠（如 TSV 或混合键合）在垂直方向叠层，从底层打破平面集成的限制。3D 封装将裸芯片垂直堆叠并借助微凸块或混合键合实现层间通信，大幅缩短互连路径；3.5D 封装在 3D 垂直堆叠基础上再引入 2.5D 硅中介层做横向扩展，形成「立体 + 平面」的复合架构。这两种路径都旨在用三维维度重新定义芯片集成方式。

国际巨头 3D/3.5D 已迈入量产

海外半导体厂商在 3D 与 3.5D 封装上布局领先，部分产品已规模交付。

AMD 于 2023 年发布采用 3.5D 封装的 Instinct MI300 系列加速器，将 3D 堆叠的 GPU/I/O 芯片通过混合键合与 CoWoS（2.5D）集成，GPU/CPU 芯片经 Cu-Cu 混合键合垂直堆叠在 I/O 芯片之上，再与 HBM3 内存并排互连。
博通 2024 年 12 月首次公开 3.5D XDSiP 封装平台，结合 2.5D 与 Face-to-Face（F2F）3D-IC 集成，采用无凸块混合铜键合（HCB）实现上下芯片顶层金属直接连接，相比传统 F2B 方案，信号连接数增加 7 倍、芯片间界面功耗降低约 90%、延迟显著下降；基于 XDSiP 的 2nm 定制 SoC 已于 2026 年交付富士通，用于 AI 超算集群。
英特尔 EMIB 3.5D 把 EMIB 2.5D 嵌入式硅桥与 Foveros Direct 3D 混合键合结合，兼容 UCIe 标准，其数据中心 GPU Max 系列 SoC 包含超千亿晶体管、47 个主动模块、5 个制程节点，被英特尔称为「史上最复杂的量产型异构芯片」。
高通高带宽计算（HBC）技术通过 3D 堆叠硅基方案将计算与高速带宽内存融合：搭载第一代 HBC 的 AI250 单卡带宽达 133 TB/s，较基于 LPDDR5X 的 AI200 提升 18 倍；第二代 AI300 进一步将有效内存带宽提升至 AI200 的 54 倍。

国产 AI 芯片厂商集体押注 3D 堆叠

面对国际巨头的领先布局与国内供应链受限的现实，多家国产 AI 芯片厂商正以 3D 堆叠打开差异化空间：

紫光集团推出以 3D DRAM 为核心的紫弦架构，首创 3.5D 异质异构集成方案，存储带宽可达 30 TB/s；其 PNM 近存计算模式可将访存延迟最多降至 1/18，模拟仿真显示同等算力下 Token 吞吐率较 NVIDIA B200 系列高约 1.5–2 倍，且可基于国内供应链规模化量产。
清微智能下一代 AI 芯片采用 3.5D 异构堆叠，将可重构计算芯粒与 DRAM 存储芯粒三维垂直集成；第二代 3D 可重构芯片采用「3D 存算一体 + 四芯 Chiplet」方案，将传统 2D 单车道传输升级为「算力 4 车道 + 4 层存储高架」的立体架构。
算苗科技面向大模型推理的 3D TokenPU 芯片 A4E 已于 6 月 15 日正式流片，将 8 层存储晶圆垂直堆叠在计算逻辑晶圆上，通过 TSV 与微凸点把传统「毫米级」传输距离压缩两个数量级，访存带宽达 16 TB/s。
云天励飞宣布其正在研发的推理芯片将引入 3D 堆叠存储架构，以更高带宽与更低延迟突破内存墙。
由原快手异构计算与芯片事业部组建的凌川科技，下一代芯片已于今年 4 月完成流片，全国产 3D 堆叠下首创 3D 近存架构，并针对散热、一致性、可靠性做了专项优化；其首款芯片 SL200 已累计销售近十万颗，部署于快手、阿里云、百度云、B 站等平台，覆盖快手 99.7% 的直播转码业务，稳定服务 7 亿用户。

从实验室到量产，仍需跨过多道鸿沟

3D 堆叠的工程化难度远高于传统封装，至少面临五重挑战：

散热：3D 架构下热量须穿透多层硅片、TSV、底部填充胶与微凸块界面才能导出，单封装功率超过约 350 W 时，纯空气冷却将失效，必须引入液冷与高性能热界面材料。
混合键合与良率：无凸块 HCB 要求互连间距 < 10 μm 甚至 1 μm 级，对 CMP 平整度、键合精度、热膨胀匹配要求极高；硅桥与基板的热膨胀差异易引发机械应力与裂纹，良率提升依赖键合精度持续优化。
EDA 工具与协同：3D 设计数据量爆炸式增长，热、信号、电源完整性需多维协同优化；目前国际三大 EDA 厂商已有较完整的 3D 堆叠设计工具，而本土 EDA 在布局布线、多芯片验证、Multi-Die DFT 测试等环节仍存在较大空白。
测试与可靠性：高密度 3D 堆叠封装对测试方法、设备与长期可靠性评估提出新要求。
组装复杂度与成本：不同厚度、不同热膨胀系数裸片需要精密对准与密集热机械认证，制造成本显著高于标准封装，需要通过工艺优化逐步降低。

后摩尔时代，单纯追赶国际巨头的 2.5D + HBM 路线难以形成差异化竞争力。从紫弦架构到清微智能的 3.5D 异构堆叠，国产 AI 芯片厂商正用三维集成重新定义芯片架构，把打破「内存墙」与「面积墙」作为在全球 AI 算力竞赛中弯道超车的关键路径。

从 2.5D 平面铺砖到 3D 立体盖楼

国际巨头 3D/3.5D 已迈入量产

海外半导体厂商在 3D 与 3.5D 封装上布局领先，部分产品已规模交付。

AMD 于 2023 年发布采用 3.5D 封装的 Instinct MI300 系列加速器，将 3D 堆叠的 GPU/I/O 芯片通过混合键合与 CoWoS（2.5D）集成，GPU/CPU 芯片经 Cu-Cu 混合键合垂直堆叠在 I/O 芯片之上，再与 HBM3 内存并排互连。

博通 2024 年 12 月首次公开 3.5D XDSiP 封装平台，结合 2.5D 与 Face-to-Face（F2F）3D-IC 集成，采用无凸块混合铜键合（HCB）实现上下芯片顶层金属直接连接，相比传统 F2B 方案，信号连接数增加 7 倍、芯片间界面功耗降低约 90%、延迟显著下降；基于 XDSiP 的 2nm 定制 SoC 已于 2026 年交付富士通，用于 AI 超算集群。

英特尔 EMIB 3.5D 把 EMIB 2.5D 嵌入式硅桥与 Foveros Direct 3D 混合键合结合，兼容 UCIe 标准，其数据中心 GPU Max 系列 SoC 包含超千亿晶体管、47 个主动模块、5 个制程节点，被英特尔称为「史上最复杂的量产型异构芯片」。

高通高带宽计算（HBC）技术通过 3D 堆叠硅基方案将计算与高速带宽内存融合：搭载第一代 HBC 的 AI250 单卡带宽达 133 TB/s，较基于 LPDDR5X 的 AI200 提升 18 倍；第二代 AI300 进一步将有效内存带宽提升至 AI200 的 54 倍。

国产 AI 芯片厂商集体押注 3D 堆叠

面对国际巨头的领先布局与国内供应链受限的现实，多家国产 AI 芯片厂商正以 3D 堆叠打开差异化空间：

紫光集团推出以 3D DRAM 为核心的紫弦架构，首创 3.5D 异质异构集成方案，存储带宽可达 30 TB/s；其 PNM 近存计算模式可将访存延迟最多降至 1/18，模拟仿真显示同等算力下 Token 吞吐率较 NVIDIA B200 系列高约 1.5–2 倍，且可基于国内供应链规模化量产。

清微智能下一代 AI 芯片采用 3.5D 异构堆叠，将可重构计算芯粒与 DRAM 存储芯粒三维垂直集成；第二代 3D 可重构芯片采用「3D 存算一体 + 四芯 Chiplet」方案，将传统 2D 单车道传输升级为「算力 4 车道 + 4 层存储高架」的立体架构。

算苗科技面向大模型推理的 3D TokenPU 芯片 A4E 已于 6 月 15 日正式流片，将 8 层存储晶圆垂直堆叠在计算逻辑晶圆上，通过 TSV 与微凸点把传统「毫米级」传输距离压缩两个数量级，访存带宽达 16 TB/s。

云天励飞宣布其正在研发的推理芯片将引入 3D 堆叠存储架构，以更高带宽与更低延迟突破内存墙。

由原快手异构计算与芯片事业部组建的凌川科技，下一代芯片已于今年 4 月完成流片，全国产 3D 堆叠下首创 3D 近存架构，并针对散热、一致性、可靠性做了专项优化；其首款芯片 SL200 已累计销售近十万颗，部署于快手、阿里云、百度云、B 站等平台，覆盖快手 99.7% 的直播转码业务，稳定服务 7 亿用户。

从实验室到量产，仍需跨过多道鸿沟

3D 堆叠的工程化难度远高于传统封装，至少面临五重挑战：

散热：3D 架构下热量须穿透多层硅片、TSV、底部填充胶与微凸块界面才能导出，单封装功率超过约 350 W 时，纯空气冷却将失效，必须引入液冷与高性能热界面材料。

混合键合与良率：无凸块 HCB 要求互连间距 < 10 μm 甚至 1 μm 级，对 CMP 平整度、键合精度、热膨胀匹配要求极高；硅桥与基板的热膨胀差异易引发机械应力与裂纹，良率提升依赖键合精度持续优化。

EDA 工具与协同：3D 设计数据量爆炸式增长，热、信号、电源完整性需多维协同优化；目前国际三大 EDA 厂商已有较完整的 3D 堆叠设计工具，而本土 EDA 在布局布线、多芯片验证、Multi-Die DFT 测试等环节仍存在较大空白。

测试与可靠性：高密度 3D 堆叠封装对测试方法、设备与长期可靠性评估提出新要求。

组装复杂度与成本：不同厚度、不同热膨胀系数裸片需要精密对准与密集热机械认证，制造成本显著高于标准封装，需要通过工艺优化逐步降低。