PhantaField 公布 Sophon PFG-1:宣称集成 330 GB 片上 DRAM 的 M3D AI 芯片
初创公司 PhantaField 发布 AI 加速器白皮书,主张用单片 3D 集成与 2D-TMD 增益单元 DRAM…
- 重要性
- 55
- 新颖性
- 70
- 影响面
- 50
- 可信度
- 38
- 实质性
- 75
PhantaField 公司发布了一份名为《Sophon PFG-1》的技术白皮书,提出一款采用单片 3D(M3D)集成与二维过渡金属硫族化合物(2D-TMD)增益单元 DRAM 的 AI 加速器原型。该方案完全摒弃片外高带宽内存(HBM),试图用一片 die 同时承担大模型训练与低批量推理任务。白皮书给出了详细的工艺、功耗与性能数据,并将其与 NVIDIA Rubin(R200)和 AMD Instinct MI455X 进行对比;不过,这些数据目前均来自厂商自身,尚未见第三方独立验证。
架构与工艺
Sophon 在一块 750 mm² 的 die 上堆叠了 32 层 2D-TMD CMOS 逻辑层,底部使用 28 nm Si CMOS 基础层,层间通过 Monolithic Inter-tier Via(MIV)互连。存储介质采用 2T0C 结构的 2D-TMD 增益单元 DRAM,嵌入在每层 Metal-3 后端互连中,单 die 容量 330 GB。
计算采用纯数字存算一体(CIM)架构:每 256×256 DRAM 子阵列搭配二进制灵敏放大器与 8 级加法树,由 500 MHz 位串行激活广播驱动;整片共 131,072 个 tile,合计 4,200 TFLOPS FP8、2,100 TFLOPS BF16 计算能力。
- 容量:330 GB 片上 DRAM
- 计算:2,100 TFLOPS BF16 / 4,200 TFLOPS FP8 / 8,400 TOPS INT8
- 每 MAC 能耗:0.62 pJ(BF16 前向)/ 0.94 pJ(前向+反向)/ 0.31 pJ(FP8 推理)
- 平均功耗:前向 ≈ 379 W / 反向 ≈ 749 W / FP8 推理 373 W
性能宣称
白皮书以 80B 参数模型为参照:
- 训练吞吐:2,406 tokens/s,0.23 J/tok
- BF16 decode:7,219 tokens/s
- FP8 decode:14,438 tokens/s
- 叠加 INT4 权重量化与推测解码后,等效吞吐 72,188 tokens/s
针对单条流(batch-1)FP8 decode,白皮书宣称能效为 38.7 tokens/s/W,约为 HBM4 受限的 NVIDIA Rubin R200 与 AMD MI455X(≈ 0.22 tokens/s/W)的 174 倍。原文给出的根因是:两款 GPU 在低批量下受限于 HBM4 带宽(Rubin 22 TB/s、MI455X 19.6 TB/s),而 Sophon 的片上权重带宽达到 HBM4 封装的 191–214 倍。
经济学与系统视角
- 单 die 材料 BOM 约 8,358 美元
- 对比 NVIDIA Rubin NVL72 机柜 ≈ 780 万美元(其中 HBM 占 ≈ 25.7%),白皮书称 Sophon 可实现 9.9×/11.6× 的整机 BOM 节省
- 同一片 die 既能训练又能推理,无需更换硬件即可在训练/服务间弹性划分
- 白皮书还提及抗辐射特性,主打太空部署场景
技术合理性与待验证事项
白皮书所依赖的几项底层技术目前仍属实验室阶段:
- 32 层 2D-TMD CMOS 单片 3D 堆叠:业界尚无成熟量产路径
- 2T0C 增益单元 DRAM 量产可靠性、良率与一致性:缺乏公开数据
- 文中假设的 ≈ 10⁻¹⁵ A/µm 极低关态电流密度,需在量产条件下复现
- 整机 BOM 对比未计入良率损失、封装、散热与软件栈成本
小结
Sophon PFG-1 的白皮书展示了一条颇具想象力的硬件路线:用片上可读写 DRAM 取代 HBM,从架构层面打破低批量推理的内存墙。其宣称的 174× 能效优势若属实,将对 2026 年下半年的 AI 加速器格局产生实质性冲击;但 32 层 2D-TMD 单片 3D 集成的工程可行性,及其与量产 Rubin/MI455X 的真实差距,仍有待流片与第三方基准检验。在此之前,读者宜将上述数字视作厂商愿景,而非可立即采购的产品规格。
