PhantaField 公布 Sophon PFG-1：宣称集成 330 GB 片上 DRAM 的 M3D AI 芯片

PhantaField 公司发布了一份名为《Sophon PFG-1》的技术白皮书，提出一款采用单片 3D（M3D）集成与二维过渡金属硫族化合物（2D-TMD）增益单元 DRAM 的 AI 加速器原型。该方案完全摒弃片外高带宽内存（HBM），试图用一片 die 同时承担大模型训练与低批量推理任务。白皮书给出了详细的工艺、功耗与性能数据，并将其与 NVIDIA Rubin（R200）和 AMD Instinct MI455X 进行对比；不过，这些数据目前均来自厂商自身，尚未见第三方独立验证。

架构与工艺

Sophon 在一块 750 mm² 的 die 上堆叠了 32 层 2D-TMD CMOS 逻辑层，底部使用 28 nm Si CMOS 基础层，层间通过 Monolithic Inter-tier Via（MIV）互连。存储介质采用 2T0C 结构的 2D-TMD 增益单元 DRAM，嵌入在每层 Metal-3 后端互连中，单 die 容量 330 GB。

计算采用纯数字存算一体（CIM）架构：每 256×256 DRAM 子阵列搭配二进制灵敏放大器与 8 级加法树，由 500 MHz 位串行激活广播驱动；整片共 131,072 个 tile，合计 4,200 TFLOPS FP8、2,100 TFLOPS BF16 计算能力。

容量：330 GB 片上 DRAM
计算：2,100 TFLOPS BF16 / 4,200 TFLOPS FP8 / 8,400 TOPS INT8
每 MAC 能耗：0.62 pJ（BF16 前向）/ 0.94 pJ（前向+反向）/ 0.31 pJ（FP8 推理）
平均功耗：前向 ≈ 379 W / 反向 ≈ 749 W / FP8 推理 373 W

性能宣称

白皮书以 80B 参数模型为参照：

训练吞吐：2,406 tokens/s，0.23 J/tok
BF16 decode：7,219 tokens/s
FP8 decode：14,438 tokens/s
叠加 INT4 权重量化与推测解码后，等效吞吐 72,188 tokens/s

针对单条流（batch-1）FP8 decode，白皮书宣称能效为 38.7 tokens/s/W，约为 HBM4 受限的 NVIDIA Rubin R200 与 AMD MI455X（≈ 0.22 tokens/s/W）的 174 倍。原文给出的根因是：两款 GPU 在低批量下受限于 HBM4 带宽（Rubin 22 TB/s、MI455X 19.6 TB/s），而 Sophon 的片上权重带宽达到 HBM4 封装的 191–214 倍。

经济学与系统视角

单 die 材料 BOM 约 8,358 美元
对比 NVIDIA Rubin NVL72 机柜 ≈ 780 万美元（其中 HBM 占 ≈ 25.7%），白皮书称 Sophon 可实现 9.9×/11.6× 的整机 BOM 节省
同一片 die 既能训练又能推理，无需更换硬件即可在训练/服务间弹性划分
白皮书还提及抗辐射特性，主打太空部署场景

技术合理性与待验证事项

白皮书所依赖的几项底层技术目前仍属实验室阶段：

32 层 2D-TMD CMOS 单片 3D 堆叠：业界尚无成熟量产路径
2T0C 增益单元 DRAM 量产可靠性、良率与一致性：缺乏公开数据
文中假设的 ≈ 10⁻¹⁵ A/µm 极低关态电流密度，需在量产条件下复现
整机 BOM 对比未计入良率损失、封装、散热与软件栈成本

小结

Sophon PFG-1 的白皮书展示了一条颇具想象力的硬件路线：用片上可读写 DRAM 取代 HBM，从架构层面打破低批量推理的内存墙。其宣称的 174× 能效优势若属实，将对 2026 年下半年的 AI 加速器格局产生实质性冲击；但 32 层 2D-TMD 单片 3D 集成的工程可行性，及其与量产 Rubin/MI455X 的真实差距，仍有待流片与第三方基准检验。在此之前，读者宜将上述数字视作厂商愿景，而非可立即采购的产品规格。