围绕大模型推理中的内存瓶颈,梳理量化压缩、分层调度、CXL 共享池、HBF/HBC 等软硬件解法与产业进展。
随着大模型参数规模与上下文窗口持续膨胀,制约 AI 推理落地的核心矛盾已从「算力不足」转向「内存不够」。近日高通发布面向 AI 数据中心的高带宽计算架构(HBC),进一步把「如何撬开内存墙」这一议题推到台前。行业共识也随之明确:单纯堆叠显存已难以为继,必须靠软件盘活存量、硬件重构底层两条路径协同推进。
内存墙的本质,是 CPU/GPU 算力增速远超内存带宽与延迟的提升速度:处理器算得快,但数据供给跟不上,大量时间处于闲置等待状态。2024 至 2026 年间,主流大模型参数暴涨百倍,上下文窗口从万字级跃升至百万字级,而服务器内存带宽年均提升不足 15%,软硬件迭代严重错配。
当前推理侧面临三重存储困境,且难以靠传统扩容解决:
软件路径的核心思路是「不增硬件、只挖潜力」,通过压缩、分层调度、跨设备资源复用削减高价显存占用,落地门槛低、见效快。当前主要沿两条主线展开。
行业将 KV 缓存作为显存攻坚重点,目标是压缩占用同时维持模型精度。
通过打通 GPU、HBM、主机 DRAM、本地闪存与远端存储多层介质,让冷热数据自动分流。
软件优化终究受限于芯片互联与存储介质的物理上限,要承载万亿参数模型与大规模智能体并行,必须重构硬件架构。当前行内已分化出三条主线。
以英伟达 Vera Rubin 全栈 AI 计算存储平台为代表,单卡搭载 288 GB HBM4,单机架合计 20.7 TB 高速显存用于热数据;新增的 BlueField-4 STX 专用存储机架作为外置共享缓存池承载复用型 KV 缓存,整体 Token 处理效率相较传统方案提升 5 倍。与亚马逊联合推出的 GIDS 直通技术则让 GPU 绕开 CPU 直连 SSD,整机有效可用存储硬件扩容 16 倍。
依托通用互联协议打通全品类算力与存储,跨品牌混合部署。英特尔以 CXL 2.0 架构为核心,联合阿里云、腾讯云、美光完成商业化落地,是目前跨节点内存共享成熟度最高的方案。
针对 HBM 带宽高、容量小、成本贵的短板,SK 海力士与闪迪联合研发 HBF 高带宽闪存作为中频缓存,单模块最高 512 GB,容量为同规格 HBM 的 8–16 倍,构建「HBM 热数据 + HBF 中频缓存 + 普通闪存冷数据」三级架构。
此外,高通近期提出的 HBC 高带宽计算 3D 堆叠架构,将加速器置于 LPDDR 堆栈下方,通过 TSV 直连规避 HBM 成本。官方数据显示其每瓦带宽较 HBM 提升 6 倍、每瓦容量较 SRAM 提升 200 倍;HBC Gen2 赋能的 Dragonfly AI300 推理加速器整体性能较 AI200 提升 54 倍,单卡每瓦内存带宽较主流 GPU 架构高出 4 至 8 倍。
业内观点指出,软件算法承担短期降本与缓解显存紧缺的任务,革新硬件架构则打开长期性能天花板。未来很长一段时间,破解内存墙的核心路径将是软硬协同与分层混合存储:既重塑推理效率与硬件成本结构,也会影响全球存储供需格局与定价体系,让更多中小企业有机会跨过大模型落地的硬件门槛。