OpenAI 推理成本砍半，沿 DeepSeek 走过的路

OpenAI 正在通过 KV cache 优化等多条路径，将模型推理成本砍掉一半以上，被外界视为正在走 DeepSeek 此前走过的路。对于月活已达 8 亿的 OpenAI 而言，推理成本是商业模式的根基，这轮压缩既关乎盈利能力，也直接影响其上市前景。

核心突破口：KV cache 优化

据外媒报道，OpenAI 找到了一种新的系统优化方案，能将模型推理成本砍掉一半以上，过去需要几万张 GPU 才能满足的需求，现在几百张就足够。优化方向主要集中在 KV cache 上。

KV cache 是模型在生成每个 token 时需要反复读取的「笔记」——它记录了此前全部上文的信息。由于大模型逐 token 生成，每蹦出一个新 token 都要回头看一遍之前的内容，KV cache 通过缓存这些中间结果，避免重复计算。

知情人士透露，OpenAI 的优化主要集中在内存效率方面。更引人关注的是，开发该新架构的团队是一个从 OpenAI 剥离出去的团队，并且很快将公布结果。海外科技博主安德鲁·库兰（Andrew Curran）表示，OpenAI 在架构上出现重大突破，尤其是在内存效率方面。

OpenAI 对 KV cache 的关注并非刚刚开始。2024 年 10 月，OpenAI 在开发者文档中加入了 Prompt Caching 机制，本质上就是对 KV cache 的复用——前缀相同的请求可直接复用此前生成的 KV cache，无需重新计算整段 prompt。官方文档显示，Prompt Caching 可将延迟降低 80%、输入 token 成本降低 90%。

与 DeepSeek 的技术路径相似

2024 年 5 月，DeepSeek 在 DeepSeek-V2 技术报告中提出 Multi-head Latent Attention（MLA）机制，将 KV cache 压缩进潜在向量（latent vector）。报告披露的关键数据如下：

相比 DeepSeek 67B，DeepSeek-V2 的 KV cache 减少 93.3%
最大生成吞吐量提升到 5.76 倍

DeepSeek 在 V4 发布后调整缓存命中价格，正是基于 KV cache 可复用的发现。OpenAI 此轮推理优化与 DeepSeek 走过的路径高度类似，但 GPT 目前并未开放类似的折扣机制。

KV cache 与 HBM：成本压缩的物理边界

KV cache 必须存放在最靠近 GPU 计算单元的 HBM（高带宽内存）中，因为它是每个 token 生成时频繁读取的热数据。HBM 容量决定模型服务能力上限，尤其影响长上下文与高并发推理能力。当前 HBM 演进有两条路线：

HBM4 正统路线：JEDEC 于 2025 年 4 月发布标准，内存接口从 1024 位翻到 2048 位，单堆栈带宽从 HBM3E 的 1.18 TB/s 提升至 2.8 TB/s，容量从 24 GB 提升到 48 GB。SK 海力士和三星已在 2 月量产，英伟达最新的 Rubin 架构提前订光全年产能。
ZAM 新路线：由英特尔与软银旗下 SAIMEMORY 联合发布，采用铜对铜混合键合工艺直接熔合 9 层芯片，带宽约 2.5 TB/s，堆叠更矮、功耗更低、成本更便宜，短期内仍难取代 HBM。

不过，KV cache 压缩、分页、量化技术成熟后，单个请求所需 HBM 容量会下降，但省出的显存很快会被用于更长上下文、更高并发、更复杂 agent，总的 HBM 需求未必减少。

硬件与软件双线压缩

在硬件层面，OpenAI 也在同步布局：

Jalapeño 芯片：6 月 24 日与博通联合发布，是 OpenAI 参与设计的首款 AI 芯片，专为 LLM 推理而生，能将 LLM 服务成本砍掉约 50%。从宣布合作到亮相仅用 9 个月，开发速度明显快于行业惯例。
Cerebras 合作：1 月 14 日签下超 100 亿美元协议，后者提供 750 MW 推理算力至 2028 或 2029 年，未来可能扩展至 2 GW。Cerebras WSE-3 拥有 4 万亿晶体管、90 万个计算核心、44 GB 片上 SRAM，GPT-5.3-Codex-Spark 在其上跑出超过 1000 tokens/秒。

AWS 也在 6 月宣布与 Cerebras 合作进行「推理分解」（inference disaggregation），把推理拆成 prefill 和 decode 两个阶段分别部署在不同硬件上。

上市压力下的成本竞赛

财务数据显示，OpenAI 2025 年全年收入为 130.7 亿美元，总成本和费用却高达 340 亿，运营亏损 209 亿，仅付给微软的云计算账单就超过 172 亿。2026 年预计在推理和训练方面烧掉 141 亿。

好消息是 OpenAI API 业务毛利率正在改善：2026 年 Q1 达到 39%，目标年底冲到 52%。叠加 KV cache 优化与 Jalapeño 芯片，OpenAI 推理成本有望降低一个数量级。

尽管奥特曼多次表示不急于上市，且受 SpaceX 上市后股价波动影响，OpenAI 倾向于推迟到 2027 年再上市——但若再不控制成本，OpenAI 恐怕将更难控制住成本。