桃子桃子快讯
返回首页
行业动态

OpenAI 推理成本砍半,沿 DeepSeek 走过的路

OpenAI 据传通过 KV cache 优化将推理成本砍掉一半以上,路径与 DeepSeek-V2 的 MLA 方案高…

2026.07.02 · 周四6 分钟阅读

OpenAI 正在通过 KV cache 优化等多条路径,将模型推理成本砍掉一半以上,被外界视为正在走 DeepSeek 此前走过的路。对于月活已达 8 亿的 OpenAI 而言,推理成本是商业模式的根基,这轮压缩既关乎盈利能力,也直接影响其上市前景。

核心突破口:KV cache 优化

据外媒报道,OpenAI 找到了一种新的系统优化方案,能将模型推理成本砍掉一半以上,过去需要几万张 GPU 才能满足的需求,现在几百张就足够。优化方向主要集中在 KV cache 上。

KV cache 是模型在生成每个 token 时需要反复读取的「笔记」——它记录了此前全部上文的信息。由于大模型逐 token 生成,每蹦出一个新 token 都要回头看一遍之前的内容,KV cache 通过缓存这些中间结果,避免重复计算。

知情人士透露,OpenAI 的优化主要集中在内存效率方面。更引人关注的是,开发该新架构的团队是一个从 OpenAI 剥离出去的团队,并且很快将公布结果。海外科技博主安德鲁·库兰(Andrew Curran)表示,OpenAI 在架构上出现重大突破,尤其是在内存效率方面。

OpenAI 对 KV cache 的关注并非刚刚开始。2024 年 10 月,OpenAI 在开发者文档中加入了 Prompt Caching 机制,本质上就是对 KV cache 的复用——前缀相同的请求可直接复用此前生成的 KV cache,无需重新计算整段 prompt。官方文档显示,Prompt Caching 可将延迟降低 80%、输入 token 成本降低 90%。

与 DeepSeek 的技术路径相似

2024 年 5 月,DeepSeek 在 DeepSeek-V2 技术报告中提出 Multi-head Latent Attention(MLA)机制,将 KV cache 压缩进潜在向量(latent vector)。报告披露的关键数据如下:

  • 相比 DeepSeek 67B,DeepSeek-V2 的 KV cache 减少 93.3%
  • 最大生成吞吐量提升到 5.76 倍

DeepSeek 在 V4 发布后调整缓存命中价格,正是基于 KV cache 可复用的发现。OpenAI 此轮推理优化与 DeepSeek 走过的路径高度类似,但 GPT 目前并未开放类似的折扣机制。

KV cache 与 HBM:成本压缩的物理边界

KV cache 必须存放在最靠近 GPU 计算单元的 HBM(高带宽内存)中,因为它是每个 token 生成时频繁读取的热数据。HBM 容量决定模型服务能力上限,尤其影响长上下文与高并发推理能力。当前 HBM 演进有两条路线:

  • HBM4 正统路线:JEDEC 于 2025 年 4 月发布标准,内存接口从 1024 位翻到 2048 位,单堆栈带宽从 HBM3E 的 1.18 TB/s 提升至 2.8 TB/s,容量从 24 GB 提升到 48 GB。SK 海力士和三星已在 2 月量产,英伟达最新的 Rubin 架构提前订光全年产能。
  • ZAM 新路线:由英特尔与软银旗下 SAIMEMORY 联合发布,采用铜对铜混合键合工艺直接熔合 9 层芯片,带宽约 2.5 TB/s,堆叠更矮、功耗更低、成本更便宜,短期内仍难取代 HBM。

不过,KV cache 压缩、分页、量化技术成熟后,单个请求所需 HBM 容量会下降,但省出的显存很快会被用于更长上下文、更高并发、更复杂 agent,总的 HBM 需求未必减少。

硬件与软件双线压缩

在硬件层面,OpenAI 也在同步布局:

  • Jalapeño 芯片:6 月 24 日与博通联合发布,是 OpenAI 参与设计的首款 AI 芯片,专为 LLM 推理而生,能将 LLM 服务成本砍掉约 50%。从宣布合作到亮相仅用 9 个月,开发速度明显快于行业惯例。
  • Cerebras 合作:1 月 14 日签下超 100 亿美元协议,后者提供 750 MW 推理算力至 2028 或 2029 年,未来可能扩展至 2 GW。Cerebras WSE-3 拥有 4 万亿晶体管、90 万个计算核心、44 GB 片上 SRAM,GPT-5.3-Codex-Spark 在其上跑出超过 1000 tokens/秒。

AWS 也在 6 月宣布与 Cerebras 合作进行「推理分解」(inference disaggregation),把推理拆成 prefill 和 decode 两个阶段分别部署在不同硬件上。

上市压力下的成本竞赛

财务数据显示,OpenAI 2025 年全年收入为 130.7 亿美元,总成本和费用却高达 340 亿,运营亏损 209 亿,仅付给微软的云计算账单就超过 172 亿。2026 年预计在推理和训练方面烧掉 141 亿。

好消息是 OpenAI API 业务毛利率正在改善:2026 年 Q1 达到 39%,目标年底冲到 52%。叠加 KV cache 优化与 Jalapeño 芯片,OpenAI 推理成本有望降低一个数量级。

尽管奥特曼多次表示不急于上市,且受 SpaceX 上市后股价波动影响,OpenAI 倾向于推迟到 2027 年再上市——但若再不控制成本,OpenAI 恐怕将更难控制住成本。

信源