桃子桃子快讯
返回首页
研究论文

VeriCache:用压缩 KV cache 实现无损 LLM 推理

arXiv 论文提出 VeriCache 框架,通过压缩 KV cache 草稿加完整 KV cache 验证的思路,在…

2026.07.02 · 周四3 分钟阅读

随着大模型上下文长度持续增长,KV cache 的体积已成为 LLM 在线推理的主要瓶颈。围绕这一问题,业界已提出 token 丢弃、量化等多种压缩方法,但这些方法几乎都是有损的——在短输出场景下精度损失可以忽略,但随着解码 token 增多,输出会逐渐偏离完整 KV cache 的结果,在代码生成与工具调用等场景中甚至会出现灾难性失败。一篇提交至 arXiv 的论文提出 VeriCache,试图在保留压缩带来的高吞吐的同时,保证与完整 KV cache 解码完全一致的输出。

核心思路:压缩草稿 + 完整验证

VeriCache 的关键设计借鉴了投机解码(speculative decoding)的思想,但并非简单复用。其工作流分为两步:

  • 使用压缩后的 KV cache 进行「草稿解码」,快速生成候选 token;
  • 用完整的 KV cache 对这些候选 token 做「验证」,确保最终输出与全量 KV cache 推理完全一致。

论文指出,这种方式要真正可用,必须解决一个关键系统难题:完整 KV cache 通常无法全部驻留在 GPU 显存中,按需换入(swap)会带来巨大开销。VeriCache 的核心洞见有两点:

  • 压缩 KV cache 的解码是 HBM 带宽受限,而完整 KV cache 的换入是 PCIe 或网络带宽受限,二者可以并行执行;
  • 压缩 KV cache 的解码结果与完整 KV cache 高度相似,允许设置较长的草稿长度(drafting horizon),从而摊薄每次完整 KV cache 换入的开销。

适用范围与组合性

VeriCache 的设计具有较好的通用性:

  • 同时支持长上下文解码与远程前缀缓存(remote prefix caching)场景;
  • 通过统一的压缩器接口(compressor interface),可以适配多种 token 丢弃和量化方法;
  • 可与传统的投机解码方法叠加使用,进一步提升加速比。

实验结果

论文报告的实验数据显示,VeriCache 在多种压缩算法基础上,相比完整 KV cache 推理可获得最高约 4 倍的吞吐加速,同时保证输出与全量 KV cache 解码完全一致。这意味着在长上下文、代码生成与工具调用等对输出一致性敏感的场景中,部署方有望在不牺牲结果正确性的前提下,大幅提升服务吞吐。

论文由 Jiayi Yao 等人提交,编号为 arXiv:2605.17613,归类于硬件架构(cs.AR)与机器学习(cs.LG)方向。该工作目前仍以预印本形式公开,后续是否被会议接收、是否开源实现代码,尚待进一步信息确认。

信源