VeriCache：用压缩 KV cache 实现无损 LLM 推理

随着大模型上下文长度持续增长，KV cache 的体积已成为 LLM 在线推理的主要瓶颈。围绕这一问题，业界已提出 token 丢弃、量化等多种压缩方法，但这些方法几乎都是有损的——在短输出场景下精度损失可以忽略，但随着解码 token 增多，输出会逐渐偏离完整 KV cache 的结果，在代码生成与工具调用等场景中甚至会出现灾难性失败。一篇提交至 arXiv 的论文提出 VeriCache，试图在保留压缩带来的高吞吐的同时，保证与完整 KV cache 解码完全一致的输出。

核心思路：压缩草稿 + 完整验证

VeriCache 的关键设计借鉴了投机解码（speculative decoding）的思想，但并非简单复用。其工作流分为两步：

使用压缩后的 KV cache 进行「草稿解码」，快速生成候选 token；
用完整的 KV cache 对这些候选 token 做「验证」，确保最终输出与全量 KV cache 推理完全一致。

论文指出，这种方式要真正可用，必须解决一个关键系统难题：完整 KV cache 通常无法全部驻留在 GPU 显存中，按需换入（swap）会带来巨大开销。VeriCache 的核心洞见有两点：

压缩 KV cache 的解码是 HBM 带宽受限，而完整 KV cache 的换入是 PCIe 或网络带宽受限，二者可以并行执行；
压缩 KV cache 的解码结果与完整 KV cache 高度相似，允许设置较长的草稿长度（drafting horizon），从而摊薄每次完整 KV cache 换入的开销。

适用范围与组合性

VeriCache 的设计具有较好的通用性：

同时支持长上下文解码与远程前缀缓存（remote prefix caching）场景；
通过统一的压缩器接口（compressor interface），可以适配多种 token 丢弃和量化方法；
可与传统的投机解码方法叠加使用，进一步提升加速比。

实验结果

论文报告的实验数据显示，VeriCache 在多种压缩算法基础上，相比完整 KV cache 推理可获得最高约 4 倍的吞吐加速，同时保证输出与全量 KV cache 解码完全一致。这意味着在长上下文、代码生成与工具调用等对输出一致性敏感的场景中，部署方有望在不牺牲结果正确性的前提下，大幅提升服务吞吐。

论文由 Jiayi Yao 等人提交，编号为 arXiv:2605.17613，归类于硬件架构（cs.AR）与机器学习（cs.LG）方向。该工作目前仍以预印本形式公开，后续是否被会议接收、是否开源实现代码，尚待进一步信息确认。