ReFreeKV：面向 LLM 推理的无阈值 KV Cache 压缩新方法

在大型语言模型（LLM）推理过程中，KV Cache 会随着上下文长度增长而迅速膨胀，带来显著的显存与计算开销。为此，学界已提出多种 KV Cache 剪枝与压缩方法。近日发表于 arXiv 的论文《ReFreeKV: Towards Threshold-Free KV Cache Compression》指出，现有方法普遍依赖一个被忽视的预设条件——需要提前为 KV Cache 预算设定一个与输入 / 领域相关的阈值，并在此阈值下取得最优表现。

现有方法的局限：阈值敏感

论文分析认为，这类依赖输入敏感阈值的设计在实际开放域场景中存在根本性瓶颈。真实应用中的输入往往跨多个领域、长度与难度，且缺乏清晰的领域边界，阈值难以预先标定。一旦阈值与输入不匹配，压缩性能会出现明显退化。论文将此称为「input-sensitive threshold」的根本性局限，并主张将压缩策略从「依赖阈值」转向「自适应分配预算」。

ReFreeKV 的核心思路

围绕上述目标，作者首先形式化了一个「无阈值」压缩目标：在不预设固定预算的前提下，自适应地决定每一层、每一段上下文的 KV 保留量，同时尽量保持与全量 KV Cache 一致的模型表现。基于该目标，他们提出了首个具体实例化方法 ReFreeKV（Read-and-Free KV Cache），通过读出关键 token 的重要性信号，动态释放冗余条目。

实验覆盖与结论

论文在 13 个数据集上进行了系统评估，涵盖不同上下文长度、任务类型与模型规模。结果显示，ReFreeKV 在无需手动调节阈值的情况下，仍能接近甚至匹配全量缓存的性能，并具备较好的效率优势。作者强调，这种「threshold-free」设计使其更适合开放域、多样化输入的部署场景。

开源与获取

论文链接：https://arxiv.org/abs/2502.16886
完整 PDF：https://arxiv.org/pdf/2502.16886
代码仓库：https://github.com/Patrick-Ni/ReFreeKV

该工作由 Reddit 用户 pmttyji 在 r/LocalLLaMA 社区分享，为关注 LLM 推理内存优化的研究者与工程师提供了新的基线参考。后续若代码与详细实验数据进一步公开，有望成为 KV Cache 压缩领域的可复现方案之一。