桃子桃子快讯
返回首页
研究论文

ReFreeKV:面向 LLM 推理的无阈值 KV Cache 压缩新方法

研究者提出 ReFreeKV,去除 KV Cache 压缩中对预定义阈值的依赖,在 13 个数据集上验证其有效性。

2026.07.03 · 周五3 分钟阅读

在大型语言模型(LLM)推理过程中,KV Cache 会随着上下文长度增长而迅速膨胀,带来显著的显存与计算开销。为此,学界已提出多种 KV Cache 剪枝与压缩方法。近日发表于 arXiv 的论文《ReFreeKV: Towards Threshold-Free KV Cache Compression》指出,现有方法普遍依赖一个被忽视的预设条件——需要提前为 KV Cache 预算设定一个与输入 / 领域相关的阈值,并在此阈值下取得最优表现。

现有方法的局限:阈值敏感

论文分析认为,这类依赖输入敏感阈值的设计在实际开放域场景中存在根本性瓶颈。真实应用中的输入往往跨多个领域、长度与难度,且缺乏清晰的领域边界,阈值难以预先标定。一旦阈值与输入不匹配,压缩性能会出现明显退化。论文将此称为「input-sensitive threshold」的根本性局限,并主张将压缩策略从「依赖阈值」转向「自适应分配预算」。

ReFreeKV 的核心思路

围绕上述目标,作者首先形式化了一个「无阈值」压缩目标:在不预设固定预算的前提下,自适应地决定每一层、每一段上下文的 KV 保留量,同时尽量保持与全量 KV Cache 一致的模型表现。基于该目标,他们提出了首个具体实例化方法 ReFreeKV(Read-and-Free KV Cache),通过读出关键 token 的重要性信号,动态释放冗余条目。

实验覆盖与结论

论文在 13 个数据集上进行了系统评估,涵盖不同上下文长度、任务类型与模型规模。结果显示,ReFreeKV 在无需手动调节阈值的情况下,仍能接近甚至匹配全量缓存的性能,并具备较好的效率优势。作者强调,这种「threshold-free」设计使其更适合开放域、多样化输入的部署场景。

开源与获取

该工作由 Reddit 用户 pmttyji 在 r/LocalLLaMA 社区分享,为关注 LLM 推理内存优化的研究者与工程师提供了新的基线参考。后续若代码与详细实验数据进一步公开,有望成为 KV Cache 压缩领域的可复现方案之一。

信源