桃子桃子 AI 快讯
返回首页
研究论文8 小时快讯 · 2026.06.25 08:00

新研究:稀疏注意力让百万 token 上下文成本下降七成

一篇预印本提出动态稀疏注意力,在百万 token 上下文下推理显存与成本下降约 70%,精度基本无损。

2026.06.25 · 周四4 分钟阅读评分 83

一篇新预印本提出 动态稀疏注意力 方案,在百万 token 量级的超长上下文推理中,将显存占用与推理成本降低约 70%,而在长文档问答与检索任务上的精度基本无损。

方法概述

  • 动态稀疏:按查询动态选择需要关注的键值块,跳过低相关区域。
  • 块级缓存:与 KV 缓存复用结合,避免重复计算。
  • 可插拔:可作为现有 Transformer 的替换层,无需从头训练。

长上下文成本的下降,对「把历史快讯全部喂进上下文做语义级去重」这类需求很关键。

示例种子数据,仅用于演示展示效果,正式上线由采集 / AI 处理流水线替换。

信源