研究论文8 小时快讯 · 2026.06.25 08:00
新研究:稀疏注意力让百万 token 上下文成本下降七成
一篇预印本提出动态稀疏注意力,在百万 token 上下文下推理显存与成本下降约 70%,精度基本无损。
2026.06.25 · 周四约 4 分钟阅读评分 83
一篇新预印本提出 动态稀疏注意力 方案,在百万 token 量级的超长上下文推理中,将显存占用与推理成本降低约 70%,而在长文档问答与检索任务上的精度基本无损。
方法概述
- 动态稀疏:按查询动态选择需要关注的键值块,跳过低相关区域。
- 块级缓存:与 KV 缓存复用结合,避免重复计算。
- 可插拔:可作为现有 Transformer 的替换层,无需从头训练。
长上下文成本的下降,对「把历史快讯全部喂进上下文做语义级去重」这类需求很关键。
示例种子数据,仅用于演示展示效果,正式上线由采集 / AI 处理流水线替换。
