新研究：稀疏注意力让百万 token 上下文成本下降七成

一篇新预印本提出 动态稀疏注意力 方案，在百万 token 量级的超长上下文推理中，将显存占用与推理成本降低约 70%，而在长文档问答与检索任务上的精度基本无损。

方法概述

长上下文成本的下降，对「把历史快讯全部喂进上下文做语义级去重」这类需求很关键。

示例种子数据，仅用于演示展示效果，正式上线由采集 / AI 处理流水线替换。