桃子桃子快讯
返回首页
工具

Condense.chat 开放压缩代理访问,可削减 AI 编码 Agent 约九成 token

Condense.chat 推出压缩代理,置于编码 AI Agent 与模型之间,宣称可将已完成的 Agent 循环压缩…

2026.07.03 · 周五2 分钟阅读

AI 编码 Agent 在长链路任务中往往会产生大量重复、冗余的上下文,导致 token 用量与推理成本居高不下。Condense[.]chat 近日开放了其全新「压缩代理」(compression proxy)的访问权限,尝试在 Agent 与底层模型之间引入一层中间件,从结构层面削减 token 消耗。

核心机制:双模型协作

Condense 的压缩代理由两个自研模型分工完成:

  • Helene 1:在请求进入缓存之前剥离不必要 token,提前减少写入缓存与重复读取的体积。
  • Adeline 1:针对已经「收敛」的 Agent 循环(即状态不再变化的执行轨迹)进行压缩,官方宣称可将相关上下文压缩至原始大小的约 9%。

两者的定位形成互补:前者侧重前置过滤,后者侧重后置归档。

接入方式与兼容性

据官方说明,压缩代理以透明代理(transparent proxy)的形式部署,调用方无需修改现有 Agent 的系统提示(system prompt)或业务逻辑,工具的输出结果可保持不变。这一设计降低了已有项目的接入成本,开发者只需将请求流量切换至该代理即可。

适用场景与局限

该方案主要面向长链路编码 Agent、多步工具调用等上下文容易膨胀的场景。对于短对话、单轮问答等 token 总量本就不高的任务,压缩收益有限。此外,压缩代理的延迟、压缩后是否影响模型在后续轮次中的推理准确性,仍有待实际工作负载的进一步验证。

行业意义

随着 Claude、GPT 等主流模型在 Agent 能力上的不断增强,上下文长度与调用频次同步攀升,token 经济性正成为开发者的现实痛点。Condense.chat 选择的「中间层压缩」路线,与各模型厂商自带上下文管理、上下文缓存等机制形成补充,也为第三方基础设施切入 Agent 成本优化提供了一种可参考的范式。

信源