Condense.chat 开放压缩代理访问，可削减 AI 编码 Agent 约九成 token

AI 编码 Agent 在长链路任务中往往会产生大量重复、冗余的上下文，导致 token 用量与推理成本居高不下。Condense[.]chat 近日开放了其全新「压缩代理」（compression proxy）的访问权限，尝试在 Agent 与底层模型之间引入一层中间件，从结构层面削减 token 消耗。

核心机制：双模型协作

Condense 的压缩代理由两个自研模型分工完成：

Helene 1：在请求进入缓存之前剥离不必要 token，提前减少写入缓存与重复读取的体积。
Adeline 1：针对已经「收敛」的 Agent 循环（即状态不再变化的执行轨迹）进行压缩，官方宣称可将相关上下文压缩至原始大小的约 9%。

两者的定位形成互补：前者侧重前置过滤，后者侧重后置归档。

接入方式与兼容性

据官方说明，压缩代理以透明代理（transparent proxy）的形式部署，调用方无需修改现有 Agent 的系统提示（system prompt）或业务逻辑，工具的输出结果可保持不变。这一设计降低了已有项目的接入成本，开发者只需将请求流量切换至该代理即可。

适用场景与局限

该方案主要面向长链路编码 Agent、多步工具调用等上下文容易膨胀的场景。对于短对话、单轮问答等 token 总量本就不高的任务，压缩收益有限。此外，压缩代理的延迟、压缩后是否影响模型在后续轮次中的推理准确性，仍有待实际工作负载的进一步验证。

行业意义

随着 Claude、GPT 等主流模型在 Agent 能力上的不断增强，上下文长度与调用频次同步攀升，token 经济性正成为开发者的现实痛点。Condense.chat 选择的「中间层压缩」路线，与各模型厂商自带上下文管理、上下文缓存等机制形成补充，也为第三方基础设施切入 Agent 成本优化提供了一种可参考的范式。