研究论文
UW SyFI 开源编码 Agent 真实负载 TraceLab
华盛顿大学 SyFI 实验室发布 TraceLab 数据集与工具,约 4300 段会话、55B token,用于研究面向…
2026.06.30 · 周二约 4 分钟阅读评分 66
评分细项加权总分 66
- 重要性
- 58
- 新颖性
- 72
- 影响面
- 55
- 可信度
- 88
- 实质性
- 82
华盛顿大学 SyFI 实验室于 2026 年 6 月 25 日发布 TraceLab:一套面向「编码 Agent 工作负载」的实测 Trace 数据集与开源分析流水线。随着 Anthropic Claude Code、OpenAI Codex、Google Gemini CLI 等主流编码 Agent 的普及,如何高效服务这类长链路、多工具调用的请求,已成为日益重要的系统问题。论文作者指出,Terminal-Bench、SWE-bench 这类面向模型能力的基准,因工具调用少、任务孤立,难以刻画真实的 serving 性能。TraceLab 的目标正是用真实使用数据填补这一空白。
数据与流水线
- 数据来源:作者团队日常使用 Claude Code 与 Codex 完成研究与开发任务时产生的会话日志。
- 两阶段流水线:先由 trace collector 从原始日志提取关键字段,去除冗余框架;再由 trace sanitizer 剥离工具调用输入输出、用户名与会话 ID 等敏感信息。
- 规模:约 4300 段匿名会话、合计 55B token,足以让单台甚至分布式 serving 引擎达到稳态。
- 资产:GitHub 仓库(uw-syfi/TraceLab)同步开源采集与分析代码,并提供 tracelab.cs.washington.edu 演示站点。
关键观测
1. 自主多轮对话
- 每个用户请求平均经过 8.8 步 LLM–工具循环,发出 10.8 次工具调用后才会给出最终回答。
- 88% 的 LLM 轮次是在响应工具返回,而非响应人类输入。
- 单次生成平均 ~13 s,单次工具调用平均 ~18 s,端到端响应时间中位 ~38 s,均值 ~4 分钟,p99 接近 44 分钟。
- 用户在两次请求之间平均等待 46.7 分钟(中位 ~1.4 分钟),留下大量空闲窗口可被预取与重预填利用。
2. 长输入、短输出
- 全量数据中模型读取 52.56B 缓存输入 token、预填 2.34B 新输入 token,仅生成 186.9M 输出 token,输入约为输出的 294 倍。
- 典型一轮的 prompt 前缀在 32k–256k token 之间,输出仅几百到几千 token,但新输入 token 的长尾可超过 128K。
- 归一化解码速度中位 ~40.7 tok/s(Claude 46.8、Codex 33.9),Codex 纯解码可达 ~61.3 tok/s;其每步 TTFT 约 3.1 s,相当于该轮生成时长的 ~25%。
3. 工具密集、长尾显著
- 全部 433K 次工具调用中,76% 为 shell/命令执行(构建、测试、git 等),11% 为文件编辑,9% 为文件读取/搜索;规划、子 Agent 与网络检索合计构成余下部分。
- Claude 使用工具种类达 54 种,明显多于 Codex 的 31 种,但二者的高频工具集中在同一小集合。
- 工具耗时在类型之间与同一类型内部都呈长尾:Bash 类调用横跨四个数量级;<1 s 的调用占总数 61%,却只占总工具时长的 1%;约 4% 超过 1 分钟的调用消耗了 85% 的时长。
4. 前缀缓存高效但不最优
- 整体前缀缓存命中率高达 95.7%。
- 然而论文指出「工具结果续接」与「新用户轮次」两类起点的缓存表现存在明显差异:当前缀长度爆炸式增长时,命中率会显著下降,对路由与驱逐策略提出新的要求。
研究方向建议
- 提高每轮并行工具调用数,减少串行步骤数,挖掘并行潜力。
- 利用用户即将发起下一轮的早期信号(重新激活窗口、开始输入),在空闲长间隙内预取、重预填历史对话。
- 为短增量预填与长预填设计不同的处理路径,缩短工具结果返回后的 TTFT。
- 将 KV-cache 复用距离估算从「工具类别」细化到输入参数与历史执行记录,相关探索已在同期工作 CacheWise 中给出。
TraceLab 以真实场景数据为基础,为后续编码 Agent 的 LLM serving 系统研究提供了一份可直接复用的基线与工具集。
