桃子桃子 AI 快讯
返回首页
研究论文

UW SyFI 开源编码 Agent 真实负载 TraceLab

华盛顿大学 SyFI 实验室发布 TraceLab 数据集与工具,约 4300 段会话、55B token,用于研究面向…

2026.06.30 · 周二4 分钟阅读评分 66
评分细项加权总分 66
重要性
58
新颖性
72
影响面
55
可信度
88
实质性
82

华盛顿大学 SyFI 实验室于 2026 年 6 月 25 日发布 TraceLab:一套面向「编码 Agent 工作负载」的实测 Trace 数据集与开源分析流水线。随着 Anthropic Claude Code、OpenAI Codex、Google Gemini CLI 等主流编码 Agent 的普及,如何高效服务这类长链路、多工具调用的请求,已成为日益重要的系统问题。论文作者指出,Terminal-Bench、SWE-bench 这类面向模型能力的基准,因工具调用少、任务孤立,难以刻画真实的 serving 性能。TraceLab 的目标正是用真实使用数据填补这一空白。

数据与流水线

  • 数据来源:作者团队日常使用 Claude Code 与 Codex 完成研究与开发任务时产生的会话日志。
  • 两阶段流水线:先由 trace collector 从原始日志提取关键字段,去除冗余框架;再由 trace sanitizer 剥离工具调用输入输出、用户名与会话 ID 等敏感信息。
  • 规模:约 4300 段匿名会话、合计 55B token,足以让单台甚至分布式 serving 引擎达到稳态。
  • 资产:GitHub 仓库(uw-syfi/TraceLab)同步开源采集与分析代码,并提供 tracelab.cs.washington.edu 演示站点。

关键观测

1. 自主多轮对话

  • 每个用户请求平均经过 8.8 步 LLM–工具循环,发出 10.8 次工具调用后才会给出最终回答。
  • 88% 的 LLM 轮次是在响应工具返回,而非响应人类输入。
  • 单次生成平均 ~13 s,单次工具调用平均 ~18 s,端到端响应时间中位 ~38 s,均值 ~4 分钟,p99 接近 44 分钟。
  • 用户在两次请求之间平均等待 46.7 分钟(中位 ~1.4 分钟),留下大量空闲窗口可被预取与重预填利用。

2. 长输入、短输出

  • 全量数据中模型读取 52.56B 缓存输入 token、预填 2.34B 新输入 token,仅生成 186.9M 输出 token,输入约为输出的 294 倍。
  • 典型一轮的 prompt 前缀在 32k–256k token 之间,输出仅几百到几千 token,但新输入 token 的长尾可超过 128K。
  • 归一化解码速度中位 ~40.7 tok/s(Claude 46.8、Codex 33.9),Codex 纯解码可达 ~61.3 tok/s;其每步 TTFT 约 3.1 s,相当于该轮生成时长的 ~25%。

3. 工具密集、长尾显著

  • 全部 433K 次工具调用中,76% 为 shell/命令执行(构建、测试、git 等),11% 为文件编辑,9% 为文件读取/搜索;规划、子 Agent 与网络检索合计构成余下部分。
  • Claude 使用工具种类达 54 种,明显多于 Codex 的 31 种,但二者的高频工具集中在同一小集合。
  • 工具耗时在类型之间与同一类型内部都呈长尾:Bash 类调用横跨四个数量级;<1 s 的调用占总数 61%,却只占总工具时长的 1%;约 4% 超过 1 分钟的调用消耗了 85% 的时长。

4. 前缀缓存高效但不最优

  • 整体前缀缓存命中率高达 95.7%。
  • 然而论文指出「工具结果续接」与「新用户轮次」两类起点的缓存表现存在明显差异:当前缀长度爆炸式增长时,命中率会显著下降,对路由与驱逐策略提出新的要求。

研究方向建议

  • 提高每轮并行工具调用数,减少串行步骤数,挖掘并行潜力。
  • 利用用户即将发起下一轮的早期信号(重新激活窗口、开始输入),在空闲长间隙内预取、重预填历史对话。
  • 为短增量预填与长预填设计不同的处理路径,缩短工具结果返回后的 TTFT。
  • 将 KV-cache 复用距离估算从「工具类别」细化到输入参数与历史执行记录,相关探索已在同期工作 CacheWise 中给出。

TraceLab 以真实场景数据为基础,为后续编码 Agent 的 LLM serving 系统研究提供了一份可直接复用的基线与工具集。

信源