桃子 AI 快讯

←返回首页

研究论文

UW SyFI 开源编码 Agent 真实负载 TraceLab

华盛顿大学 SyFI 实验室发布 TraceLab 数据集与工具，约 4300 段会话、55B token，用于研究面向…

2026.06.30 · 周二约 4 分钟阅读评分 66

评分细项加权总分 66

重要性: 58
新颖性: 72
影响面: 55
可信度: 88
实质性: 82

华盛顿大学 SyFI 实验室于 2026 年 6 月 25 日发布 TraceLab：一套面向「编码 Agent 工作负载」的实测 Trace 数据集与开源分析流水线。随着 Anthropic Claude Code、OpenAI Codex、Google Gemini CLI 等主流编码 Agent 的普及，如何高效服务这类长链路、多工具调用的请求，已成为日益重要的系统问题。论文作者指出，Terminal-Bench、SWE-bench 这类面向模型能力的基准，因工具调用少、任务孤立，难以刻画真实的 serving 性能。TraceLab 的目标正是用真实使用数据填补这一空白。

数据与流水线

数据来源：作者团队日常使用 Claude Code 与 Codex 完成研究与开发任务时产生的会话日志。
两阶段流水线：先由 trace collector 从原始日志提取关键字段，去除冗余框架；再由 trace sanitizer 剥离工具调用输入输出、用户名与会话 ID 等敏感信息。
规模：约 4300 段匿名会话、合计 55B token，足以让单台甚至分布式 serving 引擎达到稳态。
资产：GitHub 仓库（uw-syfi/TraceLab）同步开源采集与分析代码，并提供 tracelab.cs.washington.edu 演示站点。

关键观测

1. 自主多轮对话

每个用户请求平均经过 8.8 步 LLM–工具循环，发出 10.8 次工具调用后才会给出最终回答。
88% 的 LLM 轮次是在响应工具返回，而非响应人类输入。
单次生成平均 ~13 s，单次工具调用平均 ~18 s，端到端响应时间中位 ~38 s，均值 ~4 分钟，p99 接近 44 分钟。
用户在两次请求之间平均等待 46.7 分钟（中位 ~1.4 分钟），留下大量空闲窗口可被预取与重预填利用。

2. 长输入、短输出

全量数据中模型读取 52.56B 缓存输入 token、预填 2.34B 新输入 token，仅生成 186.9M 输出 token，输入约为输出的 294 倍。
典型一轮的 prompt 前缀在 32k–256k token 之间，输出仅几百到几千 token，但新输入 token 的长尾可超过 128K。
归一化解码速度中位 ~40.7 tok/s（Claude 46.8、Codex 33.9），Codex 纯解码可达 ~61.3 tok/s；其每步 TTFT 约 3.1 s，相当于该轮生成时长的 ~25%。

3. 工具密集、长尾显著

全部 433K 次工具调用中，76% 为 shell/命令执行（构建、测试、git 等），11% 为文件编辑，9% 为文件读取/搜索；规划、子 Agent 与网络检索合计构成余下部分。
Claude 使用工具种类达 54 种，明显多于 Codex 的 31 种，但二者的高频工具集中在同一小集合。
工具耗时在类型之间与同一类型内部都呈长尾：Bash 类调用横跨四个数量级；<1 s 的调用占总数 61%，却只占总工具时长的 1%；约 4% 超过 1 分钟的调用消耗了 85% 的时长。

4. 前缀缓存高效但不最优

整体前缀缓存命中率高达 95.7%。
然而论文指出「工具结果续接」与「新用户轮次」两类起点的缓存表现存在明显差异：当前缀长度爆炸式增长时，命中率会显著下降，对路由与驱逐策略提出新的要求。

研究方向建议

提高每轮并行工具调用数，减少串行步骤数，挖掘并行潜力。
利用用户即将发起下一轮的早期信号（重新激活窗口、开始输入），在空闲长间隙内预取、重预填历史对话。
为短增量预填与长预填设计不同的处理路径，缩短工具结果返回后的 TTFT。
将 KV-cache 复用距离估算从「工具类别」细化到输入参数与历史执行记录，相关探索已在同期工作 CacheWise 中给出。

TraceLab 以真实场景数据为基础，为后续编码 Agent 的 LLM serving 系统研究提供了一份可直接复用的基线与工具集。

关键词#TraceLab #编码 Agent #LLM Serving #开源数据集

信源

↗Hacker News (AI)

← 全部资讯回到首页 →