桃子桃子快讯
返回首页
工具

Mirrors:用生产 trace 打造可重放的 AI Agent 测试沙盒

Show HN 项目 Mirrors 把生产环境的调用 trace 转成隔离的可重放镜像,让开发者在不触碰线上系统的前提…

2026.07.03 · 周五4 分钟阅读

Mirrors 是 Hacker News 上新近亮相的一款 Show HN 项目,目标很明确:把 AI Agent 在生产环境中的真实调用 trace 还原成一个独立的、可重放的测试环境,从而在改动上线前预演可能出现的回归与故障。

对于已经上线 AI Agent 的团队而言,最棘手的问题之一是:模型、prompt 或工具链的任何变动,都可能让原本稳定的流程突然失效,而测试环境又很难真实复现生产数据的分布。Mirrors 试图用「镜像世界」的思路解决这一痛点。

三步完成从 trace 到镜像

Mirrors 的工作流程分为三步:

  • 摄取 trace:接入 ADK(Agent Development Kit)或可观测性平台的生产 trace,工具会自动识别其中的实体、重建数据结构,并发现 Agent 使用过的全部工具。
  • 构建镜像:基于 trace 生成一个隔离的、可运行的副本,包含种子化的数据库与已绑定的工具;每一个工具还会根据与真实 trace 的匹配度被打分。
  • 运行与评估:在「同一个世界」里反复回放 Agent,比对准确率、抓取回归,整个过程都不触碰线上系统。

镜像一旦建立,确定性是关键卖点:相同的 seed 与 prompt 即可得到字节级一致的世界,所有工具调用都作用在确定性镜像上,而非真实生产环境。官方示例展示了一个完整的航空客服链路——订单查询、用户资料、退款、改签——单个工具的回放耗时在 22–67 ms 之间,多数工具的复现成功率接近 100%,退款这种高风险动作则通过 llm-sim(LLM 模拟器)替代真实扣款。

接入方式与典型用法

Mirrors 通过 MCP(Model Context Protocol)接入 Claude 等 Agent 框架。用户只需在终端执行 claude mcp add --transport http mirrors https://api.runmirrors.com/mcp,再在 Claude 中运行 /mcp → mirrors → Authenticate via browser,通过浏览器登录即可,无需 API Key。

从产品定位看,Mirrors 主要面向以下几类需求:

  • 任意 bug 都能按需复现:相同的 seed 与指令即可重现线上告警。
  • 安全测试高风险流程:退款、删除、发送等操作不再打到真实系统。
  • 上线前回归检测:用 golden case 锚定已知场景,每次构建自动打分。
  • 量化评估变更效果:按工具维度给出覆盖率和准确率,让「更好」有据可依。

定价与开放程度

Mirrors 提供两层使用方式:

  • 免费版:每月 60 分钟沙盒额度,可构建无限数量的镜像,包含确定性种子、应用内 playground 与社区支持。
  • 团队版(Custom):按团队规模定制,开放无限按需沙盒、公网 /v1 API、Workspace Key、SSO、Eval 套件、保真度报告以及优先支持与 onboarding。

从产品形态看,Mirrors 并非单一功能的脚本,而是一套面向 Agent 团队的测试基础设施:每个运行实例都是一个独立的镜像,按需启动、缩容到零并按分钟计费,开发者也可以通过版本化的 /v1 API 把镜像能力嵌入自有应用。对于正在为生产环境中的 Agent 寻找回归测试方案的团队来说,Mirrors 提供了一个门槛较低的入口——官方称从 trace 导入到第一份可重放镜像可在数分钟内完成,整个接入过程不到 60 秒。

信源