Mirrors：用生产 trace 打造可重放的 AI Agent 测试沙盒

Mirrors 是 Hacker News 上新近亮相的一款 Show HN 项目，目标很明确：把 AI Agent 在生产环境中的真实调用 trace 还原成一个独立的、可重放的测试环境，从而在改动上线前预演可能出现的回归与故障。

对于已经上线 AI Agent 的团队而言，最棘手的问题之一是：模型、prompt 或工具链的任何变动，都可能让原本稳定的流程突然失效，而测试环境又很难真实复现生产数据的分布。Mirrors 试图用「镜像世界」的思路解决这一痛点。

三步完成从 trace 到镜像

Mirrors 的工作流程分为三步：

摄取 trace：接入 ADK（Agent Development Kit）或可观测性平台的生产 trace，工具会自动识别其中的实体、重建数据结构，并发现 Agent 使用过的全部工具。
构建镜像：基于 trace 生成一个隔离的、可运行的副本，包含种子化的数据库与已绑定的工具；每一个工具还会根据与真实 trace 的匹配度被打分。
运行与评估：在「同一个世界」里反复回放 Agent，比对准确率、抓取回归，整个过程都不触碰线上系统。

镜像一旦建立，确定性是关键卖点：相同的 seed 与 prompt 即可得到字节级一致的世界，所有工具调用都作用在确定性镜像上，而非真实生产环境。官方示例展示了一个完整的航空客服链路——订单查询、用户资料、退款、改签——单个工具的回放耗时在 22–67 ms 之间，多数工具的复现成功率接近 100%，退款这种高风险动作则通过 llm-sim（LLM 模拟器）替代真实扣款。

接入方式与典型用法

Mirrors 通过 MCP（Model Context Protocol）接入 Claude 等 Agent 框架。用户只需在终端执行 claude mcp add --transport http mirrors https://api.runmirrors.com/mcp，再在 Claude 中运行 /mcp → mirrors → Authenticate via browser，通过浏览器登录即可，无需 API Key。

从产品定位看，Mirrors 主要面向以下几类需求：

任意 bug 都能按需复现：相同的 seed 与指令即可重现线上告警。
安全测试高风险流程：退款、删除、发送等操作不再打到真实系统。
上线前回归检测：用 golden case 锚定已知场景，每次构建自动打分。
量化评估变更效果：按工具维度给出覆盖率和准确率，让「更好」有据可依。

定价与开放程度

Mirrors 提供两层使用方式：

免费版：每月 60 分钟沙盒额度，可构建无限数量的镜像，包含确定性种子、应用内 playground 与社区支持。
团队版（Custom）：按团队规模定制，开放无限按需沙盒、公网 /v1 API、Workspace Key、SSO、Eval 套件、保真度报告以及优先支持与 onboarding。

从产品形态看，Mirrors 并非单一功能的脚本，而是一套面向 Agent 团队的测试基础设施：每个运行实例都是一个独立的镜像，按需启动、缩容到零并按分钟计费，开发者也可以通过版本化的 /v1 API 把镜像能力嵌入自有应用。对于正在为生产环境中的 Agent 寻找回归测试方案的团队来说，Mirrors 提供了一个门槛较低的入口——官方称从 trace 导入到第一份可重放镜像可在数分钟内完成，整个接入过程不到 60 秒。