Qpilot：让 AI 代理在真实浏览器中跑纯文本测试用例

近日在 Hacker News 上亮相的开源工具 Qpilot，主打「用 AI 代理直接跑纯文本测试用例」。用户只需粘贴一段自然语言写成的步骤描述，代理便会启动 Chrome，按步骤点击、输入、检查页面，并实时返回每一步的 pass、fail 或 warn 状态及证据截图。遇到验证码或 OTP 时，代理会暂停并交回人工处理，全程无需编写 Selenium 或 Playwright 脚本。

核心工作方式

Qpilot 把「阅读页面」的方式从传统的 CSS 选择器 / XPath 改为类人视觉：通过 ARIA 语义理解页面结构，从而在 UI 改动后仍能继续工作。这一设计是它与传统脚本化测试框架最大的区别，也是项目自我定位中强调的卖点。

测试用例：纯文本描述，每步给出 URL、凭据、操作与期望结果。
执行环境：本地启动 Chrome，浏览器内嵌页面访问 http://localhost:3847。
结果展示：每一步独立判定 pass / fail / warn，并附带截图证据。
OTP / 验证码：自动暂停，提示人工介入后继续。

模型与部署

底层依赖大语言模型驱动浏览器，模型由用户自行选择：

Anthropic：默认 claude-haiku-4-5，可通过 ANTHROPIC_API_KEY 环境变量或 .env.local 注入。
自定义端点：任何兼容 OpenAI /chat/completions 的服务均可接入，包括 Qwen、vLLM、Ollama、企业网关、OpenRouter 等，只需提供 base URL、API token 和 model id。

配置仅保存在 ~/.qpilot/config.json（文件权限 600），不会外传。自定义模式下模型必须支持 function/tool calling，代理才能完成对浏览器的驱动。

用法与功能

快速启动只需一行命令：

npx qpilot —— 首次运行会进入交互式 provider 配置向导。
npx qpilot config —— 随时重新设置模型。

支持两种运行粒度：

单个用例：直接在界面粘贴纯文本。
批量运行：通过「Choose folder」选中一个 .md 目录或上传单个 .md，勾选后批量执行，每条用例独立计时，并可在中途 Stop。最近 50 次运行记录在内存中持久化，重启即清空。

适用场景与局限

Qpilot 的目标用户是不写代码的 QA、业务分析师，以及希望用最低成本覆盖回归用例的小团队。对于需要精细断言、性能压测或跨浏览器矩阵的工程团队而言，它更像一种补充而非替代。运行记录仅保存在内存、且无跨设备同步，意味着它目前定位仍是单机本地工具，而非协作平台。

整体来看，Qpilot 是 AI Agent 在「GUI 操作自动化」这一细分场景的一次轻量化落地尝试，技术栈直接搭建在 Claude + Playwright 之上，降低了自然语言驱动浏览器的接入门槛。