桃子桃子快讯
返回首页
工具

Qpilot:让 AI 代理在真实浏览器中跑纯文本测试用例

开源工具 Qpilot 可将纯文本测试用例交给 AI 代理,自动在 Chrome 中执行步骤并返回结果。

2026.07.04 · 周六3 分钟阅读

近日在 Hacker News 上亮相的开源工具 Qpilot,主打「用 AI 代理直接跑纯文本测试用例」。用户只需粘贴一段自然语言写成的步骤描述,代理便会启动 Chrome,按步骤点击、输入、检查页面,并实时返回每一步的 pass、fail 或 warn 状态及证据截图。遇到验证码或 OTP 时,代理会暂停并交回人工处理,全程无需编写 Selenium 或 Playwright 脚本。

核心工作方式

Qpilot 把「阅读页面」的方式从传统的 CSS 选择器 / XPath 改为类人视觉:通过 ARIA 语义理解页面结构,从而在 UI 改动后仍能继续工作。这一设计是它与传统脚本化测试框架最大的区别,也是项目自我定位中强调的卖点。

  • 测试用例:纯文本描述,每步给出 URL、凭据、操作与期望结果。
  • 执行环境:本地启动 Chrome,浏览器内嵌页面访问 http://localhost:3847
  • 结果展示:每一步独立判定 pass / fail / warn,并附带截图证据。
  • OTP / 验证码:自动暂停,提示人工介入后继续。

模型与部署

底层依赖大语言模型驱动浏览器,模型由用户自行选择:

  • Anthropic:默认 claude-haiku-4-5,可通过 ANTHROPIC_API_KEY 环境变量或 .env.local 注入。
  • 自定义端点:任何兼容 OpenAI /chat/completions 的服务均可接入,包括 Qwen、vLLM、Ollama、企业网关、OpenRouter 等,只需提供 base URL、API token 和 model id。

配置仅保存在 ~/.qpilot/config.json(文件权限 600),不会外传。自定义模式下模型必须支持 function/tool calling,代理才能完成对浏览器的驱动。

用法与功能

快速启动只需一行命令:

  • npx qpilot —— 首次运行会进入交互式 provider 配置向导。
  • npx qpilot config —— 随时重新设置模型。

支持两种运行粒度:

  • 单个用例:直接在界面粘贴纯文本。
  • 批量运行:通过「Choose folder」选中一个 .md 目录或上传单个 .md,勾选后批量执行,每条用例独立计时,并可在中途 Stop。最近 50 次运行记录在内存中持久化,重启即清空。

适用场景与局限

Qpilot 的目标用户是不写代码的 QA、业务分析师,以及希望用最低成本覆盖回归用例的小团队。对于需要精细断言、性能压测或跨浏览器矩阵的工程团队而言,它更像一种补充而非替代。运行记录仅保存在内存、且无跨设备同步,意味着它目前定位仍是单机本地工具,而非协作平台。

整体来看,Qpilot 是 AI Agent 在「GUI 操作自动化」这一细分场景的一次轻量化落地尝试,技术栈直接搭建在 Claude + Playwright 之上,降低了自然语言驱动浏览器的接入门槛。

信源