桃子桃子快讯
返回首页
工具

开发者开源 110 项测试,专门「抓」AI 生成代码中的 API 集成错误

一位 Claude Code 重度用户开源了 110 项不依赖 LLM 的测试,用于捕捉 AI 生成代码在 Supaba…

2026.07.02 · 周四2 分钟阅读

一位长期使用 Claude Code 辅助编程的开发者近日在 Hacker News 开源了一套不依赖大模型的测试套件,专门用于捕捉 AI 自动生成代码在主流 API 集成场景中的典型错误。该项目目前收录了 110 项测试,覆盖 Supabase、Auth0 等常见 SaaS 接口。

为什么要做这件事

作者在项目说明中提到,随着 Claude Code 等 AI 编程助手在长任务中使用频率提升,当上下文(context)被压缩后,模型往往开始生成质量明显下降的「slop」代码,这一现象在涉及第三方 API 集成的场景下尤其突出。

他举例说明了几类典型问题:

  • 在使用 Supabase Auth 时,AI 生成的代码可能会允许客户端写入用户元数据(user metadata),从而带来越权风险。
  • 在 Next.js 组件中直接暴露服务角色密钥(service role key),导致密钥泄露到前端。

这些错误并不属于「代码能否运行」的范畴,而是安全与权限设计层面的隐患,常规的语法检查和单元测试难以发现。

测试集的设计思路

作者尝试过通过更精细的提示词(prompt)以及加载 skills.md 等方式让模型自行规避问题,但效果并不稳定。因此他选择了一条更直接的路:

  • 测试用例不调用任何 LLM,完全基于各服务的官方文档编写。
  • 每条测试对应一个具体的 API 集成反模式,作为静态检查或运行时校验手段。
  • 一旦 AI 生成的代码触发这些用例,即可在开发阶段被立即捕获和修复。

这种「让传统测试充当 AI 代码质检员」的做法,绕开了大模型自身判断的不确定性,用确定性的规则兜底模型输出的尾部风险。

局限与社区反响

不过,该项目目前的影响力非常有限:在 Hacker News 上的提交仅获得 1 个点赞、0 条评论,也未公布项目仓库的地址、测试覆盖率统计或与主流 AI 编程工具的集成方式。从已有信息看,它更像是一次个人经验沉淀,而非系统化的开源协作项目。

对于关注 AI 辅助编程工程化落地的团队而言,这个案例的启示在于:当模型生成能力提升到一定程度后,围绕其输出构建确定性校验层,可能比继续调优提示词更有效。但具体效果如何,仍需更多项目数据与社区反馈来验证。

信源