开发者开源 110 项测试，专门「抓」AI 生成代码中的 API 集成错误

一位长期使用 Claude Code 辅助编程的开发者近日在 Hacker News 开源了一套不依赖大模型的测试套件，专门用于捕捉 AI 自动生成代码在主流 API 集成场景中的典型错误。该项目目前收录了 110 项测试，覆盖 Supabase、Auth0 等常见 SaaS 接口。

为什么要做这件事

作者在项目说明中提到，随着 Claude Code 等 AI 编程助手在长任务中使用频率提升，当上下文（context）被压缩后，模型往往开始生成质量明显下降的「slop」代码，这一现象在涉及第三方 API 集成的场景下尤其突出。

他举例说明了几类典型问题：

这些错误并不属于「代码能否运行」的范畴，而是安全与权限设计层面的隐患，常规的语法检查和单元测试难以发现。

作者尝试过通过更精细的提示词（prompt）以及加载 skills.md 等方式让模型自行规避问题，但效果并不稳定。因此他选择了一条更直接的路：

这种「让传统测试充当 AI 代码质检员」的做法，绕开了大模型自身判断的不确定性，用确定性的规则兜底模型输出的尾部风险。

不过，该项目目前的影响力非常有限：在 Hacker News 上的提交仅获得 1 个点赞、0 条评论，也未公布项目仓库的地址、测试覆盖率统计或与主流 AI 编程工具的集成方式。从已有信息看，它更像是一次个人经验沉淀，而非系统化的开源协作项目。

对于关注 AI 辅助编程工程化落地的团队而言，这个案例的启示在于：当模型生成能力提升到一定程度后，围绕其输出构建确定性校验层，可能比继续调优提示词更有效。但具体效果如何，仍需更多项目数据与社区反馈来验证。