Lullabeast：开源自主开发流水线，本地 27B 对比廉价云端

Lullabeast 是一个由社区开发者 BigBrainGoldfish 开源的「全自动开发流水线」，采用规划、执行、审阅三阶段 Agent 循环，配合一道道确定性关卡在阶段间推进，全程无需人工值守。作者用同一个 Conway's Game of Life 多团队版项目分别在本地和云端跑了一轮，给出了一组直观的对比数据，供关注自主编程与本地推理的开发者参考。

本地 vs 云端：同一项目两轮跑分

本地：48GB 显存改造版 RTX 4090，搭配 Qwen3.6-27B（Q8_0 量化），规划与执行 Agent 启用 MTP，审阅 Agent 不启用；0 次重试，总耗时 3 小时 27 分，API 成本为 0。
云端：规划用 GLM-5.2，执行与审阅用 Kimi-k2.7 Code；2 次重试，总耗时 2 小时 04 分，API 成本约 6.90 美元。

两组构建产物均托管在 lullabeast.ai/living-proof 上供对比。从数字看，云端在速度上有明显优势（快约 40%），本地则在零 API 成本上取胜。作者调侃称「想省 API 账单最好的办法就是买一块贵得离谱的 GPU」。需要说明的是，这一对比并不严谨，模型组合、量化方式、是否启用 MTP 都不对称，更接近个人实验而非 benchmark。

流水线核心：确定性关卡替代 Agent 自决

Lullabeast 的设计重点不是更大的模型，而是 Agent 之间的「门控」。作者观察到模型失败模式高度可预测：随机删文件、偏离规格、未跑测试就声称完成。因此每个阶段交接前都要通过一道确定性关卡（不含 LLM），依次检查文件清单、git diff、测试结果以及是否有不应删除的文件被删。这些关卡由 OpenClaw 运行时承载，Agent 本身无法自行推进流程；多次重试失败后会升级而不是无限循环。整个流程未接入任何前沿大模型，仅使用本地开源模型与廉价云端模型。

现状与局限

作者明确表示项目仍处早期 Beta，适用边界较窄：

在体量小、目标聚焦的 Web 应用上表现较稳；
项目变大变复杂时问题增多；
UI 密集型阶段在纯本地模型上最容易出状况；
Agent 生成的代码会在宿主机执行，作者建议在虚拟机中运行。

项目目前以开源方式放出，主要目的是找到「会在哪些地方崩」。如果想试用，可以从 GitHub 仓库和演示站入手。