工具
Lullabeast:开源自主开发流水线,本地 27B 对比廉价云端
社区开发者开源规划-执行-审阅三段式 AI 开发流水线,用同一项目对比本地 27B 与廉价云端模型的耗时和成本。
2026.06.30 · 周二约 3 分钟阅读
Lullabeast 是一个由社区开发者 BigBrainGoldfish 开源的「全自动开发流水线」,采用规划、执行、审阅三阶段 Agent 循环,配合一道道确定性关卡在阶段间推进,全程无需人工值守。作者用同一个 Conway's Game of Life 多团队版项目分别在本地和云端跑了一轮,给出了一组直观的对比数据,供关注自主编程与本地推理的开发者参考。
本地 vs 云端:同一项目两轮跑分
- 本地:48GB 显存改造版 RTX 4090,搭配 Qwen3.6-27B(Q8_0 量化),规划与执行 Agent 启用 MTP,审阅 Agent 不启用;0 次重试,总耗时 3 小时 27 分,API 成本为 0。
- 云端:规划用 GLM-5.2,执行与审阅用 Kimi-k2.7 Code;2 次重试,总耗时 2 小时 04 分,API 成本约 6.90 美元。
两组构建产物均托管在 lullabeast.ai/living-proof 上供对比。从数字看,云端在速度上有明显优势(快约 40%),本地则在零 API 成本上取胜。作者调侃称「想省 API 账单最好的办法就是买一块贵得离谱的 GPU」。需要说明的是,这一对比并不严谨,模型组合、量化方式、是否启用 MTP 都不对称,更接近个人实验而非 benchmark。
流水线核心:确定性关卡替代 Agent 自决
Lullabeast 的设计重点不是更大的模型,而是 Agent 之间的「门控」。作者观察到模型失败模式高度可预测:随机删文件、偏离规格、未跑测试就声称完成。因此每个阶段交接前都要通过一道确定性关卡(不含 LLM),依次检查文件清单、git diff、测试结果以及是否有不应删除的文件被删。这些关卡由 OpenClaw 运行时承载,Agent 本身无法自行推进流程;多次重试失败后会升级而不是无限循环。整个流程未接入任何前沿大模型,仅使用本地开源模型与廉价云端模型。
现状与局限
作者明确表示项目仍处早期 Beta,适用边界较窄:
- 在体量小、目标聚焦的 Web 应用上表现较稳;
- 项目变大变复杂时问题增多;
- UI 密集型阶段在纯本地模型上最容易出状况;
- Agent 生成的代码会在宿主机执行,作者建议在虚拟机中运行。
项目目前以开源方式放出,主要目的是找到「会在哪些地方崩」。如果想试用,可以从 GitHub 仓库和演示站入手。
