桃子桃子 AI 快讯
返回首页
研究论文

普林斯顿 CEO-Bench:让 AI 当 500 天老板,多数模型亏到破产

普林斯顿推出 CEO-Bench,让 AI 运营虚拟 SaaS 公司 500 天;14 个参赛模型中仅 3 个跑出正收益…

2026.06.29 · 周一3 分钟阅读评分 61
评分细项加权总分 61
重要性
58
新颖性
70
影响面
55
可信度
55
实质性
72

普林斯顿大学最近发布了一项名为 CEO-Bench 的基准测试,让 AI 模型扮演「CEO」,在 500 天的模拟周期内独立运营一家虚拟 SaaS 初创公司,全程自主决策、无人干预。结果显示,14 位「硅基 CEO」中只有 3 个跑出了正收益,绝大多数在中途就把本金烧光,甚至直接宣告破产。

比赛规则:500 天、100 万美元、无人插手

CEO-Bench 的设定相当简洁:每个参赛模型拿到 100 万美元启动资金和零客户,目标是尽可能在 500 天内把钱赚回来。游戏结束时账面余额即为成绩;中途余额跌至零即判定破产、模拟终止。

测试环境的核心是一个 Python API,内含 34 个工具和 19 张数据库表。Agent 接入后可以写代码、用 SQL 查询数据库,并根据返回结果动态调整工作流。需要自主决策的变量覆盖了运营的几乎所有环节:

  • 定价策略、广告投放渠道、研发预算分配
  • 基础设施扩容、客服团队配置
  • 通过模拟社交网络查看客户投诉、观察竞争对手动态

整个博弈环境刻意引入了强「不确定性」:广告投放后客户可能下周才转化;研发预算砸进去,产品质量提升要等几天才能体现。这意味着成本会迅速烧光,而回报却严重延迟。客户满意度、支付意愿、最低质量预期等关键变量全部「隐式」存在,无法直接读取,只能从退订率、工单数量和社交舆情中间接反推。同时外部环境也始终在动态变化——竞争对手会出招,市场偏好随时间漂移,并叠加宏观周期。

战报:5 个破产、3 个盈利、冠军翻了 47 倍

14 位参赛选手的表现相当惨烈。GLM 5.1、Claude Haiku 4.5、Gemini 3 Flash、DeepSeek V4 Pro、Grok 4.20 这 5 个模型甚至没能跑完 500 天,中途就因余额归零而「破产」离场。最终跑出正收益的 AI 只有 3 个:

  • Claude Fable 5:4715 万美元(冠军,本金翻 47 倍)
  • Claude Opus 4.8:2780 万美元
  • GPT-5.5:2130 万美元

冠军 Fable 5 是唯一在多次运行中收益都能超过初始资金的模型,且与第二名 Opus 4.8 拉开明显断层。不过报道也提到,Fable 5 在过程中多次触发安全拒绝,未能完全施展拳脚。

最大意外:第四名不是大模型

比冠军归属更耐人寻味的,是榜单的第四名。它既不是 Claude 系列,也不是 GPT 或 Gemini——而是一个纯 rule-based(基于规则)的启发式算法。它没有调用任何语言模型,定价、配额、层级全是脚本写死的固定规则。就是这样一个看似「阿甘式」的简单对手,反而压过了绝大多数 LLM 选手。

这一结果说明:在高度结构化、变量又存在强延迟反馈的商业决策任务中,当前的大模型并不具备稳定优势。一个精心设计的固定策略,在缺乏完整信息、必须靠「直觉」决断的长程博弈里,反而更具鲁棒性。换句话说,「画出那个矩阵的能力」——在复杂不确定性中做出连贯战略判断——目前依然更多属于人类 CEO,而非他们的硅基继任者。

CEO-Bench 把「AI 当老板」从概念变成了可量化、可复现的评测场景,也再次提示行业:Agent 的长程决策能力,距离真正可信赖的水平仍有不小差距。

信源