普林斯顿 CEO-Bench：让 AI 当 500 天老板，多数模型亏到破产

普林斯顿大学最近发布了一项名为 CEO-Bench 的基准测试，让 AI 模型扮演「CEO」，在 500 天的模拟周期内独立运营一家虚拟 SaaS 初创公司，全程自主决策、无人干预。结果显示，14 位「硅基 CEO」中只有 3 个跑出了正收益，绝大多数在中途就把本金烧光，甚至直接宣告破产。

比赛规则：500 天、100 万美元、无人插手

CEO-Bench 的设定相当简洁：每个参赛模型拿到 100 万美元启动资金和零客户，目标是尽可能在 500 天内把钱赚回来。游戏结束时账面余额即为成绩；中途余额跌至零即判定破产、模拟终止。

测试环境的核心是一个 Python API，内含 34 个工具和 19 张数据库表。Agent 接入后可以写代码、用 SQL 查询数据库，并根据返回结果动态调整工作流。需要自主决策的变量覆盖了运营的几乎所有环节：

定价策略、广告投放渠道、研发预算分配
基础设施扩容、客服团队配置
通过模拟社交网络查看客户投诉、观察竞争对手动态

整个博弈环境刻意引入了强「不确定性」：广告投放后客户可能下周才转化；研发预算砸进去，产品质量提升要等几天才能体现。这意味着成本会迅速烧光，而回报却严重延迟。客户满意度、支付意愿、最低质量预期等关键变量全部「隐式」存在，无法直接读取，只能从退订率、工单数量和社交舆情中间接反推。同时外部环境也始终在动态变化——竞争对手会出招，市场偏好随时间漂移，并叠加宏观周期。

战报：5 个破产、3 个盈利、冠军翻了 47 倍

14 位参赛选手的表现相当惨烈。GLM 5.1、Claude Haiku 4.5、Gemini 3 Flash、DeepSeek V4 Pro、Grok 4.20 这 5 个模型甚至没能跑完 500 天，中途就因余额归零而「破产」离场。最终跑出正收益的 AI 只有 3 个：

Claude Fable 5：4715 万美元（冠军，本金翻 47 倍）
Claude Opus 4.8：2780 万美元
GPT-5.5：2130 万美元

冠军 Fable 5 是唯一在多次运行中收益都能超过初始资金的模型，且与第二名 Opus 4.8 拉开明显断层。不过报道也提到，Fable 5 在过程中多次触发安全拒绝，未能完全施展拳脚。

最大意外：第四名不是大模型

比冠军归属更耐人寻味的，是榜单的第四名。它既不是 Claude 系列，也不是 GPT 或 Gemini——而是一个纯 rule-based（基于规则）的启发式算法。它没有调用任何语言模型，定价、配额、层级全是脚本写死的固定规则。就是这样一个看似「阿甘式」的简单对手，反而压过了绝大多数 LLM 选手。

这一结果说明：在高度结构化、变量又存在强延迟反馈的商业决策任务中，当前的大模型并不具备稳定优势。一个精心设计的固定策略，在缺乏完整信息、必须靠「直觉」决断的长程博弈里，反而更具鲁棒性。换句话说，「画出那个矩阵的能力」——在复杂不确定性中做出连贯战略判断——目前依然更多属于人类 CEO，而非他们的硅基继任者。

CEO-Bench 把「AI 当老板」从概念变成了可量化、可复现的评测场景，也再次提示行业：Agent 的长程决策能力，距离真正可信赖的水平仍有不小差距。