AI 智能体真实任务仅完成约三分之一，可靠性随步骤指数衰减

把当前最强的 AI 智能体放进一家「模拟软件公司」，给它聊天工具、项目看板、代码仓库和 175 项日常办公任务，它能完全自主完成的比例只有 30% 左右。这不是老模型，也不是笔误——它在卡内基梅隆的 TheAgentCompany 基准上跑出 30.3%，加上「做到一半」的给分才爬到 39%。与此同时，每一次智能体发布会上的演示都干净漂亮：订机票、报销、修 bug，一气呵成。差距在于，演示是「一次跑通」，而企业要的是「第 1000 次依然能跑通」。

基准数据：单步可用，链路崩塌

这个 30% 不是孤例。Salesforce 自建的 CRMArena-Pro 基准专门考察智能体处理真实销售与服务工作的能力：单步任务上最佳模型完成率约 58%，一旦任务变成「需要反问澄清信息」的常规多轮对话，就掉到约 35%。更值得注意的是，这些智能体在被明确要求「谨慎处理」之前，几乎从不拒绝吐出机密数据；而「谨慎」指令又会进一步拉低完成率。这份证据来自供应商自身，因而很难被忽视。

Sierra 的 tau-bench 把智能体放到客服席位，让它按公司政策处理多步对话。表现最好的智能体在零售任务上的平均得分约 61%，听起来勉强可用。但研究者追问了一个更尖锐的问题：同一项任务连续做 8 次（对应 8 个不同客户），能否每次都对？结果骤降到 25% 以下。三次里有两次成功，演示很漂亮；第三次失败的那位客户带来的就是退款、争议或投诉。

数学不会骗人：可靠性按乘法递减

为什么单步可用不等于可用员工？答案就是乘法。假设某智能体每一步的可靠性是 95%——这已经高于多数模型的实际表现——把 20 步串成一个任务（比如「订出差行程并报销」），整条链路全部正确的概率就是 0.95 的 20 次方，约 36%；10 步也只有 60%。因为长任务本质上是一串子任务，其中任何一步失败，整件事就失败。可靠性是复合的，而且复合方向向下。

牛津大学的 Toby Ord 在 2025 年论文《Is there a half-life for the success rates of AI agents?》中给出了这一现象的名字：智能体的成功率随任务长度呈指数衰减，就像放射性物质一样有「半衰期」。他基于基准数据发现，每多要求一个「9」的可靠性，可信的任務長度就要縮短約十倍。能在 1 小时任务上达到 50% 成功的智能体，在需要 80%–90% 成功率的场景下，可信的任務長度會短得多。演示活在 50% 的世界，企业活 99% 的世界，那是更小的一摊活。

METR 测出的「悬崖」

研究机构 METR 用「50% 时间视野」衡量智能体——即智能体能有一半概率自主完成的、对人类而言耗时多久的任务。这个数字常被引用，因为它确实在以几个月翻倍的速度增长，两年里从几分钟攀升到几个小时。但更关键的是旁边那条线：80% 时间视野——四次里有三次能成的任务长度——只有 50% 那条的约五分之一。在 METR 数据里，人类 4 分钟以内能做完的任务，模型几乎全过；而当任务拉到人类需要更长时间完成时，成功率便急剧跌落。

落地建议：把智能体关进窄处

把这些证据转化为可执行原则，可以归纳为五条：

把范围做窄、长度做短。一个工具、一个定义明确的任务、几步之内，是智能体已经在赚钱的地方。
在关键节点放人。不必逐 token 盯看，但在花钱或不可撤销的环节设审批：智能体起草，人来拍板。
让失败便宜、可逆。让智能体跑在沙盒、草稿、提案上，绝不直接触达生产数据库或对外发送。
加一道复核。一轮校验能换回不少可靠性，裸的单次自主执行是最弱的组合。
别迷信排行榜。最亮眼的成绩往往来自你买不到的多模型集成，而不是你真正会部署的那个产品。

简而言之：智能体在窄而短的监督任务上确实已经能干活，在开放多步任务上尚不能稳定胜任，而原因写在了乘法里，不是一个下个月会被修掉的 bug。

基准数据：单步可用，链路崩塌

数学不会骗人：可靠性按乘法递减

METR 测出的「悬崖」

落地建议：把智能体关进窄处

把这些证据转化为可执行原则，可以归纳为五条：

把范围做窄、长度做短。一个工具、一个定义明确的任务、几步之内，是智能体已经在赚钱的地方。

在关键节点放人。不必逐 token 盯看，但在花钱或不可撤销的环节设审批：智能体起草，人来拍板。

让失败便宜、可逆。让智能体跑在沙盒、草稿、提案上，绝不直接触达生产数据库或对外发送。

加一道复核。一轮校验能换回不少可靠性，裸的单次自主执行是最弱的组合。

别迷信排行榜。最亮眼的成绩往往来自你买不到的多模型集成，而不是你真正会部署的那个产品。

简而言之：智能体在窄而短的监督任务上确实已经能干活，在开放多步任务上尚不能稳定胜任，而原因写在了乘法里，不是一个下个月会被修掉的 bug。