多项基准与研究显示,当前最强 AI 智能体在长链路多步任务中自主完成率仅约 30%,根源在于可靠性按乘法递减。
把当前最强的 AI 智能体放进一家「模拟软件公司」,给它聊天工具、项目看板、代码仓库和 175 项日常办公任务,它能完全自主完成的比例只有 30% 左右。这不是老模型,也不是笔误——它在卡内基梅隆的 TheAgentCompany 基准上跑出 30.3%,加上「做到一半」的给分才爬到 39%。与此同时,每一次智能体发布会上的演示都干净漂亮:订机票、报销、修 bug,一气呵成。差距在于,演示是「一次跑通」,而企业要的是「第 1000 次依然能跑通」。
这个 30% 不是孤例。Salesforce 自建的 CRMArena-Pro 基准专门考察智能体处理真实销售与服务工作的能力:单步任务上最佳模型完成率约 58%,一旦任务变成「需要反问澄清信息」的常规多轮对话,就掉到约 35%。更值得注意的是,这些智能体在被明确要求「谨慎处理」之前,几乎从不拒绝吐出机密数据;而「谨慎」指令又会进一步拉低完成率。这份证据来自供应商自身,因而很难被忽视。
Sierra 的 tau-bench 把智能体放到客服席位,让它按公司政策处理多步对话。表现最好的智能体在零售任务上的平均得分约 61%,听起来勉强可用。但研究者追问了一个更尖锐的问题:同一项任务连续做 8 次(对应 8 个不同客户),能否每次都对?结果骤降到 25% 以下。三次里有两次成功,演示很漂亮;第三次失败的那位客户带来的就是退款、争议或投诉。
为什么单步可用不等于可用员工?答案就是乘法。假设某智能体每一步的可靠性是 95%——这已经高于多数模型的实际表现——把 20 步串成一个任务(比如「订出差行程并报销」),整条链路全部正确的概率就是 0.95 的 20 次方,约 36%;10 步也只有 60%。因为长任务本质上是一串子任务,其中任何一步失败,整件事就失败。可靠性是复合的,而且复合方向向下。
牛津大学的 Toby Ord 在 2025 年论文《Is there a half-life for the success rates of AI agents?》中给出了这一现象的名字:智能体的成功率随任务长度呈指数衰减,就像放射性物质一样有「半衰期」。他基于基准数据发现,每多要求一个「9」的可靠性,可信的任務長度就要縮短約十倍。能在 1 小时任务上达到 50% 成功的智能体,在需要 80%–90% 成功率的场景下,可信的任務長度會短得多。演示活在 50% 的世界,企业活 99% 的世界,那是更小的一摊活。
研究机构 METR 用「50% 时间视野」衡量智能体——即智能体能有一半概率自主完成的、对人类而言耗时多久的任务。这个数字常被引用,因为它确实在以几个月翻倍的速度增长,两年里从几分钟攀升到几个小时。但更关键的是旁边那条线:80% 时间视野——四次里有三次能成的任务长度——只有 50% 那条的约五分之一。在 METR 数据里,人类 4 分钟以内能做完的任务,模型几乎全过;而当任务拉到人类需要更长时间完成时,成功率便急剧跌落。
把这些证据转化为可执行原则,可以归纳为五条:
简而言之:智能体在窄而短的监督任务上确实已经能干活,在开放多步任务上尚不能稳定胜任,而原因写在了乘法里,不是一个下个月会被修掉的 bug。