OSWorld2.0 发布：长链路真实任务下的电脑操作 Agent 基准

日前，X 平台上一条仅含标题与论文链接的推文引发关注，主题为「OSWorld2.0: Benchmarking Computer Use Agents on Long-Horizon Real-World Tasks」。该工作提出了一项专门用于评估电脑操作 Agent 在长链路真实任务中表现的新基准，是 OSWorld 系列基准的升级版本。

基准定位

OSWorld2.0 聚焦「长链路」（long-horizon）任务场景。与单步或短链路的操作评测不同，长链路任务要求 AI Agent 跨越多个应用、完成多轮交互，并自行管理与维护中间状态，更贴近真实办公与日常电脑使用情境。这类任务对 Agent 的规划能力、错误恢复能力以及跨软件协同能力提出了更高要求。

行业背景

电脑操作 Agent 是当前大模型应用落地的前沿方向之一。Anthropic、OpenAI、Google 等厂商已先后推出相关能力（如 Computer Use、Operator 等），但业界一直缺乏系统化、可复现的长链路评测基准。OSWorld2.0 的推出意在填补这一缺口，为不同 Agent 系统的横向对比提供统一参照。

评估维度参考

原始推文未披露具体评分方法与测试结果，但参照该类基准的常见设计，OSWorld2.0 预计会考察以下维度：

任务完成率与最终状态正确性
完成任务的步骤数与效率
中途错误后的恢复与重试能力
跨平台兼容性（Windows、macOS、Linux）
覆盖的应用范围与操作复杂度

信息现状

需要指出的是，本次推文仅提供了论文标题与链接，论文作者、所属机构、测试集规模、具体评分协议以及主流 Agent 的得分表现等关键信息均未在原文中呈现。读者需通过论文链接获取完整内容。从已有信息来看，OSWorld2.0 有望成为电脑操作 Agent 领域更严苛、更贴近真实场景的能力标尺。