桃子桃子 AI 快讯
返回首页
研究论文

OSWorld2.0 发布:长链路真实任务下的电脑操作 Agent 基准

研究者在 X 平台分享 OSWorld2.0 论文,面向长链路真实电脑任务评估 AI Agent 能力。

2026.07.01 · 周三2 分钟阅读

日前,X 平台上一条仅含标题与论文链接的推文引发关注,主题为「OSWorld2.0: Benchmarking Computer Use Agents on Long-Horizon Real-World Tasks」。该工作提出了一项专门用于评估电脑操作 Agent 在长链路真实任务中表现的新基准,是 OSWorld 系列基准的升级版本。

基准定位

OSWorld2.0 聚焦「长链路」(long-horizon)任务场景。与单步或短链路的操作评测不同,长链路任务要求 AI Agent 跨越多个应用、完成多轮交互,并自行管理与维护中间状态,更贴近真实办公与日常电脑使用情境。这类任务对 Agent 的规划能力、错误恢复能力以及跨软件协同能力提出了更高要求。

行业背景

电脑操作 Agent 是当前大模型应用落地的前沿方向之一。Anthropic、OpenAI、Google 等厂商已先后推出相关能力(如 Computer Use、Operator 等),但业界一直缺乏系统化、可复现的长链路评测基准。OSWorld2.0 的推出意在填补这一缺口,为不同 Agent 系统的横向对比提供统一参照。

评估维度参考

原始推文未披露具体评分方法与测试结果,但参照该类基准的常见设计,OSWorld2.0 预计会考察以下维度:

  • 任务完成率与最终状态正确性
  • 完成任务的步骤数与效率
  • 中途错误后的恢复与重试能力
  • 跨平台兼容性(Windows、macOS、Linux)
  • 覆盖的应用范围与操作复杂度

信息现状

需要指出的是,本次推文仅提供了论文标题与链接,论文作者、所属机构、测试集规模、具体评分协议以及主流 Agent 的得分表现等关键信息均未在原文中呈现。读者需通过论文链接获取完整内容。从已有信息来看,OSWorld2.0 有望成为电脑操作 Agent 领域更严苛、更贴近真实场景的能力标尺。

信源