桃子桃子快讯
返回首页
研究论文

OpenAI 发布 GeneBench-Pro 基准,衡量 AI 代理生物数据判断力

OpenAI 推出 GeneBench-Pro 基准,评估 AI 代理在杂乱生物数据中的分析路径选择与判断决策能力。

2026.07.01 · 周三2 分钟阅读

OpenAI 在 X 平台宣布推出 GeneBench-Pro,这是一项面向研究场景的新基准,专注于评估 AI 代理在生物数据分析中的真实表现——尤其是在面对杂乱数据、需要在多条路径中抉择并做出判断时所展现的能力。

瞄准「更难」的 AI 进展

OpenAI 在博文中表示,GeneBench-Pro 关注的是一种「更难」的 AI 进展:智能体能否在真实生物数据环境下自主选择分析路径,并在关键节点做出正确的判断。与传统封闭式问答类基准不同,新基准更接近真实计算生物学研究的工作方式,强调过程而非单一答案的对错。

为 AI 代理而非纯语言任务而设计

GeneBench-Pro 将评测的重点放在 agent 能力上,覆盖数据导航、工具选择与决策推理等多个维度。OpenAI 意在衡量模型在「做研究」层面的能力,而非仅限于单一任务的正确率,这与当前 AI 代理方向的演进趋势相吻合,也填补了公开评测标准在该垂类的部分空白。

对垂直领域评测的意义

生物学数据普遍具有高噪声、结构复杂、跨工具的工作流特征,是检验 AI 代理规划与判断能力的典型场景。GeneBench-Pro 的出现,为 AI 在科学推理领域的能力比较提供了一条公共基线,使研究者与开发者能在可复现的条件下横向对比不同模型的表现,进而推动该方向的迭代改进。

后续与参考

OpenAI 已在原帖中附上 GeneBench-Pro 的相关链接,感兴趣的开发者与研究者可通过该链接进一步了解基准的具体设计、任务构成与使用方式。作为头部厂商在科学推理方向投入的一部分,GeneBench-Pro 的发布也反映出主流 AI 公司对 agent 评测标准化议题的持续关注。

信源