桃子桃子 AI 快讯
返回首页
研究论文

OpenAI 发布 GeneBench-Pro:评估 AI 智能体的生物学研究能力

OpenAI 推出研究级基准 GeneBench-Pro,衡量 AI 智能体在复杂生物数据中导航、选择分析方法并做出研究…

2026.07.01 · 周三2 分钟阅读

OpenAI 近日在官方 X 平台宣布推出 GeneBench-Pro,一个面向研究场景的智能体评测基准。与常见的问答或代码生成测试不同,GeneBench-Pro 瞄准的是 AI 在真实计算生物学研究中必须面对的复杂任务:处理杂乱无章的生物数据、在多条可行路径中选择恰当的分析方法,并做出依赖专业判断的决策。

聚焦生物学研究的智能体能力

GeneBench-Pro 的核心定位是「研究级」评测。OpenAI 在公告中强调,这一基准衡量的是 AI 智能体能否完成真正计算生物学研究所依赖的工作流,而不仅仅是回答孤立的事实性问题。评测维度大致涵盖三个方面:

  • 数据导航:在异构、噪声较大的生物数据集中定位关键信息;
  • 路径选择:在多种可行的分析方法之间做出合理取舍;
  • 判断决策:在缺乏明确标准答案的研究情境中给出专业推断。

这三类能力组合在一起,构成了所谓「更难一类的 AI 进步」——即从模式匹配走向开放式研究推理。

面向智能体,而非单轮问答

从命名与定位来看,GeneBench-Pro 延续了近年来「Agent Benchmark」的设计思路,即评测对象是多步执行、可调用工具、能自主规划任务的 AI 智能体,而非仅能完成单轮问答的模型。这意味着被测系统通常需要具备代码执行、文件操作、检索与多轮推理等综合能力。

将评测场景选在生物学领域,也反映出 OpenAI 对「AI for Science」方向持续投入的信号。过去一年中,从材料发现到基因组分析,AI 智能体在科学研究中的潜力已被广泛讨论,但缺乏标准化、可复现的评测基准一直是阻碍进展的因素之一。

当前披露信息有限

截至目前,OpenAI 仅通过一条 X 推文简要介绍了 GeneBench-Pro 的定位,并附带了外部链接,尚未公布具体的任务数量、评测数据集规模、基线模型得分或公开排行榜等细节。对于关心该基准的研究者与开发者而言,后续的关键信息包括:

  • 完整任务定义与数据构成;
  • 是否对外开放提交与自动评测;
  • 现有主流模型在该基准上的表现对比。

这些信息的披露将决定 GeneBench-Pro 是否能真正成为生物计算领域被广泛采用的评测标准。

信源