OpenAI 发布 GeneBench-Pro:评估 AI 智能体的生物学研究能力
OpenAI 推出研究级基准 GeneBench-Pro,衡量 AI 智能体在复杂生物数据中导航、选择分析方法并做出研究…
OpenAI 近日在官方 X 平台宣布推出 GeneBench-Pro,一个面向研究场景的智能体评测基准。与常见的问答或代码生成测试不同,GeneBench-Pro 瞄准的是 AI 在真实计算生物学研究中必须面对的复杂任务:处理杂乱无章的生物数据、在多条可行路径中选择恰当的分析方法,并做出依赖专业判断的决策。
聚焦生物学研究的智能体能力
GeneBench-Pro 的核心定位是「研究级」评测。OpenAI 在公告中强调,这一基准衡量的是 AI 智能体能否完成真正计算生物学研究所依赖的工作流,而不仅仅是回答孤立的事实性问题。评测维度大致涵盖三个方面:
- 数据导航:在异构、噪声较大的生物数据集中定位关键信息;
- 路径选择:在多种可行的分析方法之间做出合理取舍;
- 判断决策:在缺乏明确标准答案的研究情境中给出专业推断。
这三类能力组合在一起,构成了所谓「更难一类的 AI 进步」——即从模式匹配走向开放式研究推理。
面向智能体,而非单轮问答
从命名与定位来看,GeneBench-Pro 延续了近年来「Agent Benchmark」的设计思路,即评测对象是多步执行、可调用工具、能自主规划任务的 AI 智能体,而非仅能完成单轮问答的模型。这意味着被测系统通常需要具备代码执行、文件操作、检索与多轮推理等综合能力。
将评测场景选在生物学领域,也反映出 OpenAI 对「AI for Science」方向持续投入的信号。过去一年中,从材料发现到基因组分析,AI 智能体在科学研究中的潜力已被广泛讨论,但缺乏标准化、可复现的评测基准一直是阻碍进展的因素之一。
当前披露信息有限
截至目前,OpenAI 仅通过一条 X 推文简要介绍了 GeneBench-Pro 的定位,并附带了外部链接,尚未公布具体的任务数量、评测数据集规模、基线模型得分或公开排行榜等细节。对于关心该基准的研究者与开发者而言,后续的关键信息包括:
- 完整任务定义与数据构成;
- 是否对外开放提交与自动评测;
- 现有主流模型在该基准上的表现对比。
这些信息的披露将决定 GeneBench-Pro 是否能真正成为生物计算领域被广泛采用的评测标准。
