OpenAI 发布 GeneBench-Pro：评估 AI 智能体的生物学研究能力

OpenAI 近日在官方 X 平台宣布推出 GeneBench-Pro，一个面向研究场景的智能体评测基准。与常见的问答或代码生成测试不同，GeneBench-Pro 瞄准的是 AI 在真实计算生物学研究中必须面对的复杂任务：处理杂乱无章的生物数据、在多条可行路径中选择恰当的分析方法，并做出依赖专业判断的决策。

聚焦生物学研究的智能体能力

GeneBench-Pro 的核心定位是「研究级」评测。OpenAI 在公告中强调，这一基准衡量的是 AI 智能体能否完成真正计算生物学研究所依赖的工作流，而不仅仅是回答孤立的事实性问题。评测维度大致涵盖三个方面：

数据导航：在异构、噪声较大的生物数据集中定位关键信息；
路径选择：在多种可行的分析方法之间做出合理取舍；
判断决策：在缺乏明确标准答案的研究情境中给出专业推断。

这三类能力组合在一起，构成了所谓「更难一类的 AI 进步」——即从模式匹配走向开放式研究推理。

面向智能体，而非单轮问答

从命名与定位来看，GeneBench-Pro 延续了近年来「Agent Benchmark」的设计思路，即评测对象是多步执行、可调用工具、能自主规划任务的 AI 智能体，而非仅能完成单轮问答的模型。这意味着被测系统通常需要具备代码执行、文件操作、检索与多轮推理等综合能力。

将评测场景选在生物学领域，也反映出 OpenAI 对「AI for Science」方向持续投入的信号。过去一年中，从材料发现到基因组分析，AI 智能体在科学研究中的潜力已被广泛讨论，但缺乏标准化、可复现的评测基准一直是阻碍进展的因素之一。

当前披露信息有限

截至目前，OpenAI 仅通过一条 X 推文简要介绍了 GeneBench-Pro 的定位，并附带了外部链接，尚未公布具体的任务数量、评测数据集规模、基线模型得分或公开排行榜等细节。对于关心该基准的研究者与开发者而言，后续的关键信息包括：

完整任务定义与数据构成；
是否对外开放提交与自动评测；
现有主流模型在该基准上的表现对比。

这些信息的披露将决定 GeneBench-Pro 是否能真正成为生物计算领域被广泛采用的评测标准。