OpenAI 发布 GeneBench-Pro 基准，衡量 AI 代理生物数据判断力

OpenAI 在 X 平台宣布推出 GeneBench-Pro，这是一项面向研究场景的新基准，专注于评估 AI 代理在生物数据分析中的真实表现——尤其是在面对杂乱数据、需要在多条路径中抉择并做出判断时所展现的能力。

瞄准「更难」的 AI 进展

OpenAI 在博文中表示，GeneBench-Pro 关注的是一种「更难」的 AI 进展：智能体能否在真实生物数据环境下自主选择分析路径，并在关键节点做出正确的判断。与传统封闭式问答类基准不同，新基准更接近真实计算生物学研究的工作方式，强调过程而非单一答案的对错。

GeneBench-Pro 将评测的重点放在 agent 能力上，覆盖数据导航、工具选择与决策推理等多个维度。OpenAI 意在衡量模型在「做研究」层面的能力，而非仅限于单一任务的正确率，这与当前 AI 代理方向的演进趋势相吻合，也填补了公开评测标准在该垂类的部分空白。

生物学数据普遍具有高噪声、结构复杂、跨工具的工作流特征，是检验 AI 代理规划与判断能力的典型场景。GeneBench-Pro 的出现，为 AI 在科学推理领域的能力比较提供了一条公共基线，使研究者与开发者能在可复现的条件下横向对比不同模型的表现，进而推动该方向的迭代改进。

OpenAI 已在原帖中附上 GeneBench-Pro 的相关链接，感兴趣的开发者与研究者可通过该链接进一步了解基准的具体设计、任务构成与使用方式。作为头部厂商在科学推理方向投入的一部分，GeneBench-Pro 的发布也反映出主流 AI 公司对 agent 评测标准化议题的持续关注。