涌生智能联合上海AI实验室发布 ProtoPilot,第三方测评超 GPT-5.6 Sol
华大智造子公司涌生智能与上海AI实验室联合发布 ProtoPilot 多智能体系统与 BioLab Bench 评测体系…
涌生智能(华大智造子公司)与上海人工智能实验室联合发布两项成果:自进化多智能体系统 ProtoPilot,以及生命科学领域首个端到端 Agent 评测体系 BioLab Bench。在第三方 benchmark ProtocolQA 上,ProtoPilot 开放式问答得分 52.38%,逼近人类专家水平的 54%,并超过 OpenAI 当前旗舰模型 GPT-5.6 Sol 的 43.5%。这意味着 AI 在生命科学领域的应用,正从「出方案」向「出结果」的关键节点推进。
行业卡点:从方案到执行之间还差一整条链
过去几年,大模型在生命科学中的应用主要集中在文献阅读、序列比对、蛋白质结构预测等「理解」类任务上。OpenAI 推出 GPT-Rosalind 专攻药物发现与基因组学,谷歌推出 Co-Scientist 和 ERA,Anthropic 上线 Claude Science 工作台——各家前沿 AI 厂商都瞄准了让模型「走进实验室」的方向。
然而现实是:当前顶尖 AI 能写出看起来专业的实验方案,却无法保证方案在真实设备上跑通。ProtoPilot 论文拆解了这一鸿沟——一个实验意图要转化为湿实验操作,需要穿过五层:科学意图、Protocol(方案设计)、SOP(标准操作流程)、设备代码、物理执行与反馈修正。每一层都涉及不同的模糊性与硬约束:Protocol 要表达生物逻辑与样本谱系,SOP 要落到体积、浓度、温控条件,设备代码要绑定 deck 布局、孔位映射与厂商 SDK 指令。
OpenAI 与 Ginkgo Bioworks 的合作即为典型案例:GPT-5 负责实验设计与参数探索,但真正在实验台上执行的 Catalyst protocols 仍由人类工程师编写,模型并未触及「做实验」本身。
ProtoPilot:三 Agent 协同打通全链路
ProtoPilot 采用三个 Agent 协同的架构:
- Orchestrator Agent:统筹全局工作流,把大目标拆解为可操作模块,依次执行后拼接成完整流程;
- Protocol Expert Agent:生成实验方案与 SOP;
- Coding Agent:把 SOP 翻译为特定设备的 SDK 可执行代码,并经过内置验证器逐条检查安全性与可执行性,未通过 gate 的直接打回重写。
用户只需以自然语言下达指令(例如「构建 8 个 GLuc 突变体」),ProtoPilot 即可自动完成意图拆解、方案生成、设备适配、代码执行与湿实验反馈修正,并形成运行时技能学习闭环。
第三方 benchmark 成绩
在 FutureHouse 推出的 ProtocolQA 测评上:
- 开放式问答:ProtoPilot 得分 52.38%,超过 GPT-5.6 Sol 的 43.5%,逼近人类专家的 54%;
- 非开放式问答:ProtoPilot 得分 85.18%,已超过专家水平。
在 ProtoPilot 团队自建的任务评测中:
- Protocol 任务综合评分 94.7(满分 100),8 个评估维度几乎全线领跑,参数合理性 98.9、方法学一致性 97.7、内容完整性 98.4;
- 盲评中,三位独立湿实验科学家在 70.6% 的情况下将 ProtoPilot 排在第一,90.2% 的情况排进前三;
- L3(最高复杂度)任务通过率 60%,而行业标杆 OpenTrons-AI 直接归零;
- Protocol2Code 代码质量中位数 95.5,Gate Pass Rate 达 96.6%,远超 LabScript-AI(64.6%)、Grok-4.3(35%)、GPT-5.5(17.7%);
- 跨设备迁移测试(MGI AlphaTool、Hamilton STAR、OpenTrons OT-2、Tecan EVO)中,Gate Pass Rate 波动仅 5.9 个百分点,而 LabScript-AI 波动高达 47.1 个百分点;
- 在 OpenTrons OT-2 上,ProtoPilot 通过率 88.24%,约为 OpenTrons 官方 AI(32.35%)的 2.7 倍。
BioLab Bench:首个全链路评测体系
现有 benchmark 如 ProtocolQA 仍停留在「阅读理解」层面,考的是 AI 懂不懂实验原理。BioLab Bench 则是首个覆盖「理解用户意图→Design2Protocol→Protocol2SOP→SOP2Code→设备 code→真实实验执行」全链路的评测体系,任务按 L1–L3 难度分层,可跨平台检验 Agent 在不同自动化设备上的适配能力。评测的核心指标只有一个:系统能不能在真实自动化设备上跑得通。
湿实验验证
ProtoPilot 在多组递进难度的湿实验中完成验证,原文披露的前三组结果如下:
- 96 孔板接菌培养:96 个孔全部生长,OD600 读数稳定;
- 24 个菌落 PCR:24 个克隆全部扩增出预期条带;
- 质粒构建与定点突变:GLuc-WT 与 RLuc-WT 两个质粒经 Sanger 测序确认,并成功构建 15 个测序通过的突变体;
- 第四组实验在公开资料中未完整披露,暂无法呈现细节。
跨界做 AI 的中国 Bio 公司
ProtoPilot 与 BioLab Bench 的发布,意味着「Bio Agent Harness」与「真实实验室 benchmark」这两块此前行业一直空缺的拼图被同时补齐。涌生智能提供了全栈生命科学设备、自动化实验平台与真实湿实验验证场景;上海人工智能实验室则贡献了大模型训练、评测标准与 Agent 框架方面的积累。在多数硅谷玩家仍卡在「让 AI 写方案」阶段的当下,两家国产团队联手跑通了「从自然语言意图到湿实验物理执行」的完整闭环。
