涌生智能联合上海AI实验室发布 ProtoPilot，第三方测评超 GPT-5.6 Sol

涌生智能（华大智造子公司）与上海人工智能实验室联合发布两项成果：自进化多智能体系统 ProtoPilot，以及生命科学领域首个端到端 Agent 评测体系 BioLab Bench。在第三方 benchmark ProtocolQA 上，ProtoPilot 开放式问答得分 52.38%，逼近人类专家水平的 54%，并超过 OpenAI 当前旗舰模型 GPT-5.6 Sol 的 43.5%。这意味着 AI 在生命科学领域的应用，正从「出方案」向「出结果」的关键节点推进。

行业卡点：从方案到执行之间还差一整条链

过去几年，大模型在生命科学中的应用主要集中在文献阅读、序列比对、蛋白质结构预测等「理解」类任务上。OpenAI 推出 GPT-Rosalind 专攻药物发现与基因组学，谷歌推出 Co-Scientist 和 ERA，Anthropic 上线 Claude Science 工作台——各家前沿 AI 厂商都瞄准了让模型「走进实验室」的方向。

然而现实是：当前顶尖 AI 能写出看起来专业的实验方案，却无法保证方案在真实设备上跑通。ProtoPilot 论文拆解了这一鸿沟——一个实验意图要转化为湿实验操作，需要穿过五层：科学意图、Protocol（方案设计）、SOP（标准操作流程）、设备代码、物理执行与反馈修正。每一层都涉及不同的模糊性与硬约束：Protocol 要表达生物逻辑与样本谱系，SOP 要落到体积、浓度、温控条件，设备代码要绑定 deck 布局、孔位映射与厂商 SDK 指令。

OpenAI 与 Ginkgo Bioworks 的合作即为典型案例：GPT-5 负责实验设计与参数探索，但真正在实验台上执行的 Catalyst protocols 仍由人类工程师编写，模型并未触及「做实验」本身。

ProtoPilot：三 Agent 协同打通全链路

ProtoPilot 采用三个 Agent 协同的架构：

Orchestrator Agent：统筹全局工作流，把大目标拆解为可操作模块，依次执行后拼接成完整流程；
Protocol Expert Agent：生成实验方案与 SOP；
Coding Agent：把 SOP 翻译为特定设备的 SDK 可执行代码，并经过内置验证器逐条检查安全性与可执行性，未通过 gate 的直接打回重写。

用户只需以自然语言下达指令（例如「构建 8 个 GLuc 突变体」），ProtoPilot 即可自动完成意图拆解、方案生成、设备适配、代码执行与湿实验反馈修正，并形成运行时技能学习闭环。

第三方 benchmark 成绩

在 FutureHouse 推出的 ProtocolQA 测评上：

开放式问答：ProtoPilot 得分 52.38%，超过 GPT-5.6 Sol 的 43.5%，逼近人类专家的 54%；
非开放式问答：ProtoPilot 得分 85.18%，已超过专家水平。

在 ProtoPilot 团队自建的任务评测中：

Protocol 任务综合评分 94.7（满分 100），8 个评估维度几乎全线领跑，参数合理性 98.9、方法学一致性 97.7、内容完整性 98.4；
盲评中，三位独立湿实验科学家在 70.6% 的情况下将 ProtoPilot 排在第一，90.2% 的情况排进前三；
L3（最高复杂度）任务通过率 60%，而行业标杆 OpenTrons-AI 直接归零；
Protocol2Code 代码质量中位数 95.5，Gate Pass Rate 达 96.6%，远超 LabScript-AI（64.6%）、Grok-4.3（35%）、GPT-5.5（17.7%）；
跨设备迁移测试（MGI AlphaTool、Hamilton STAR、OpenTrons OT-2、Tecan EVO）中，Gate Pass Rate 波动仅 5.9 个百分点，而 LabScript-AI 波动高达 47.1 个百分点；
在 OpenTrons OT-2 上，ProtoPilot 通过率 88.24%，约为 OpenTrons 官方 AI（32.35%）的 2.7 倍。

BioLab Bench：首个全链路评测体系

现有 benchmark 如 ProtocolQA 仍停留在「阅读理解」层面，考的是 AI 懂不懂实验原理。BioLab Bench 则是首个覆盖「理解用户意图→Design2Protocol→Protocol2SOP→SOP2Code→设备 code→真实实验执行」全链路的评测体系，任务按 L1–L3 难度分层，可跨平台检验 Agent 在不同自动化设备上的适配能力。评测的核心指标只有一个：系统能不能在真实自动化设备上跑得通。

湿实验验证

ProtoPilot 在多组递进难度的湿实验中完成验证，原文披露的前三组结果如下：

96 孔板接菌培养：96 个孔全部生长，OD600 读数稳定；
24 个菌落 PCR：24 个克隆全部扩增出预期条带；
质粒构建与定点突变：GLuc-WT 与 RLuc-WT 两个质粒经 Sanger 测序确认，并成功构建 15 个测序通过的突变体；
第四组实验在公开资料中未完整披露，暂无法呈现细节。

跨界做 AI 的中国 Bio 公司

ProtoPilot 与 BioLab Bench 的发布，意味着「Bio Agent Harness」与「真实实验室 benchmark」这两块此前行业一直空缺的拼图被同时补齐。涌生智能提供了全栈生命科学设备、自动化实验平台与真实湿实验验证场景；上海人工智能实验室则贡献了大模型训练、评测标准与 Agent 框架方面的积累。在多数硅谷玩家仍卡在「让 AI 写方案」阶段的当下，两家国产团队联手跑通了「从自然语言意图到湿实验物理执行」的完整闭环。