Claude Science发布：把科研拆成可审计的流水线

Anthropic 于 6 月 30 日发布 Claude Science，定位为面向科学家的 AI 工作台，首站落地生命科学领域。不同于追求「更聪明」的科研模型，Claude Science 把文献检索、多步计算、图表生成、论文成稿整合到同一条可审计的流水线上，强调可复现与人在回路。

定位：工作台而非科研模型

Claude Science 本身不是大模型，而是一个执行环境。它能跑在本地 macOS 或 Linux 上，也能通过 SSH 连到远程机器或高性能计算（HPC）登录节点；文献分析、代码运行、图表打磨、论文成稿在同一个环境中完成，研究者不必再为切换工具而中断思路。

在算力调度上，Claude Science 把任务从单个 GPU 扩展到数百个 GPU 集群，使用者只需在动用新资源前确认授权，每个决策都能复核与撤销。敏感数据不离开本地系统，只有真正需要的上下文才会发给 Claude。

可复现：每张图都自带代码与历史

科研长期面临「几个月后连作者自己都跑不出当初那张图」的痛点。Claude Science 对此给出的解法是：每生成一张图，就把这张图的生成代码、运行环境、纯语言说明和完整对话历史一并打包，钉在图上。审稿人要求重跑某张图时，可以当场复现整条输入—过程—结果链路。

改图也可以用自然语言完成，例如「把网格线去掉」「纵轴换成对数」，智能体直接修改自己写的代码。任何节点都可以把会话 fork 出去，同时试两条思路而互不干扰。

智能体架构：一个写，一个审

Claude Science 背后是一组协同智能体：协调智能体统筹全局，调用 60 多个为基因组、单细胞、蛋白质组、结构生物学、化学信息学预配好的技能与连接器；任务量大时可自动派生出更多子智能体，使用者也能把实验室自己信得过的模型、数据、管线存为可复用技能挂入。

其中最特别的是审查智能体（reviewer agent），专门核查引用、计算和图表的一致性，发现错误即标注并改正。Allen Institute 神经科学家 Jérôme Lecoq 的团队便采用 actor-critic 配对：一个智能体负责写综述，另一个专门评估准确性与引用真伪。Lecoq 手头积攒的约 10 篇长篇综述，每一条引用都经过逐句核对，整套工作从原来的近两年压缩到几周。

整套机制始终把「人」放在回路中——自动化的是流程，判断权仍在科学家手里。

首批应用案例

Manifold Bio（组织靶向药物）：用 Claude Science 提名最新实验的靶点，对组织与靶点逐一评估表面表达、运输和安全性，并按公司自有数据标准给候选排序。Manifold 表示，普通编程助手做不到端到端完成，Claude Science 可以。
UCSF 脑瘤中心：一位流行病学副教授用其分析数千个微效种系变异如何叠加影响脑胶质瘤易感性，耗时约为过去的 1/10，团队独立复核确认结果稳定。

需要指出的是，10 倍提速目前仅出现在综述写作、基因组分析、特定管线自动化等场景，并不等于「科研整体提速 10 倍」。

赛道格局：三种打法

生物科研 AI 赛道上，三家头部公司路径各异：

Google 押独门模型，AlphaFold、AlphaGenome 等自家模型直接下场；
OpenAI 押模型的科研智商，4 月推出 GPT-Rosalind，又发布 GeneBench-Pro 基准（129 道题，专测计算生物学家式的判断力），其中 GPT-5.6 Sol 得 28.7%，Pro 模式 31.5%；
Anthropic 则押工作流，把「可审计、可复现」放在首位。

GeneBench-Pro 同样暴露了当前 AI 的短板：模型能起个头，却收不拢最后一环——是否该剔除异常数据、假设被推翻后如何调整路径，这些判断仍依赖人类科学家。

Claude Science 目前已在 macOS 和 Linux 上开启 beta，对 Pro、Max、Team、Enterprise 用户开放，并原生接入 NVIDIA BioNeMo Agent Toolkit 与 Evo 2、Boltz-2、OpenFold3 等生命科学模型。实验室自有的模型与管线也可作为技能挂入，在后续会话中自动继承。