CellOS 发布:12B 参数单细胞基础模型,首将 JEPA 引入虚拟细胞
百曜科技推出 12B 参数的 CellOS,基于 3.9 亿人类单细胞转录组训练,首次将 JEPA 与世界模型理念系统引…
百曜科技近日发布全球首个基于 LLM-JEPA 架构的 AI 虚拟细胞世界模型 CellOS(AURA CellOS)。该模型以约 3.905 亿个人类单细胞转录组数据训练而成,参数规模达 120 亿,是目前公开报道中参数最大的单细胞基础模型,覆盖 40 余种人体组织、260 余种细胞类型。CellOS 的核心创新是将 LeCun 提出的 JEPA(联合嵌入预测架构)与世界模型理念系统性引入单细胞研究,目标是让 AI 从「看懂细胞表达」走向「理解细胞状态演化」。
技术背景:AIVC 的范式瓶颈
AI 虚拟细胞(AIVC)旨在用计算模型预测细胞在药物、基因扰动等刺激下的动态变化,是 AI for Science 近年最受关注的方向之一。2024 年 12 月,斯坦福大学、基因泰克与陈—扎克伯格基金会联合团队在《Cell》发表的论文,被视为 AIVC 时代正式开启的标志。
此前已问世的 Geneformer、scGPT、scFoundation、GeneCompass 等模型虽能完成细胞类型识别等基础任务,但在敲除基因、给药或诱导分化等动态预测任务上仍存在明显局限。核心原因在于,这些模型的训练目标是复现基因表达模式本身,而非学习细胞状态变化的内在机制,难以区分背景噪声与关键驱动信号。
更值得注意的是,2026 年 6 月《Nature Methods》刊发的一项研究显示,在 2220 万细胞的 scTab 语料库上预训练 400 个模型、完成 6400 次评估后,模型性能在使用约 1% 的预训练数据(约 22 万细胞)后便进入平台期。这表明,第一代 AIVC 模型的瓶颈并非数据规模,而是传统语言模型架构与细胞数据特性之间的系统性错配。
CellOS 的三大创新
CellOS 没有沿用主流 LLM 路线,而是选择了与 Yann LeCun 世界模型理念一致的 JEPA 路线,核心技术由三部分组成。
- 多视角表征学习:在传统「表达视角」(基因活跃程度)之外,引入「群体感知视角」(基因在群体中的特异性)。两套视角并行分析,使模型对调控基因、应激响应基因等低表达但关键的生物学信号更敏感。
- JEPA 联合嵌入预测:模型不再要求复述输入,而是用一种视角的表征去预测另一种视角的结果,迫使其在隐空间建立「细胞状态的内在模型」。这一设计将模型能力从「看懂表面」升级到「理解本质」,尤其提升了对扰动响应的预测能力。
- 无损扩容训练方案:先训练扎实的中小型稠密模型,再以平滑方式升级为 MoE 架构,在保留原有知识的同时引入更多专家模块,避免灾难性遗忘。
配合上述创新,CellOS 采用 Dense-to-MoE 三阶段训练策略:先用表达视角训练稠密模型,再扩容至 12B 参数规模,最后加入群体感知视角并启动 JEPA 对齐训练。
基准表现
在多个基准测试中,CellOS 达到 SOTA 水平:
- 在衡量细胞状态预测能力的核心指标 Pearson_edist 上取得 0.619,是唯一突破 0.6 的模型,较开源最强模型 TranscriptFormer 的 0.373 领先约 66%。
- 在细胞状态注释任务的聚合注释基准上取得 0.792 的生物学保守分数,全面超越 UCE、scGPT、TranscriptFormer 等主流单细胞基础模型。
行业格局与竞争
AIVC 赛道在过去两年快速升温。2025 年 6 月,Arc Institute 发起虚拟细胞挑战赛(VCC),吸引英伟达、10x Genomics 等机构赞助,被视为「细胞版的图灵测试」,全球 500 余支团队参赛,华人科学家团队表现突出。
从玩家结构看,行业已分化出三类核心力量:一是以 Arc Institute、同济大学等为代表的基础研究团队,推动算法创新与公开 Benchmark 建设;二是以 Xaira、Noetik、百曜科技等为代表的平台型创业公司,拥有专有数据、湿实验平台与药企合作能力;三是以 Recursion、Isomorphic Labs 等为代表的 AI 制药公司,关注 AI 如何直接进入药物研发流程。
监管层面,美国 FDA 持续推动 New Approach Methodologies(NAMs),鼓励计算模型、类器官等新方法补充或替代部分动物实验;国内也已将「细胞编程与调控」「先进组学研究」列为前沿攻关方向。百曜科技作为中国原生的 AI 生物科技公司,其 CellOS 是中国团队从「跟随者」转向「规则参与者」的代表性进展之一。
