斯坦福开源 Merlin：面向腹部 CT 的视觉-语言基础模型

斯坦福大学 AIMI 中心近日开源了 Merlin——一个面向腹部 CT 的视觉-语言基础模型，并同步发布配套的大规模腹部 CT 数据集。Merlin 基于 OpenCLIP、PyTorch 与 HuggingFace Transformers 等主流开源库构建，模型权重与代码已在 GitHub、HuggingFace 和 PyPI 三个平台公开，开发者可下载复现并用于下游研究。

核心数据集

Merlin 配套的腹部 CT 数据集由斯坦福 AIMI 中心托管，包含来自 18,317 名独立患者的 25,494 次腹部/盆腔 CT 扫描，每例扫描都配有一份对应的放射学报告。研究团队通过 STARR 工具按 CPT 编码（72192、72193、72194、74150、74160、74170、74176、74177、74178）筛选检查项目，保留切片数最多的 DICOM 系列并转换为 NIfTI 格式，同时移除所有可识别患者身份的元数据以完成去标识化处理。

数据规模：25,494 次扫描 / 18,317 名患者
数据格式：NIfTI
标注：配对放射学报告
获取方式：填写数据使用协议后通过 Azure Blob Storage 下载

模型与代码

Merlin 在技术栈上选择较为成熟的开源组件：

基础库：PyTorch 2.1.2、OpenCLIP 2.24.0、HuggingFace Transformers 4.38.2
优化器：AdamW
临床文本编码：Clinical Longformer（Yikuan8/Clinical-Longformer）
三维卷积权重膨胀策略：参考开源 inflated_convnets_pytorch 仓库

基线对比中，研究者使用了 BiomedCLIP 与 OpenCLIP（laion/CLIP-ViT-L-14-laion2B-s32B-b82K）作为参照。模型还在三个外部临床站点的腹部 CT 数据上完成了评估，但因患者隐私与数据使用协议限制，这部分数据未能公开。

第三方数据与外部验证

研究同时引入了两个公开数据集用于训练或验证：VerSe（椎体分割数据集，托管于 Open Science Framework）以及 TotalSegmentator（托管于 GitHub）。模型在三个外部临床站点上的评测数据虽未公开，但均经相应机构审批后仅用于评估。

开源与影响

Merlin 的开源意味着医学影像社区可以基于该预训练权重进行微调，用于腹部 CT 报告生成、器官分割、机会性风险预测等下游任务。论文同时引用了多篇近期放射学基础模型工作（如 Nature Communications 2025、NEJM AI 2025），表明该方向正在快速形成研究集群。代码与权重地址已公开，研究者可按需取用。