桃子桃子快讯
返回首页
研究论文

斯坦福开源 Merlin:面向腹部 CT 的视觉-语言基础模型

斯坦福团队发布 Merlin 模型与 2.5 万例腹部 CT 数据集,代码与权重已登陆 GitHub、HuggingFa…

2026.07.03 · 周五3 分钟阅读

斯坦福大学 AIMI 中心近日开源了 Merlin——一个面向腹部 CT 的视觉-语言基础模型,并同步发布配套的大规模腹部 CT 数据集。Merlin 基于 OpenCLIP、PyTorch 与 HuggingFace Transformers 等主流开源库构建,模型权重与代码已在 GitHub、HuggingFace 和 PyPI 三个平台公开,开发者可下载复现并用于下游研究。

核心数据集

Merlin 配套的腹部 CT 数据集由斯坦福 AIMI 中心托管,包含来自 18,317 名独立患者的 25,494 次腹部/盆腔 CT 扫描,每例扫描都配有一份对应的放射学报告。研究团队通过 STARR 工具按 CPT 编码(72192、72193、72194、74150、74160、74170、74176、74177、74178)筛选检查项目,保留切片数最多的 DICOM 系列并转换为 NIfTI 格式,同时移除所有可识别患者身份的元数据以完成去标识化处理。

  • 数据规模:25,494 次扫描 / 18,317 名患者
  • 数据格式:NIfTI
  • 标注:配对放射学报告
  • 获取方式:填写数据使用协议后通过 Azure Blob Storage 下载

模型与代码

Merlin 在技术栈上选择较为成熟的开源组件:

  • 基础库:PyTorch 2.1.2、OpenCLIP 2.24.0、HuggingFace Transformers 4.38.2
  • 优化器:AdamW
  • 临床文本编码:Clinical Longformer(Yikuan8/Clinical-Longformer)
  • 三维卷积权重膨胀策略:参考开源 inflated_convnets_pytorch 仓库

基线对比中,研究者使用了 BiomedCLIP 与 OpenCLIP(laion/CLIP-ViT-L-14-laion2B-s32B-b82K)作为参照。模型还在三个外部临床站点的腹部 CT 数据上完成了评估,但因患者隐私与数据使用协议限制,这部分数据未能公开。

第三方数据与外部验证

研究同时引入了两个公开数据集用于训练或验证:VerSe(椎体分割数据集,托管于 Open Science Framework)以及 TotalSegmentator(托管于 GitHub)。模型在三个外部临床站点上的评测数据虽未公开,但均经相应机构审批后仅用于评估。

开源与影响

Merlin 的开源意味着医学影像社区可以基于该预训练权重进行微调,用于腹部 CT 报告生成、器官分割、机会性风险预测等下游任务。论文同时引用了多篇近期放射学基础模型工作(如 Nature Communications 2025、NEJM AI 2025),表明该方向正在快速形成研究集群。代码与权重地址已公开,研究者可按需取用。

信源