NASA 测试本地大模型为深空任务打造 AI 医疗助手

NASA 正在为未来的月球和火星载人任务测试一套完全脱离云端的本地大模型医疗系统。该项目名为「Crew Medical Officer Digital Assistant（CMO-DA，乘组医疗官数字助手）」，由 NASA 约翰逊航天中心的研究人员与 Red Hat 合作推进，目标是在通信延迟甚至完全中断的深空环境中，为宇航员提供可信赖的 AI 辅助诊断与处置建议。

为什么必须「本地优先」

载人深空任务面临一个根本性约束：月球与火星任务存在数分钟级别的光速延迟，更长的通信中断窗口几乎不可避免。基于地球的远程医疗（telehealth）方案因此无法作为唯一依靠，航天器必须自带能够在舱内独立运行的智能医疗系统。

CMO-DA 的设计要求是：

模型与全部数据在航天器本地硬件上运行，不依赖任何地面云服务；
输出结果必须稳定可靠，能够支撑真实的医疗决策；
部署过程可复现、可加密验证，便于在难以触达的边缘与太空硬件上完成更新与维护。

这些条件直接指向「本地优先（local-first）」架构——也是 NASA 几乎唯一可行的选择。

技术栈：llama.cpp + RamaLama

CMO-DA 的大模型推理层运行在 llama.cpp 之上，并使用 Red Hat 开源的 CLI 工具 RamaLama 进行封装与管理。RamaLama 同样支持 MLX、vLLM 等其他推理后端。

RamaLama 的核心思路是把 AI 模型当作「可移植制品」来处理：

拉取和运行模型的方式与拉取容器镜像一致；
自动检测并直通 GPU 资源；
强调可复现与可加密验证的部署流程。

这种「像装容器一样装模型」的范式，对于需要快速在边缘设备或太空硬件上完成部署验证的场景尤为关键。CMO-DA 本身也配合检索增强生成（RAG）调用航天医学文献，让模型在有限参数规模下仍能给出专业级建议。

从云端 PoC 到边缘部署

CMO-DA 项目经历了两个阶段。最初是一个依赖云端连接的可行性验证版本，团队随后将其迁移到完全断网、运行在 HPE 硬件上的边缘部署形态。当前测试环境使用的是国际空间站上 HPE Spaceborne Computer 的地面「孪生机」，用于在地球上模拟真实的太空硬件条件。

RamaLama 的 GitHub 仓库已开放：https://github.com/containers/ramalama 。

一份「本地开源大模型」的强需求注脚

对关注本地与开源大模型路线的社区而言，CMO-DA 是少数能直接说明「为什么这条路不可替代」的工程案例：当带宽为零、延迟以分钟计、且决策关乎生命时，唯一可信的 AI 必须在本地运行，并且要足够开放、足够可复现。NASA 的这一选择，也为边缘 AI 与端侧大模型的发展方向提供了一个分量十足的背书。