Ollama 推出 MLX 引擎，Mac 本地大模型推理速度翻倍

据 xda-developers 报道，开源本地大模型运行工具 Ollama 近日上线了基于 Apple MLX 框架的新推理引擎。该引擎专门针对 Apple Silicon 芯片进行优化，在 MacBook Air 等设备上运行本地大语言模型时，速度可达此前方案的约两倍，显著降低了在消费级苹果笔电上部署大模型的门槛。

背景：Ollama 与 Apple MLX

Ollama 是目前最受欢迎的开源本地大模型运行框架之一，支持用户在个人电脑上离线运行 Llama、Mistral、Qwen 等主流开源模型。此前，Ollama 主要依赖 llama.cpp 作为后端，在 Apple Silicon 上虽有不错的兼容表现，但并未充分利用 Apple 专为机器学习打造的 MLX 框架。

MLX 是 Apple 在 2023 年底开源的机器学习框架，专门为 Apple Silicon 的统一内存架构设计，能够在 CPU 与 GPU 之间高效调度张量计算。在 MLX 出现之前，macOS 上的开源 ML 工具链相对薄弱，MLX 的推出填补了这一空白，也为本地推理类工具提供了新的性能优化路径。

新引擎的核心改进

根据 xda-developers 的报道，新版 MLX 引擎带来了以下变化：

推理速度翻倍：在 MacBook Air 等轻薄设备上，相同模型的生成速度约为旧版的两倍。
内存利用更高效：得益于 Apple Silicon 的统一内存架构，模型权重无需在 CPU 与 GPU 间反复拷贝。
零额外配置：用户升级 Ollama 后即可在支持的 Mac 设备上自动启用 MLX 后端。

对于希望在 MacBook 上本地运行 7B 至 13B 参数级别模型的开发者与爱好者而言，这一改进意味着更低延迟与更流畅的交互体验。

实际意义与局限

Ollama 的 MLX 引擎优化了 macOS 端的本地推理体验，对于依赖 Mac 进行 AI 实验的用户来说是一项实用更新。但需要注意的是，MacBook Air 受限于无独立 GPU 与较窄的内存带宽（通常为 8GB 或 16GB 统一内存），能够流畅运行的模型规模仍然有限；对于需要部署 30B 以上大模型的场景，仍需配备 M2/M3/M4 Max 或 Ultra 芯片的 Mac Studio、Mac Pro 等更高规格设备。

此外，该功能目前仅面向 macOS 用户，Windows 与 Linux 平台暂不在此次更新范围内。截至本文发稿时，相关讨论在 Hacker News 上的关注度较低（仅 1 票、0 条评论），尚未形成广泛社区讨论。