桃子桃子 AI 快讯
返回首页
产品功能

Ollama 推出 MLX 引擎,Mac 本地大模型推理速度翻倍

xda-developers 报道,Ollama 上线 MLX 引擎,针对 Apple Silicon 优化,在 Mac…

2026.06.30 · 周二3 分钟阅读评分 44
评分细项加权总分 44
重要性
42
新颖性
45
影响面
40
可信度
60
实质性
40

据 xda-developers 报道,开源本地大模型运行工具 Ollama 近日上线了基于 Apple MLX 框架的新推理引擎。该引擎专门针对 Apple Silicon 芯片进行优化,在 MacBook Air 等设备上运行本地大语言模型时,速度可达此前方案的约两倍,显著降低了在消费级苹果笔电上部署大模型的门槛。

背景:Ollama 与 Apple MLX

Ollama 是目前最受欢迎的开源本地大模型运行框架之一,支持用户在个人电脑上离线运行 Llama、Mistral、Qwen 等主流开源模型。此前,Ollama 主要依赖 llama.cpp 作为后端,在 Apple Silicon 上虽有不错的兼容表现,但并未充分利用 Apple 专为机器学习打造的 MLX 框架。

MLX 是 Apple 在 2023 年底开源的机器学习框架,专门为 Apple Silicon 的统一内存架构设计,能够在 CPU 与 GPU 之间高效调度张量计算。在 MLX 出现之前,macOS 上的开源 ML 工具链相对薄弱,MLX 的推出填补了这一空白,也为本地推理类工具提供了新的性能优化路径。

新引擎的核心改进

根据 xda-developers 的报道,新版 MLX 引擎带来了以下变化:

  • 推理速度翻倍:在 MacBook Air 等轻薄设备上,相同模型的生成速度约为旧版的两倍。
  • 内存利用更高效:得益于 Apple Silicon 的统一内存架构,模型权重无需在 CPU 与 GPU 间反复拷贝。
  • 零额外配置:用户升级 Ollama 后即可在支持的 Mac 设备上自动启用 MLX 后端。

对于希望在 MacBook 上本地运行 7B 至 13B 参数级别模型的开发者与爱好者而言,这一改进意味着更低延迟与更流畅的交互体验。

实际意义与局限

Ollama 的 MLX 引擎优化了 macOS 端的本地推理体验,对于依赖 Mac 进行 AI 实验的用户来说是一项实用更新。但需要注意的是,MacBook Air 受限于无独立 GPU 与较窄的内存带宽(通常为 8GB 或 16GB 统一内存),能够流畅运行的模型规模仍然有限;对于需要部署 30B 以上大模型的场景,仍需配备 M2/M3/M4 Max 或 Ultra 芯片的 Mac Studio、Mac Pro 等更高规格设备。

此外,该功能目前仅面向 macOS 用户,Windows 与 Linux 平台暂不在此次更新范围内。截至本文发稿时,相关讨论在 Hacker News 上的关注度较低(仅 1 票、0 条评论),尚未形成广泛社区讨论。

信源