工具
8GB 到 128GB 内存:62 款本地大模型适配档位对照表开源
Reddit 用户 Wecko 将 62 款本地大模型与 8–128GB 内存档位对应整理为开源数据集,附带 Ollam…
2026.07.01 · 周三约 3 分钟阅读
一位 Reddit 用户 Wecko 在 r/LocalLLaMA 板块发布了一项开源数据集,专门回答一个被反复问到的问题:「我的 16GB MacBook / RTX 3060 究竟能跑什么本地大模型?」他把日常答疑中积累的硬件适配信息整理成结构化表格,托管在 GitHub 上,以 CC BY 协议开放,共覆盖 62 款模型。
核心估算规则
作者给出了一条经验法则:在 Q4_K_M 量化下,每个十亿参数大约需要 0.6GB 显存或内存;同时建议将模型规模控制在可用 RAM/VRAM 的约 70%,为操作系统、上下文窗口与 KV 缓存留出空间。基于这一规则,他列出了不同内存档位的「舒适上限」:
- 8GB(可用约 5.6GB):可跑约 8B 参数模型,23 款可选
- 16GB(可用约 11GB):可跑约 14B 参数模型,36 款可选
- 24GB(可用约 17GB):可跑约 27B 参数模型,41 款可选
- 32GB(可用约 22GB):可跑约 35B 参数模型,50 款可选
- 48GB(可用约 34GB):可跑约 47B 参数模型,53 款可选
- 64GB(可用约 45GB):可跑约 70B 参数模型,56 款可选
- 128GB(可用约 90GB):可跑约 122B 参数模型,58 款可选
数据集内容
除了上表,GitHub 仓库还包含:
- 每款模型对应的具体量化方式与加载大小
- 直接可复制运行的 Ollama 启动命令
- 按 GPU、Mac、iPhone 划分的细分适配清单
- 一个 JSON API,方便程序化调用
适用场景与局限
作者坦率地列出了几项注意事项,使用者需要留意:
- 表格中的 tok/s(每秒生成 token 数)数据是根据显存带宽推算的近似值,并非在每款硬件上实测得到,仅作数量级参考。
- 覆盖度在 Apple Silicon 与消费级 NVIDIA 显卡上最完整,AMD 平台的条目相对较新、覆盖较薄。
- 「能跑」的定义是模型可以加载并以可用速度运行,并不意味着能在完整长上下文下保持这一性能——长上下文会显著消耗额外内存。
数据集本身是这次发布的重点,作者也基于它搭建了 modelfit.io 网站与 CLI 工具,但强调核心价值在开源数据。如果读者发现某条记录有误(例如模型应能跑却被遗漏,或量化方式标注有误),作者鼓励直接提 Issue 或合并请求。
