8GB 到 128GB 内存：62 款本地大模型适配档位对照表开源

一位 Reddit 用户 Wecko 在 r/LocalLLaMA 板块发布了一项开源数据集，专门回答一个被反复问到的问题：「我的 16GB MacBook / RTX 3060 究竟能跑什么本地大模型？」他把日常答疑中积累的硬件适配信息整理成结构化表格，托管在 GitHub 上，以 CC BY 协议开放，共覆盖 62 款模型。

核心估算规则

作者给出了一条经验法则：在 Q4_K_M 量化下，每个十亿参数大约需要 0.6GB 显存或内存；同时建议将模型规模控制在可用 RAM/VRAM 的约 70%，为操作系统、上下文窗口与 KV 缓存留出空间。基于这一规则，他列出了不同内存档位的「舒适上限」：

8GB（可用约 5.6GB）：可跑约 8B 参数模型，23 款可选
16GB（可用约 11GB）：可跑约 14B 参数模型，36 款可选
24GB（可用约 17GB）：可跑约 27B 参数模型，41 款可选
32GB（可用约 22GB）：可跑约 35B 参数模型，50 款可选
48GB（可用约 34GB）：可跑约 47B 参数模型，53 款可选
64GB（可用约 45GB）：可跑约 70B 参数模型，56 款可选
128GB（可用约 90GB）：可跑约 122B 参数模型，58 款可选

数据集内容

除了上表，GitHub 仓库还包含：

每款模型对应的具体量化方式与加载大小
直接可复制运行的 Ollama 启动命令
按 GPU、Mac、iPhone 划分的细分适配清单
一个 JSON API，方便程序化调用

适用场景与局限

作者坦率地列出了几项注意事项，使用者需要留意：

表格中的 tok/s（每秒生成 token 数）数据是根据显存带宽推算的近似值，并非在每款硬件上实测得到，仅作数量级参考。
覆盖度在 Apple Silicon 与消费级 NVIDIA 显卡上最完整，AMD 平台的条目相对较新、覆盖较薄。
「能跑」的定义是模型可以加载并以可用速度运行，并不意味着能在完整长上下文下保持这一性能——长上下文会显著消耗额外内存。

数据集本身是这次发布的重点，作者也基于它搭建了 modelfit.io 网站与 CLI 工具，但强调核心价值在开源数据。如果读者发现某条记录有误（例如模型应能跑却被遗漏，或量化方式标注有误），作者鼓励直接提 Issue 或合并请求。