纯 CPU 跑 GLM 5.2：512GB 内存 Epyc 服务器实测

一名 Reddit r/LocalLLaMA 用户分享了一次纯 CPU 推理实测：在搭载 AMD Epyc Rome 7452 处理器与 512GB DDR4 内存的服务器上，运行 4-bit 量化版的 GLM-5.2（GLM-5.2-UD-Q4_K_XL），完成了一个相当复杂的 Three.js 代码生成任务。

测试环境

处理器：AMD Epyc Rome 7452（Zen 2 架构，64 核 / 128 线程）
内存：512GB DDR4
模型：GLM-5.2-UD-Q4_K_XL（4-bit GGUF 量化，「UD」疑似 Unsloth Dynamic 格式）
推理设置：Medium Reasoning（中等推理深度）
加速方式：无 GPU，纯 CPU 推理

测试任务

用户使用的提示词要求模型输出一个独立的 .html 文件，内含完整 3D 竞技场游戏，强制要求包括：

Three.js 通过 CDN 加载，单文件可直接浏览器运行
平面竞技场边界 + WASD 相机相对移动（带动量）
第三人称平滑跟随相机
可收集发光球（+10 分）
从边缘生成的敌人（接触扣 1 命）
3 条生命、HUD 实时显示分数与生命
0 命后游戏结束画面与重开逻辑
难度随时间递增
鼓励加入阴影、粒子、镜头反馈等高级质感

实测结果

生成时长：2 小时 29 分钟
输出 tokens：15,510
平均速度：约 1.73 tokens / 秒
用户评价：对最终代码质量「相当惊讶（seriously surprised）」

意义与局限

该测试证明大参数量 GLM 模型经 4-bit 量化后，可在纯 CPU 服务器上完成非平凡的代码生成任务，验证了「无 GPU + 大内存」这一本地推理路线的可行性。但存在明显短板：

仅一次测试，缺乏与 GPU 版本或其他模型的横向 benchmark
未披露内存峰值占用、CPU 利用率、上下文长度等关键指标
2.5 小时生成 15k tokens 的速度对实际开发工作流几乎不可用
更接近「可行性验证」而非「性能演示」

对本地部署玩家而言，512GB 内存 + 多核 CPU 已成为运行 70B+ 量化模型的入门配置，但要真正用于生产，仍严重依赖 GPU 或专用加速器。