社区实测：低量化大模型能否击败高量化小模型？

Reddit 用户在 r/LocalLLaMA 发布了一组个人对比测试，尝试回答本地部署圈长期争论的问题：低量化的大模型与高量化的较小模型，谁更值得用？测试对象是 GLM 5.2 Q1_S 与 Qwen 27B Q8，运行在 2 张 RTX 3090（各 24GB VRAM，限功至 200W）和 192GB DDR5 的工作站上。作者明确表示这是 n=1 的业余对比，结论仅供参考。

测试任务与硬件配置

任务是用 Three.js 在单个 HTML 文件中构建一款 3D 竞技场小游戏，要求包含 WASD 移动、第三人称相机跟随、可收集发光球、敌人生成、生命值、HUD 和难度递增等核心功能，并鼓励添加光照、阴影、粒子等「质感」细节。两个模型均通过相同的 pi harness 推理框架与相同配置运行，prompt 完全一致。

Qwen 27B Q8：生成速度约 60 tps
GLM 5.2 Q1_S：生成速度约 6 tps（低上下文），接近 100k 上下文时降至约 3 tps

主测试结果

Qwen 27B Q8 一次性输出未通过，经历 3 轮修复后才能「勉强可玩」，累计消耗约 42k tokens
GLM 5.2 Q1_S 一次性完成，输出具备较好视觉质感，是唯一成功添加音效的版本，但耗时数小时，消耗约 75k tokens

作者特别提到，GLM Q1_S 在思考阶段展现出的推理深度令人印象深刻，与他日常使用的 Qwen 差异明显。

附加对照：全精度 GLM 与 Opus

作者还通过 OpenRouter 调用了全精度 GLM 5.2 与 Opus 4.8 作对照。GLM FP 速度更快（约 11k tokens 即完成），但方向键控制被反转，体验反不如 Q1_S 版本；Opus 表现略好，但未拉开显著差距。作者猜测 FP 速度更快可能与推理服务对思考 token 的限制有关，但未做进一步验证。

LLM 裁判评分

将三份输出（Qwen Q8、GLM Q1_S、GLM FP）交给 Opus 4.8 与 GPT 5.5 盲评打分，结果一致倾向 GLM Q1_S：

Opus 评分：Qwen 综合 8.3 / GLM Q1_S 综合 9.3 / GLM FP 综合 8.3
GPT 5.5 评分：Qwen 综合 6.7 / GLM Q1_S 综合 8.4 / GLM FP 综合 7.1

GLM Q1_S 在「代码质量」「指令遵循」「延展与打磨」三个维度上均领先于其他两版输出。

结论与局限

作者认为，该测试一定程度上证明 Q1 量化在合适场景下并非「脑死亡」，大模型配合深度思考仍能输出高质量结果。但他也强调，Q1 速度过低，不适合作为实时 Agent 后端，更适合离线、对质量要求高而对延迟不敏感的任务。需注意本测试为 n=1 单任务主观对比，不构成系统性基准，prompt 选择与评分标准均带有作者个人偏好，结论不宜过度外推。