桃子桃子 AI 快讯
返回首页
行业动态

社区实测:低量化大模型能否击败高量化小模型?

Reddit 用户对比 GLM Q1_S 与 Qwen 27B Q8 的代码任务表现,Q1_S 一次性通过且获裁判更高评…

2026.06.29 · 周一3 分钟阅读评分 37
评分细项加权总分 37
重要性
32
新颖性
42
影响面
30
可信度
40
实质性
55

Reddit 用户在 r/LocalLLaMA 发布了一组个人对比测试,尝试回答本地部署圈长期争论的问题:低量化的大模型与高量化的较小模型,谁更值得用?测试对象是 GLM 5.2 Q1_S 与 Qwen 27B Q8,运行在 2 张 RTX 3090(各 24GB VRAM,限功至 200W)和 192GB DDR5 的工作站上。作者明确表示这是 n=1 的业余对比,结论仅供参考。

测试任务与硬件配置

任务是用 Three.js 在单个 HTML 文件中构建一款 3D 竞技场小游戏,要求包含 WASD 移动、第三人称相机跟随、可收集发光球、敌人生成、生命值、HUD 和难度递增等核心功能,并鼓励添加光照、阴影、粒子等「质感」细节。两个模型均通过相同的 pi harness 推理框架与相同配置运行,prompt 完全一致。

  • Qwen 27B Q8:生成速度约 60 tps
  • GLM 5.2 Q1_S:生成速度约 6 tps(低上下文),接近 100k 上下文时降至约 3 tps

主测试结果

  • Qwen 27B Q8 一次性输出未通过,经历 3 轮修复后才能「勉强可玩」,累计消耗约 42k tokens
  • GLM 5.2 Q1_S 一次性完成,输出具备较好视觉质感,是唯一成功添加音效的版本,但耗时数小时,消耗约 75k tokens

作者特别提到,GLM Q1_S 在思考阶段展现出的推理深度令人印象深刻,与他日常使用的 Qwen 差异明显。

附加对照:全精度 GLM 与 Opus

作者还通过 OpenRouter 调用了全精度 GLM 5.2 与 Opus 4.8 作对照。GLM FP 速度更快(约 11k tokens 即完成),但方向键控制被反转,体验反不如 Q1_S 版本;Opus 表现略好,但未拉开显著差距。作者猜测 FP 速度更快可能与推理服务对思考 token 的限制有关,但未做进一步验证。

LLM 裁判评分

将三份输出(Qwen Q8、GLM Q1_S、GLM FP)交给 Opus 4.8 与 GPT 5.5 盲评打分,结果一致倾向 GLM Q1_S:

  • Opus 评分:Qwen 综合 8.3 / GLM Q1_S 综合 9.3 / GLM FP 综合 8.3
  • GPT 5.5 评分:Qwen 综合 6.7 / GLM Q1_S 综合 8.4 / GLM FP 综合 7.1

GLM Q1_S 在「代码质量」「指令遵循」「延展与打磨」三个维度上均领先于其他两版输出。

结论与局限

作者认为,该测试一定程度上证明 Q1 量化在合适场景下并非「脑死亡」,大模型配合深度思考仍能输出高质量结果。但他也强调,Q1 速度过低,不适合作为实时 Agent 后端,更适合离线、对质量要求高而对延迟不敏感的任务。需注意本测试为 n=1 单任务主观对比,不构成系统性基准,prompt 选择与评分标准均带有作者个人偏好,结论不宜过度外推。

信源