研究论文
Reddit 用户实测 8 款本地模型:Gemma-4-31B 领跑奇幻 RP 基准
Reddit 用户搭建奇幻角色扮演基准,跨 8 款本地模型测试,Gemma-4-31B 综合通过率 87% 居首,Qwe…
2026.07.04 · 周六约 2 分钟阅读
一名 Reddit 用户近日在 r/LocalLLaMA 社区发布了一项针对本地大模型的奇幻题材角色扮演与智能体基准测试结果。该用户自行搭建了一套涵盖任务完成、场景收束、道具/时间追踪、角色识别、故事叙述与文稿起草等维度的评测套件,并以一个外部大模型作为评分裁判,对 8 款社区关注度较高的本地模型进行了横向对比。
整体通过率排名
在综合通过率方面,测试呈现出明显的头部集中现象:
- Gemma-4-31B 以 87% 的通过率位列第一;
- Qwen3.6-27B 以 82% 紧随其后,表现优于其参数规模所暗示的水平;
- Gemma-4-12B 达到 80%,与前两名差距不大;
- 其余体量更小或约束更松的模型则集中在 55%–70% 区间,形成明显落差。
子项分数的「悬崖」现象
作者表示,本次评测中更有价值的发现并非榜首归属,而是子项分数的极度不均衡:
- 部分模型在「完成任务」这一粗粒度指标上看起来合格,但在「NPC 心理描写」「任务摘要」等子项上明显崩盘;
- 这种缺陷在仅查看总体通过率时几乎不可见,需要拆解到类别层面才会暴露;
- 作者希望社区在自建评测时也能关注子粒度的表现差异,而非被单一聚合分数误导。
测试方法与局限
评测采用了外部大模型作为自动裁判,各子项的样本量 N 在原图中有标注,但作者未公开具体的提示词模板、数据集构成或裁判模型选型,因此结果的可复现性有限。此外,原帖中出现的模型名称(如 Gemma-4-31B、Qwen3.6-27B)并非当前已正式发布的版本,读者在引用数据时需留意名称与版本对应关系。整体而言,这是一项个人发起的探索性测试,可作为社区选型参考,但不构成权威基准结论。
