个人开发者凭12B模型冲上HF热榜首

一位名为 yuxinlu1（逯雨鑫）的个人开发者，凭借两款基于 Gemma 4-12B 的 GGUF 编程推理模型，在 Hugging Face Models Trending 榜上力压 GLM-5.2、百度 Unlimited-OCR、Qwen、NVIDIA 等大厂与明星团队，连续多日占据榜首，两款模型合计下载量已超过 74 万次。

「素人模型」冲上抱抱脸热榜

Hugging Face Trending 榜前排长期被大厂与明星团队占据。本轮榜单中，智谱最新开源的 GLM-5.2（753B 参数）以约 6 万次下载暂居第一，百度 Unlimited-OCR 以约 7 万次下载紧随其后，其下还有 Qwen 的 AgentWorld、英伟达 LocateAnything、微软 FastContext，以及 MiniMax M3、Kimi-K2.7-Code、DeepSeek-V4-Pro 等国产开源熟面孔。图像生成方向的 Krea-2-Turbo 与 Krea-2-Raw 也都榜上有名。

就在这些名字中间，逯雨鑫的两款 12B GGUF 模型强势挤进 TOP 位置。根据文章截稿前数据，两款模型分别录得 20.7 万与 53.6 万次下载。智谱方面负责人此前也在 X 上公开推荐过这套模型。

V1 与 V2：Coder 与 Agentic 两条线

两款模型都以 Gemma 4-12B 为底座，但分工明确：

V1（Coder 版）：主打写代码、解题、生成可运行代码。训练数据是「可验证」的代码推理——每条思维链对应的代码都需通过真实测试。教师数据主要来自 Cursor 的 Composer 2.5，错题由 Fable 5 重新推演后生成新推理链与正确代码。V1 发布后曾连续多日占据 Trending 榜首。
V2（Agentic 版）：加入多步工具调用能力，能在本地充当 Agent，自主完成读、推理、操作、再验证。在 tau2-bench 的 telecom 子集（本地自测、20 个任务）上，基座 Gemma 4-12B 得分 15%，V2 得分 55%，约为基础性能的 3.5 倍。作者坦言这是单一领域、有限任务下的相对值，与 frontier 模型仍有不小差距。

V1 与 V2 的蒸馏数据总共约 1 万条 examples。作者强调，数据量并非关键，真正起决定作用的是质量、筛选与验证流程。Fable 5 后续被下线后，他用 Claude Opus 4.8（xhigh）重新生成缺失的推理轨迹，并坦白「可能与原版 Fable 5 有出入」。

4.5 GB 显存即可本地运行

两款模型都以 GGUF 格式发布，兼容 llama.cpp、Ollama、LM Studio、Jan 等本地推理工具。这一格式对编程场景尤其有吸引力——可在本地处理私有代码库、运行命令、调试 bug，无需将代码上传云端或支付 API 调用成本。

各量化版本大小与显存要求如下：

Q2_K：约 4.5 GB
Q4_K_M（推荐甜点位）：约 6.87 GB
Q8_0（更高质量）：约 11.8 GB

V2 因更偏 Agentic，未提供 Q2_K（作者称压力测试未过、不够可靠），其最小可靠版本从 Q3_K_M（约 5.7 GB）起，推荐仍为 Q4_K_M（约 6.87 GB）。

作者还透露 V3 已在路上，将沿 12B 继续做 coding + agentic；同时他也在做更大的 Qwen3.6-27B 版本，为显存更宽裕的用户提供选择。

一个人，40 小时

逯雨鑫目前是美国一所高校在读的 AI 方向研究生，本科专业为数据与商业分析，期间还补过一轮全栈开发，将前后端、软件开发、数据处理都学了一遍。这两款爆火模型并非主业，而是纯自费的个人项目。

他表示，做 V1 的最初动机是「自我提升」——学校课程更新滞后，干脆用这个项目逼自己跟上 AI 的迭代节奏。为此他烧掉了一整个 Claude Max 20× 订阅，仅 V2 一项就耗时 40 多小时。

硬件方面，他使用一张 RTX 5090（32 GB VRAM），配合约 96 GB 本地 SSD 资源，可调动总规模约 128 GB。整套流程几乎由一人独立完成：合成数据、手动清洗、训练、评测、再训练。

他指出整个流程最耗时的并非训练，而是数据处理。Agentic 真实对话往往很长，一个任务可能有十几步、数千甚至数万个 token，但受限于显存，训练时一次最多喂 2048 token。为此他采用类似「滑动窗口」的处理方式：每段多轮会话以最近一次用户消息为锚点，围绕一次工具调用裁剪上下文。

选择 Gemma 4 作为底座并非「好做」——Gemma 4 的格式与工具协议比较特殊、适配麻烦。但他算过：如果量化到 3 bit 左右，许多 8 GB 统一内存的 Mac 用户也能跑起来，并保留一定上下文窗口。

个人开发者的开源哲学

逯雨鑫将本地模型的价值概括为两个词：隐私，免费。

他认为很多人只是想用 AI 整理文件、处理数据、做 PPT，或简单体验 Agent，并不一定愿意为 Claude、GPT 每月付费。本地模型正好满足了「低成本上手」这一需求。

HF 平台上，他共发布了 9 个公开模型。除两款爆火模型外，还包括：

gemma-4-12B-it-Claude-4.6-4.8-Opus-GGUF：将 Claude Opus 的回答风格与推理能力蒸馏到 12B 本地模型
基于 JetBrains Mellum2 的推理蒸馏模型
4 个基于 Qwen3.6 的中文网文 LoRA，覆盖不同题材

中文网文 LoRA 实际上是他最早进入 Hugging Face 的入口——他本人爱看网文，原本想做一套免费的小说生成 pipeline，帮助作者提速、读者更快追更。但中文网文 LoRA 在 HF 上关注度有限，他发现社区更关心 coding 与 agentic，于是逐步转向了现在的方向。

对于「凭什么能在大厂中间挤进前排」这一问题，逯雨鑫的回答很中肯：大厂做开源小模型往往还承担品牌宣传、API 引流等目标，而个人开发者没有这些包袱，反而可以更专注地解决一个具体痛点。

「我不是全面打败了他们，只是可能更认真一些。」

模型目前最适配的平台是 llama.cpp。HF 地址：https://huggingface.co/yuxinlu1