在读研究生逯雨鑫的两款Gemma 4-12B编程模型登顶Hugging Face Trending,合计下载超74万次。
一位名为 yuxinlu1(逯雨鑫)的个人开发者,凭借两款基于 Gemma 4-12B 的 GGUF 编程推理模型,在 Hugging Face Models Trending 榜上力压 GLM-5.2、百度 Unlimited-OCR、Qwen、NVIDIA 等大厂与明星团队,连续多日占据榜首,两款模型合计下载量已超过 74 万次。
Hugging Face Trending 榜前排长期被大厂与明星团队占据。本轮榜单中,智谱最新开源的 GLM-5.2(753B 参数)以约 6 万次下载暂居第一,百度 Unlimited-OCR 以约 7 万次下载紧随其后,其下还有 Qwen 的 AgentWorld、英伟达 LocateAnything、微软 FastContext,以及 MiniMax M3、Kimi-K2.7-Code、DeepSeek-V4-Pro 等国产开源熟面孔。图像生成方向的 Krea-2-Turbo 与 Krea-2-Raw 也都榜上有名。
就在这些名字中间,逯雨鑫的两款 12B GGUF 模型强势挤进 TOP 位置。根据文章截稿前数据,两款模型分别录得 20.7 万与 53.6 万次下载。智谱方面负责人此前也在 X 上公开推荐过这套模型。
两款模型都以 Gemma 4-12B 为底座,但分工明确:
V1 与 V2 的蒸馏数据总共约 1 万条 examples。作者强调,数据量并非关键,真正起决定作用的是质量、筛选与验证流程。Fable 5 后续被下线后,他用 Claude Opus 4.8(xhigh)重新生成缺失的推理轨迹,并坦白「可能与原版 Fable 5 有出入」。
两款模型都以 GGUF 格式发布,兼容 llama.cpp、Ollama、LM Studio、Jan 等本地推理工具。这一格式对编程场景尤其有吸引力——可在本地处理私有代码库、运行命令、调试 bug,无需将代码上传云端或支付 API 调用成本。
各量化版本大小与显存要求如下:
V2 因更偏 Agentic,未提供 Q2_K(作者称压力测试未过、不够可靠),其最小可靠版本从 Q3_K_M(约 5.7 GB)起,推荐仍为 Q4_K_M(约 6.87 GB)。
作者还透露 V3 已在路上,将沿 12B 继续做 coding + agentic;同时他也在做更大的 Qwen3.6-27B 版本,为显存更宽裕的用户提供选择。
逯雨鑫目前是美国一所高校在读的 AI 方向研究生,本科专业为数据与商业分析,期间还补过一轮全栈开发,将前后端、软件开发、数据处理都学了一遍。这两款爆火模型并非主业,而是纯自费的个人项目。
他表示,做 V1 的最初动机是「自我提升」——学校课程更新滞后,干脆用这个项目逼自己跟上 AI 的迭代节奏。为此他烧掉了一整个 Claude Max 20× 订阅,仅 V2 一项就耗时 40 多小时。
硬件方面,他使用一张 RTX 5090(32 GB VRAM),配合约 96 GB 本地 SSD 资源,可调动总规模约 128 GB。整套流程几乎由一人独立完成:合成数据、手动清洗、训练、评测、再训练。
他指出整个流程最耗时的并非训练,而是数据处理。Agentic 真实对话往往很长,一个任务可能有十几步、数千甚至数万个 token,但受限于显存,训练时一次最多喂 2048 token。为此他采用类似「滑动窗口」的处理方式:每段多轮会话以最近一次用户消息为锚点,围绕一次工具调用裁剪上下文。
选择 Gemma 4 作为底座并非「好做」——Gemma 4 的格式与工具协议比较特殊、适配麻烦。但他算过:如果量化到 3 bit 左右,许多 8 GB 统一内存的 Mac 用户也能跑起来,并保留一定上下文窗口。
逯雨鑫将本地模型的价值概括为两个词:隐私,免费。
他认为很多人只是想用 AI 整理文件、处理数据、做 PPT,或简单体验 Agent,并不一定愿意为 Claude、GPT 每月付费。本地模型正好满足了「低成本上手」这一需求。
HF 平台上,他共发布了 9 个公开模型。除两款爆火模型外,还包括:
中文网文 LoRA 实际上是他最早进入 Hugging Face 的入口——他本人爱看网文,原本想做一套免费的小说生成 pipeline,帮助作者提速、读者更快追更。但中文网文 LoRA 在 HF 上关注度有限,他发现社区更关心 coding 与 agentic,于是逐步转向了现在的方向。
对于「凭什么能在大厂中间挤进前排」这一问题,逯雨鑫的回答很中肯:大厂做开源小模型往往还承担品牌宣传、API 引流等目标,而个人开发者没有这些包袱,反而可以更专注地解决一个具体痛点。
「我不是全面打败了他们,只是可能更认真一些。」
模型目前最适配的平台是 llama.cpp。HF 地址:https://huggingface.co/yuxinlu1