美国在读研究生逯雨鑫自费的 Gemma 4-12B 蒸馏模型登顶抱抱脸 Trending,单卡 5090 完成,下载量超…
在抱抱脸 Models Trending 榜上,智谱 GLM-5.2、百度 Unlimited-OCR、Qwen、NVIDIA、微软等一长串大厂名字之间,挤进了一个个人账号 yuxinlu1,而且一占就是两个位置,最新下载量分别高达 20.7 万和 53.6 万,连智谱负责人都曾在 X 上公开推荐。这两个模型出自一位名叫逯雨鑫的在读研究生之手,纯自费、单机 5090、一个人完成。
逯雨鑫发布的两个模型都以 Gemma 4-12B 为底座,主打本地可跑的编程与 Agent 能力。
在 tau2-bench 的 telecom 子集上,基座 Gemma 4-12B 得分约 15%,V2 提升到约 55%,接近基础性能的 3.5 倍。作者也强调,这是 20 个任务的本地自测结果,不能直接与官方榜单对比,且与前沿大模型仍有不小差距。
训练数据仅约 1 万条 examples。作者认为,数据量并非关键,质量、筛选和验证才决定最终效果。值得一提的是,Fable 5 后来被下线,作者用 Claude Opus 4.8(xhigh)补齐了缺失的推理轨迹,并承认重建结果「可能和原版 Fable 5 有出入」。
两个模型均为 GGUF 量化版,可直接通过 llama.cpp、Ollama、LM Studio、Jan 等本地推理工具加载,对写代码、看仓库、调 bug 等需要私有环境的场景尤其有吸引力。
换句话说,一张消费级显卡甚至 8 GB 统一内存的 Mac,就能跑起一个离线、零 API 成本的编程助手,这是下载量快速攀升的关键原因。
逯雨鑫目前在美国一所高校攻读 AI 方向研究生,本科背景为数据与商业分析,期间补过一轮全栈开发。这两个爆款模型并非主业,而是纯自费的个人项目。
硬件层面,他使用一张 RTX 5090(32 GB 显存)配合约 96 GB 本地 SSD,可调用资源总量约 128 GB,与大厂算力池完全不在一个量级。软件层面,仅 V2 一项就花掉 40 多小时,外加一整套 Claude Max 20× 套餐。整条流水线——合成数据、手动清洗、训练、评测、再训练——几乎全部由他一人完成。
他表示最耗时的环节并非训练,而是数据处理。Agent 场景的真实对话动辄几千到几万个 token,但受显存限制,他训练时一次最多喂 2048 token,因此采用「滑动窗口」式处理:以最近一次用户消息为锚点、围绕单次工具调用裁剪上下文。
在 Hugging Face 上,他还发布过直接蒸馏 Claude Opus 通用能力的 Gemma 4-12B 模型,以及基于 JetBrains Mellum2 的推理蒸馏模型。另外还有四款基于 Qwen3.6 的中文网文 LoRA,是他最早做 HF 模型的入口,源自个人追更小说的需求。
谈及自己患有 ADHD,他坦言,过去这可能意味着难以长期按部就班推进一件事,但在 AI 这种高速迭代的领域,快速切换兴趣、进入心流状态反而成为某种优势,甚至认为「AI 时代是 ADHD 的天下」。
V3 已在规划中,将继续沿 12B 路线推进 coding 与 agentic 方向,重点改善 V2 在 tau2-bench telecom 上「过度尝试、反复 retry」的问题。
此外,他还在准备一个更大尺寸的版本——基于 Qwen3.6-27B 的同款 coding + agentic 配方,面向显存更宽裕的用户。模型仓库地址:https://huggingface.co/yuxinlu1