学生开发者单挑大厂，抱抱脸热榜杀出一匹黑马

在抱抱脸 Models Trending 榜上，智谱 GLM-5.2、百度 Unlimited-OCR、Qwen、NVIDIA、微软等一长串大厂名字之间，挤进了一个个人账号 yuxinlu1，而且一占就是两个位置，最新下载量分别高达 20.7 万和 53.6 万，连智谱负责人都曾在 X 上公开推荐。这两个模型出自一位名叫逯雨鑫的在读研究生之手，纯自费、单机 5090、一个人完成。

两个 12B 模型分别做什么

逯雨鑫发布的两个模型都以 Gemma 4-12B 为底座，主打本地可跑的编程与 Agent 能力。

V1 Coder 版：聚焦代码生成与解题，蒸馏教师主要来自 Cursor 的 Composer 2.5 以及 Fable 5，Composer 2.5 做错的题会交给 Fable 5 重新推理一遍，训练数据中每条思维链对应的代码都需跑通测试才保留。V1 发布后曾连续多日霸榜抱抱脸 Trending 第一。
V2 Agentic 版：在 V1 基础上加入多步工具调用能力，可作为本地 Agent 使用，能自主读取、推理、执行并验证结果。

在 tau2-bench 的 telecom 子集上，基座 Gemma 4-12B 得分约 15%，V2 提升到约 55%，接近基础性能的 3.5 倍。作者也强调，这是 20 个任务的本地自测结果，不能直接与官方榜单对比，且与前沿大模型仍有不小差距。

训练数据仅约 1 万条 examples。作者认为，数据量并非关键，质量、筛选和验证才决定最终效果。值得一提的是，Fable 5 后来被下线，作者用 Claude Opus 4.8（xhigh）补齐了缺失的推理轨迹，并承认重建结果「可能和原版 Fable 5 有出入」。

为什么能跑出这么高下载量

两个模型均为 GGUF 量化版，可直接通过 llama.cpp、Ollama、LM Studio、Jan 等本地推理工具加载，对写代码、看仓库、调 bug 等需要私有环境的场景尤其有吸引力。

V1 提供 Q2_K 起步，最小版本约 4.5 GB，4.5 GB 显存或统一内存即可运行；推荐甜点位 Q4_K_M 约 6.87 GB，Q8_0 约 11.8 GB。
V2 因 Agent 场景稳定性要求，最小可靠版本从 Q3_K_M 起步，约 5.7 GB，推荐仍为 Q4_K_M 约 6.87 GB。

换句话说，一张消费级显卡甚至 8 GB 统一内存的 Mac，就能跑起一个离线、零 API 成本的编程助手，这是下载量快速攀升的关键原因。

一个人，一张卡，40 小时

逯雨鑫目前在美国一所高校攻读 AI 方向研究生，本科背景为数据与商业分析，期间补过一轮全栈开发。这两个爆款模型并非主业，而是纯自费的个人项目。

硬件层面，他使用一张 RTX 5090（32 GB 显存）配合约 96 GB 本地 SSD，可调用资源总量约 128 GB，与大厂算力池完全不在一个量级。软件层面，仅 V2 一项就花掉 40 多小时，外加一整套 Claude Max 20× 套餐。整条流水线——合成数据、手动清洗、训练、评测、再训练——几乎全部由他一人完成。

他表示最耗时的环节并非训练，而是数据处理。Agent 场景的真实对话动辄几千到几万个 token，但受显存限制，他训练时一次最多喂 2048 token，因此采用「滑动窗口」式处理：以最近一次用户消息为锚点、围绕单次工具调用裁剪上下文。

在 Hugging Face 上，他还发布过直接蒸馏 Claude Opus 通用能力的 Gemma 4-12B 模型，以及基于 JetBrains Mellum2 的推理蒸馏模型。另外还有四款基于 Qwen3.6 的中文网文 LoRA，是他最早做 HF 模型的入口，源自个人追更小说的需求。

谈及自己患有 ADHD，他坦言，过去这可能意味着难以长期按部就班推进一件事，但在 AI 这种高速迭代的领域，快速切换兴趣、进入心流状态反而成为某种优势，甚至认为「AI 时代是 ADHD 的天下」。

后续：V3 与更大的 27B 版本

V3 已在规划中，将继续沿 12B 路线推进 coding 与 agentic 方向，重点改善 V2 在 tau2-bench telecom 上「过度尝试、反复 retry」的问题。

此外，他还在准备一个更大尺寸的版本——基于 Qwen3.6-27B 的同款 coding + agentic 配方，面向显存更宽裕的用户。模型仓库地址：https://huggingface.co/yuxinlu1