桃子桃子快讯
返回首页
开源

社区开发者将 Gemma4-31B 扩展至 44B,分层复制 + 恒等初始化微调

Reddit 用户将 Gemma4-31B 通过分层复制扩展为约 44B / 88 层模型,并在韩语法律与 STEM 数…

2026.07.02 · 周四3 分钟阅读

近日,Reddit 用户 /u/Desperate-Sir-5088 在 r/LocalLLaMA 板块分享了一项个人实验:基于 Google 已发布的 Gemma4-31B,作者通过分层复制(block duplication)将模型从 31B 扩展到约 44B(88 层),并在韩语法律与 STEM 数据上进行了两阶段微调。项目成果以 extGemma4-44B 命名,发布在 Hugging Face。作者坦言自己并非计算机或数学专业背景,整个过程是在自用硬件上反复试错完成,希望社区指出理论层面的疏漏。

扩展方法与训练流程

作者参考 LLaMA Pro 的恒等初始化(identity-init)思路,对 Gemma4-31B 进行了两轮层扩展:

  • 第一轮:将层数从 60 扩展到 80,使用恒等初始化新增层,并在韩语法律与 STEM 数据上进行微调。
  • 第二轮:在已微调模型的基础上继续做块复制,将层数从 80 推到 88,总参数达到约 47B。

为了解决 Gemma4 架构下恒等初始化失效的问题,作者额外引入了一个 Gemma4 专属的 layer_scalar 修复,花了不少时间排查。作者的工作假设是:Gemma4 的稠密架构将知识压缩得相当紧凑,导致在不破坏原有表征的前提下塞入全新领域知识非常困难;分层扩展相当于为新领域「购买」独立的空余容量,而非与既有权重争抢空间。

验证与早期结果

作者在模型卡中给出了三项验证内容:

  • 架构层面的恒等初始化检查,确认新增层不会破坏已有表征。
  • 训练层面的验证,确认被复制的全注意力层确实被训练激活,而非保持「死权重」状态,且贡献度高于滑窗注意力层。
  • 面向法律与 STEM 的早期效果显示该路径有初步可行性。

不过作者明确表示尚未测试工具调用(tool calling)能力,也缺乏标准化的基准评测数据。

局限与下一步

作者列出了当前最薄弱的两项能力——编程与工具调用——并希望社区协助补强,包括:可用于代码与函数调用的通用 CoT 数据集、模型工具调用能力的压力测试反馈、以及是否应继续把模型推到 96–100 层,还是专注于在 88 层规模下提升数据与训练质量的判断。此外,作者还计划把同一套扩展思路尝试应用到 GLM-5.2 或 DeepSeek V4-Flash 等 MoE 架构上,并征求 MoE 专属扩展(upcycling、专家复制、路由调整等)的相关资料与经验。

整体来看,这是一项个人驱动的实验性工作,技术思路与 LLaMA Pro 一脉相承,未提供系统的基准成绩,结论的稳健性有待社区进一步检验。

信源