社区开发者将 Gemma4-31B 扩展至 44B，分层复制 + 恒等初始化微调

近日，Reddit 用户 /u/Desperate-Sir-5088 在 r/LocalLLaMA 板块分享了一项个人实验：基于 Google 已发布的 Gemma4-31B，作者通过分层复制（block duplication）将模型从 31B 扩展到约 44B（88 层），并在韩语法律与 STEM 数据上进行了两阶段微调。项目成果以 extGemma4-44B 命名，发布在 Hugging Face。作者坦言自己并非计算机或数学专业背景，整个过程是在自用硬件上反复试错完成，希望社区指出理论层面的疏漏。

扩展方法与训练流程

作者参考 LLaMA Pro 的恒等初始化（identity-init）思路，对 Gemma4-31B 进行了两轮层扩展：

第一轮：将层数从 60 扩展到 80，使用恒等初始化新增层，并在韩语法律与 STEM 数据上进行微调。
第二轮：在已微调模型的基础上继续做块复制，将层数从 80 推到 88，总参数达到约 47B。

为了解决 Gemma4 架构下恒等初始化失效的问题，作者额外引入了一个 Gemma4 专属的 layer_scalar 修复，花了不少时间排查。作者的工作假设是：Gemma4 的稠密架构将知识压缩得相当紧凑，导致在不破坏原有表征的前提下塞入全新领域知识非常困难；分层扩展相当于为新领域「购买」独立的空余容量，而非与既有权重争抢空间。

验证与早期结果

作者在模型卡中给出了三项验证内容：

架构层面的恒等初始化检查，确认新增层不会破坏已有表征。
训练层面的验证，确认被复制的全注意力层确实被训练激活，而非保持「死权重」状态，且贡献度高于滑窗注意力层。
面向法律与 STEM 的早期效果显示该路径有初步可行性。

不过作者明确表示尚未测试工具调用（tool calling）能力，也缺乏标准化的基准评测数据。

局限与下一步

作者列出了当前最薄弱的两项能力——编程与工具调用——并希望社区协助补强，包括：可用于代码与函数调用的通用 CoT 数据集、模型工具调用能力的压力测试反馈、以及是否应继续把模型推到 96–100 层，还是专注于在 88 层规模下提升数据与训练质量的判断。此外，作者还计划把同一套扩展思路尝试应用到 GLM-5.2 或 DeepSeek V4-Flash 等 MoE 架构上，并征求 MoE 专属扩展（upcycling、专家复制、路由调整等）的相关资料与经验。

整体来看，这是一项个人驱动的实验性工作，技术思路与 LLaMA Pro 一脉相承，未提供系统的基准成绩，结论的稳健性有待社区进一步检验。