桃子桃子 AI 快讯
返回首页
开源

MiCA 微调方法正式并入 Hugging Face PEFT 库

Minor Component Adaptation(MiCA)已合并进 Hugging Face PEFT,主打持续预…

2026.06.29 · 周一3 分钟阅读评分 66
评分细项加权总分 66
重要性
60
新颖性
72
影响面
60
可信度
78
实质性
72

Hugging Face 旗下主流参数高效微调库 PEFT 迎来新成员 MiCA(Minor Component Adaptation)。研究者宣布 MiCA 已合并进 PEFT 主分支,用户可通过指定 init_lora_weights="mica" 在现有 LoRA 接口下直接调用,无需额外依赖即可使用这一新方法。MiCA 的代码与论文同步公开,arXiv 预印本编号为 2604.01694。

方法思路:利用次要奇异子空间

传统 LoRA 在对预训练权重矩阵 $W = U \Sigma V^T$ 做适配时,倾向于沿奇异值较大的主方向(dominant singular directions)注入新参数。MiCA 的核心不同在于:它选择奇异值较小的次要方向(minor singular subspace)作为适配空间,把 B 初始化为 $U[:, -r:]$、A 初始化为零矩阵。

由于 $BA = 0$ 在初始化时严格成立,适配器在训练开始前对基模型完全「无操作」,基模型输出被精确保留。训练过程中,MiCA 会冻结 B、只更新 A,从而把可训练参数压缩到 LoRA 的一半量级。研究者认为,主奇异方向已被预训练行为「占满」,次要方向反而更具可塑性,更适合注入新知识。

实验数据:知识吸收更优、遗忘更少

在覆盖三款模型与两组实验的对照中,MiCA 平均取得以下结果:

  • 知识吸收(knowledge uptake)相比 LoRA 提升约 90%;
  • 灾难性遗忘(catastrophic forgetting)减少约 20%;
  • 可训练参数数量在测试设定下减少约 80%。

论文中提供了完整的实验设置与对比基准,用户可按需查阅。

实践建议与适用场景

MiCA 并非 LoRA 的「无脑替代品」,研究团队给出几条经验法则:

  • 秩设定:$r_{mica} \approx r_{lora} / 2$;
  • 学习率:$learning_rate_{mica} \approx 2 \times learning_rate_{lora}$,因可训练矩阵更少,可适当放大步长;
  • 工作流建议:从基座模型(而非指令/对话模型)出发训练 MiCA → 将适配器合并进模型 → 用合并后的模型作为底座进行后续指令微调。

主要适用场景为持续预训练(continued pretraining)与领域自适应预训练。在监督微调(SFT)场景下效果中规中矩,仅靠指令微调的收益并不明显;早期强化学习实验结果则显示出一定潜力。

集成状态与后续

截至目前,MiCA 尚未进入 PEFT 的最新 PyPI 正式版本,但已合入主分支,可通过 pip install --upgrade git+https://github.com/huggingface/peft.git@main 安装使用。研究者对 Sebastian Raschka 的合作以及 Hugging Face 团队(Lewis Tunstal、Benjamin Bossan)在评审与集成上的支持表示感谢。

信源