MiCA 微调方法正式并入 Hugging Face PEFT 库

Hugging Face 旗下主流参数高效微调库 PEFT 迎来新成员 MiCA（Minor Component Adaptation）。研究者宣布 MiCA 已合并进 PEFT 主分支，用户可通过指定 init_lora_weights="mica" 在现有 LoRA 接口下直接调用，无需额外依赖即可使用这一新方法。MiCA 的代码与论文同步公开，arXiv 预印本编号为 2604.01694。

方法思路：利用次要奇异子空间

传统 LoRA 在对预训练权重矩阵 $W = U \Sigma V^T$ 做适配时，倾向于沿奇异值较大的主方向（dominant singular directions）注入新参数。MiCA 的核心不同在于：它选择奇异值较小的次要方向（minor singular subspace）作为适配空间，把 B 初始化为 $U[:, -r:]$、A 初始化为零矩阵。

由于 $BA = 0$ 在初始化时严格成立，适配器在训练开始前对基模型完全「无操作」，基模型输出被精确保留。训练过程中，MiCA 会冻结 B、只更新 A，从而把可训练参数压缩到 LoRA 的一半量级。研究者认为，主奇异方向已被预训练行为「占满」，次要方向反而更具可塑性，更适合注入新知识。

实验数据：知识吸收更优、遗忘更少

在覆盖三款模型与两组实验的对照中，MiCA 平均取得以下结果：

知识吸收（knowledge uptake）相比 LoRA 提升约 90%；
灾难性遗忘（catastrophic forgetting）减少约 20%；
可训练参数数量在测试设定下减少约 80%。

论文中提供了完整的实验设置与对比基准，用户可按需查阅。

实践建议与适用场景

MiCA 并非 LoRA 的「无脑替代品」，研究团队给出几条经验法则：

秩设定：$r_{mica} \approx r_{lora} / 2$；
学习率：$learning_rate_{mica} \approx 2 \times learning_rate_{lora}$，因可训练矩阵更少，可适当放大步长；
工作流建议：从基座模型（而非指令/对话模型）出发训练 MiCA → 将适配器合并进模型 → 用合并后的模型作为底座进行后续指令微调。

主要适用场景为持续预训练（continued pretraining）与领域自适应预训练。在监督微调（SFT）场景下效果中规中矩，仅靠指令微调的收益并不明显；早期强化学习实验结果则显示出一定潜力。

集成状态与后续

截至目前，MiCA 尚未进入 PEFT 的最新 PyPI 正式版本，但已合入主分支，可通过 pip install --upgrade git+https://github.com/huggingface/peft.git@main 安装使用。研究者对 Sebastian Raschka 的合作以及 Hugging Face 团队（Lewis Tunstal、Benjamin Bossan）在评审与集成上的支持表示感谢。