UATC：用闭环控制思路稳定边缘 GPU 上的 LLM 微调

在消费级 GPU 上微调大语言模型，OOM（显存溢出）几乎是每个开发者都踩过的坑：一条超长序列、一次 batch 调大，就能让跑了数小时的训练瞬间崩溃。Show HN 项目 UATC（Universal Adaptive Training Controller）试图用一套工业控制领域的经典工具——卡尔曼滤波、PID 控制器、史密斯预测器——把这个抖动问题当作「闭环控制系统」来处理。

把训练当成一个动态控制过程

UATC 的核心观点是：LLM 微调在边缘硬件上的稳定性，本质上是一个控制问题，而不是一个硬件预算问题。QLoRA、LoRA 等参数高效方法虽然把 1B–8B 参数模型的静态占用压进了 16GB 显存预算，但激活值、Attention 缓存、梯度累积和优化器状态带来的动态占用仍然高度波动，静态配置的 batch size 和学习率对此完全无感。

UATC 作为一层薄薄的编排逻辑包裹在 PyTorch 的训练步之外，每一步观察 GPU 显存压力、loss 行为和序列长度统计，再下发一组执行指令：目标 batch size、学习率、AMP 开关、梯度检查点开关，以及一个动态剪枝比例。整个控制器完全在设备侧运行，不依赖多机基础设施，对模型大小、数据集和训练范式都不做假设。

控制器由六个子系统组成

UATC 不是一个单一算法，而是一组协作的子系统，各自处理不同的扰动来源：

卡尔曼滤波器：负责对带噪的显存和 loss 测量做去噪状态估计，避免 PID 被瞬时抖动带偏。
带 anti-windup 的 PID 控制器：根据显存压力反馈调节 batch size 和学习率。
史密斯预测器：补偿 OOM 反馈回路中的过程时延，防止控制器在冲击后长时间停在最小 batch。
三态施密特触发器：引入滞回，避免状态机在 WARMUP、SCALING、CONVERGENCE、RECOVERY 四个相位之间反复振荡。
相位感知的动态数据剪枝器：在当前相位对应的 loss 阈值之上才保留样本，作为控制器的「快释压」杠杆。
分级恢复子系统：区分瞬时 NaN/Inf（软恢复）与持续 OOM（硬降 batch + 进入 RECOVERY 相位）。

控制器是 paradigm-aware 的：同一份配置可以在全参数微调、PEFT 和 QLoRA 之间切换，不需要改代码。

在 T4 上跑出的具体数字

作者在 15GB 显存的 NVIDIA T4 上用 QLoRA 微调 Qwen2.5-1.5B-Instruct，并人为制造了一个「显存拥堵」的测试环境，共进行 5 组对照实验：完整 UATC、三个单子系统消融、以及一个类 DeepSpeed 的静态基线（梯度检查点常开、batch size=8、每步 empty_cache）。

完整 UATC 在 300 个训练步内：

完成全部 300 步，无任何致命崩溃；
动态剪枝掉 86.22% 的冗余样本遍历（3999 次样本遍历中剪掉 3448 次）；
触发并自动恢复 18 次 EMERGENCY_OOM 事件，其中包括 2 次人工注入的显存冲击（step 50 的 1024 token 上下文冲击、step 120 的 48 样本 batch 冲击）以及 16 次 PID 试探突破 T4 上 BS=24 硬件上限时触发的真实 OOM。

对比之下，类 DeepSpeed 的静态基线尽管持有大量空闲显存，仍然在第一次冲击时就发生致命崩溃。

消融说明各组件不可替代

作者对每个关键子系统都做了关闭对比：

关闭卡尔曼滤波器：PID 回路变得不稳定，控制行为出现抖动；
关闭史密斯预测器：冲击发生后控制器会卡在最小 batch size 上数十步；
关闭数据剪枝器：控制器失去最主要的快速释压手段，无法在 OOM 临近时及时降载。

论文还给出了一个收敛性论证：剪枝器与相位机的交互，使得最终用于 loss 计算的样本必然来自「难样本」集合，因此训练过程中的高残差 loss 是学习信号而非失败信号。

谁会关心这个工作

UATC 关注的并不是数据中心级的多卡训练，而是单卡、显存紧张、需要长时间稳定运行的边缘微调场景，例如本地开发机、消费级显卡上的小模型迭代。对这一类用户而言，「跑得久」和「跑得稳」往往比峰值吞吐更重要。如果后续能在更多模型和数据集上复现，并提供与 Hugging Face Transformers、PEFT 库的即插即用集成，这类控制思路在低资源 LLM 工程化中仍有可观的实用空间。