学习何时停止未必更优:推理模型早退机制的成本敏感研究
论文提出 LearnStop 多特征早退方法,在 18 个任务-模型设置上测试后发现,学习式停止的价值高度依赖任务结构,…
核心问题:推理模型的「何时停止」仍是开放议题
近年来,以 Qwen3、DeepSeek-R1 为代表的大型推理模型在不同样本上消耗的计算量差异巨大:一个简单问题可能在几步之内收敛,而一道 AIME 级别的难题则需要数百甚至上千个 token 的链式思考。然而,何时应该让模型「提前结束」一直缺乏系统化的指导。简单做法是用置信度、答案一致性等标量信号做阈值,但这些信号在多选题、开放式数学题上的可靠性参差不齐。
来自 arXiv 的新研究《When Does Learning to Stop Help? A Cost-Aware Study of Early Exits in Reasoning Models》围绕这一空白展开,对「学习式停止」是否真正优于标量阈值进行了成本敏感的实证检验。
方法:LearnStop 与多特征在线探针
论文提出 LearnStop——一种不依赖隐藏状态、基于检查点的停止器。其做法是在若干固定预算检查点处,从当前推理前缀中探测一个简短答案,再利用一组在线特征预测该前缀的最终正确性,包括:
- 答案置信度(answer confidence)
- 熵(entropy)
- 前缀投票份额(prefix vote share)
- 答案稳定性(answer stability)
- 回溯标记密度(backtracking-marker density)
这些特征在 KV-fork、prefix-cache、黑盒三种推理部署形态下均可低成本获取。
实验:18 个任务-模型设置的横向扫描
研究覆盖 18 个「任务-模型」组合,涵盖 GSM8K、MATH-500、MMLU-Pro、AIME-90、GPQA 等多个基准,模型侧则使用 Qwen3 系列与 DeepSeek-R1 蒸馏模型。每个设置同时报告经验前沿、验证集选定运行点、配对 bootstrap 显著性、有限网格下的「漏掉正确答案」风险,以及 H100 上的服务画像与检查点调度扫描。
主要发现:学习式停止不是万能解
在自由形式数学题上,学习式多特征停止显著改善了固定预算下的效率-精度前沿:
- GSM8K + Qwen3-32B:经验前沿出现 +0.157 的后验峰值自适应增益;
- 验证集选定的运行点仍能保持正向增益;
- 相对最强标量基线的配对增益为 +0.028。
在多选题与极难任务上,结论则相反:标量的置信度、熵或稳定性阈值已经足够强,学习式方法既不显著占优,也常常落后。
论文因此把 LearnStop 定位为「任务相关」的工具,而非标量早退的通用替代品。
实践建议
研究的最终结论对工程部署具有直接参考价值:
- 适合使用学习式停止的情形:大量题目在用满预算前已经做对,但缺乏单一可靠的标量停止信号;
- 学习式停止收益消失的情形:当置信度或答案收敛本身已能解决停止问题时。
附加贡献
除主结论外,论文还提供了:
- 验证集选定的运行点(而非只看经验峰值)以避免过拟合;
- 配对 bootstrap 检验;
- 有限网格的「漏对风险」校准;
- 三种部署形态下的成本核算;
- H100 服务画像与检查点调度扫描;
- 跨模型迁移分析;
- 多项稳健性检验。
这些材料使研究结论在落地时更易复现与外推。
小结
该工作没有宣称「学习式停止必胜」,而是给出更精细的判断:当问题偏自由形式、且单标量信号不可靠时,多特征停止器值得引入;当标量规则已经能压住分布时,再叠加学习层反而是冗余。这种「在什么条件下有用」的结论,是推理模型工程化过程中较少被显式讨论的实证基础。
