学习何时停止未必更优：推理模型早退机制的成本敏感研究

核心问题：推理模型的「何时停止」仍是开放议题

近年来，以 Qwen3、DeepSeek-R1 为代表的大型推理模型在不同样本上消耗的计算量差异巨大：一个简单问题可能在几步之内收敛，而一道 AIME 级别的难题则需要数百甚至上千个 token 的链式思考。然而，何时应该让模型「提前结束」一直缺乏系统化的指导。简单做法是用置信度、答案一致性等标量信号做阈值，但这些信号在多选题、开放式数学题上的可靠性参差不齐。

来自 arXiv 的新研究《When Does Learning to Stop Help? A Cost-Aware Study of Early Exits in Reasoning Models》围绕这一空白展开，对「学习式停止」是否真正优于标量阈值进行了成本敏感的实证检验。

方法：LearnStop 与多特征在线探针

论文提出 LearnStop——一种不依赖隐藏状态、基于检查点的停止器。其做法是在若干固定预算检查点处，从当前推理前缀中探测一个简短答案，再利用一组在线特征预测该前缀的最终正确性，包括：

答案置信度（answer confidence）
熵（entropy）
前缀投票份额（prefix vote share）
答案稳定性（answer stability）
回溯标记密度（backtracking-marker density）

这些特征在 KV-fork、prefix-cache、黑盒三种推理部署形态下均可低成本获取。

实验：18 个任务-模型设置的横向扫描

研究覆盖 18 个「任务-模型」组合，涵盖 GSM8K、MATH-500、MMLU-Pro、AIME-90、GPQA 等多个基准，模型侧则使用 Qwen3 系列与 DeepSeek-R1 蒸馏模型。每个设置同时报告经验前沿、验证集选定运行点、配对 bootstrap 显著性、有限网格下的「漏掉正确答案」风险，以及 H100 上的服务画像与检查点调度扫描。

主要发现：学习式停止不是万能解

在自由形式数学题上，学习式多特征停止显著改善了固定预算下的效率-精度前沿：

GSM8K + Qwen3-32B：经验前沿出现 +0.157 的后验峰值自适应增益；
验证集选定的运行点仍能保持正向增益；
相对最强标量基线的配对增益为 +0.028。

在多选题与极难任务上，结论则相反：标量的置信度、熵或稳定性阈值已经足够强，学习式方法既不显著占优，也常常落后。

论文因此把 LearnStop 定位为「任务相关」的工具，而非标量早退的通用替代品。

实践建议

研究的最终结论对工程部署具有直接参考价值：

适合使用学习式停止的情形：大量题目在用满预算前已经做对，但缺乏单一可靠的标量停止信号；
学习式停止收益消失的情形：当置信度或答案收敛本身已能解决停止问题时。

附加贡献

除主结论外，论文还提供了：

验证集选定的运行点（而非只看经验峰值）以避免过拟合；
配对 bootstrap 检验；
有限网格的「漏对风险」校准；
三种部署形态下的成本核算；
H100 服务画像与检查点调度扫描；
跨模型迁移分析；
多项稳健性检验。

这些材料使研究结论在落地时更易复现与外推。

小结

该工作没有宣称「学习式停止必胜」，而是给出更精细的判断：当问题偏自由形式、且单标量信号不可靠时，多特征停止器值得引入；当标量规则已经能压住分布时，再叠加学习层反而是冗余。这种「在什么条件下有用」的结论，是推理模型工程化过程中较少被显式讨论的实证基础。