桃子桃子 AI 快讯
返回首页
研究论文

学习何时停止未必更优:推理模型早退机制的成本敏感研究

论文提出 LearnStop 多特征早退方法,在 18 个任务-模型设置上测试后发现,学习式停止的价值高度依赖任务结构,…

2026.07.01 · 周三4 分钟阅读

核心问题:推理模型的「何时停止」仍是开放议题

近年来,以 Qwen3、DeepSeek-R1 为代表的大型推理模型在不同样本上消耗的计算量差异巨大:一个简单问题可能在几步之内收敛,而一道 AIME 级别的难题则需要数百甚至上千个 token 的链式思考。然而,何时应该让模型「提前结束」一直缺乏系统化的指导。简单做法是用置信度、答案一致性等标量信号做阈值,但这些信号在多选题、开放式数学题上的可靠性参差不齐。

来自 arXiv 的新研究《When Does Learning to Stop Help? A Cost-Aware Study of Early Exits in Reasoning Models》围绕这一空白展开,对「学习式停止」是否真正优于标量阈值进行了成本敏感的实证检验。

方法:LearnStop 与多特征在线探针

论文提出 LearnStop——一种不依赖隐藏状态、基于检查点的停止器。其做法是在若干固定预算检查点处,从当前推理前缀中探测一个简短答案,再利用一组在线特征预测该前缀的最终正确性,包括:

  • 答案置信度(answer confidence)
  • 熵(entropy)
  • 前缀投票份额(prefix vote share)
  • 答案稳定性(answer stability)
  • 回溯标记密度(backtracking-marker density)

这些特征在 KV-fork、prefix-cache、黑盒三种推理部署形态下均可低成本获取。

实验:18 个任务-模型设置的横向扫描

研究覆盖 18 个「任务-模型」组合,涵盖 GSM8K、MATH-500、MMLU-Pro、AIME-90、GPQA 等多个基准,模型侧则使用 Qwen3 系列与 DeepSeek-R1 蒸馏模型。每个设置同时报告经验前沿、验证集选定运行点、配对 bootstrap 显著性、有限网格下的「漏掉正确答案」风险,以及 H100 上的服务画像与检查点调度扫描。

主要发现:学习式停止不是万能解

在自由形式数学题上,学习式多特征停止显著改善了固定预算下的效率-精度前沿:

  • GSM8K + Qwen3-32B:经验前沿出现 +0.157 的后验峰值自适应增益;
  • 验证集选定的运行点仍能保持正向增益;
  • 相对最强标量基线的配对增益为 +0.028。

在多选题与极难任务上,结论则相反:标量的置信度、熵或稳定性阈值已经足够强,学习式方法既不显著占优,也常常落后。

论文因此把 LearnStop 定位为「任务相关」的工具,而非标量早退的通用替代品。

实践建议

研究的最终结论对工程部署具有直接参考价值:

  • 适合使用学习式停止的情形:大量题目在用满预算前已经做对,但缺乏单一可靠的标量停止信号;
  • 学习式停止收益消失的情形:当置信度或答案收敛本身已能解决停止问题时。

附加贡献

除主结论外,论文还提供了:

  • 验证集选定的运行点(而非只看经验峰值)以避免过拟合;
  • 配对 bootstrap 检验;
  • 有限网格的「漏对风险」校准;
  • 三种部署形态下的成本核算;
  • H100 服务画像与检查点调度扫描;
  • 跨模型迁移分析;
  • 多项稳健性检验。

这些材料使研究结论在落地时更易复现与外推。

小结

该工作没有宣称「学习式停止必胜」,而是给出更精细的判断:当问题偏自由形式、且单标量信号不可靠时,多特征停止器值得引入;当标量规则已经能压住分布时,再叠加学习层反而是冗余。这种「在什么条件下有用」的结论,是推理模型工程化过程中较少被显式讨论的实证基础。

信源