研究：自我反馈对大模型提升有限，学生使用反馈能力才是关键瓶颈

一项发表于 arXiv 的研究系统考察了自然语言反馈究竟在多大程度上能提升大模型表现。研究者在多轮语言智能体（language agent）场景中设计了严格的「学生—教师」对照协议，覆盖 Omni-MATH、Codeforces、BBEH Linguini 与 ARC-AGI1 四个差异显著的基准，并在学生与教师两种角色下共评测了 13 个开源权重模型。

核心方法：把「重试红利」与「反馈红利」拆开

以往多轮交互研究常以最终准确率上升作为反馈有效的证据，但该文指出这一指标存在混淆：多尝试一次、修正格式、增加测试时算力本身就能带来增益。研究因此区分了三类条件——外部反馈、自我反馈、无引导的自我迭代（unguided self-refinement），并控制交互历史、任务难度以及教师是否拥有特权任务信息，从而分离出「反馈本身」的贡献。

关键发现：自我反馈几乎没有额外价值

跨多个基准的一致结果显示，多轮提升往往并不意味着模型真正「用上了」反馈：

自我生成的反馈相比无引导自我迭代几乎无明显增益；
只有表现最强的外部教师能带来显著且可归因于反馈的提升；
反馈要发挥价值，必须提供「再试一次」以外的指导信息。

这意味着，在评估交互式智能体时，若不与「重复尝试」基线对比，结论极易高估反馈机制的作用。

瓶颈在学生侧，而不在教师侧

通过密集的学生—教师交互矩阵，研究进一步指出，互动增益的更大驱动因素是学生使用反馈的能力，而非教师是谁。固定学生时，教师选择仍有影响；但跨学生看，「能不能消化反馈」才是决定上限的关键。

启示与工具

基于上述结论，研究者建议：

反馈式智能体评估应强制设置重复尝试基线；
训练与评测应更关注「使用反馈的能力」，而非仅仅「是否有反馈可用」；
弱教师与学生能力不足都会成为瓶颈，二者需协同提升。

论文同时开源了配套的受控师生评测框架，供后续研究复现与扩展。