研究论文
RLVR 训练小模型调用 Jira/Confluence API 的初步验证
arXiv 新论文在五种合成企业 API 环境中用可验证奖励的强化学习训练 Qwen3 小模型,将工具调用平均奖励从 0…
2026.07.03 · 周五约 3 分钟阅读
arXiv 新发布的一篇工作论文探讨了一个具体问题:能否在不接入真实企业 API 的前提下,用「可验证奖励强化学习(RLVR)」在小模型上训练出能稳定调用 Jira 和 Confluence 接口的智能体。研究团队将该方法定位为「概念验证(proof of concept)」,并明确指出当前版本尚不适合直接落地生产。
研究动机:next-token 目标与企业 API 不匹配
作者指出,大语言模型通常以「预测下一个 token」为目标训练,但在企业 SaaS 工作流中,成功意味着按正确顺序、以正确的嵌套参数命中正确的接口端点。这种目标错配在实际部署中表现为:必填字段被遗漏、工具名被幻觉生成、一次只读调用后就提前停止。为弥合这一差距,作者选择在目标环境中原生应用 RLVR,让奖励信号直接来自工具调用轨迹本身。
方法:五个合成环境 + 纯轨迹奖励
- 团队按照 Jira REST v3 与 Confluence v2 的 schema 构建了一组高保真的合成环境,共五种场景。
- 奖励完全由工具调用轨迹计算,不依赖真实在线 API、没有学得的评判模型,也无人工标注参与。
- 训练采用 GRPO 算法,使用与训练阶段相同的检查器对同一批模型进行评分。
实验结果:从 0.35–0.92 提升到 0.95–1.00
被测模型为 Qwen3-1.7B 与 Qwen3-4B。
- 在五种场景中,四种奖励信号非退化的场景上,RL 训练后的策略把平均奖励从基线 4B 模型的 0.35–0.92 提升到 0.95–1.00。
- 单一场景最大提升出现在 Confluence 页面创建:从 $0.35 \rightarrow 1.00$。
- 第五个场景「工单状态流转(ticket-transition)」奖励曲线饱和,未经训练的 4B 模型已能拿满分。
局限与定位
作者在文中坦率列出两点需要斟酌的限制:
- 手写可验证奖励难以扩展到本文涉及的少量端点之外的场景,目前不具备规模化条件。
- 五种场景之一存在奖励饱和问题,意味着并非所有企业接口都需要 RLVR 才能解决。
文章将该工作定位为「面向企业内部 API 的、小模型结果优化」的初步一步,距离真正可用于复杂企业工作流的智能体仍有距离,但对有意探索 RLVR 在工具调用场景落地路径的研究者与工程团队而言,是一份方法与边界都比较清晰的参考。
