BayesBench：评估大模型多轮证据下的信念更新轨迹

arXiv 最新论文提出 BayesBench，一个用于检验大语言模型在多轮对话中是否遵循贝叶斯推理逻辑来更新信念的基准套件。研究指出，当前主流评测多以单轮、只看最终答案的方式打分，忽略了模型在新证据不断涌入时如何修正对环境的不确定性这一关键过程。BayesBench 正是为填补这一空白而设计。

三类递进任务

BayesBench 由三组仿真环境组成，复杂度逐级提升：

贝叶斯估计（Bayesian estimation）：模型需要根据序列证据推断未知参数；
贝叶斯预测（Bayesian prediction）：在已推断出的潜变量信念基础上，对可观测结果进行预测；
潜变量框定的贝叶斯预测（latent-framed Bayesian prediction）：观察被嵌套在用户角色框架中，模型需同时推断潜状态与角色设定。

第三类任务对模型提出了最严格的要求——既要读懂框架，又要据此修正对目标结果的信念。

研究团队在 3B 到 70B 参数规模的七个大模型上展开测试，主要结论包括：

该工作强调，多轮对话中大模型的信念演化是一个独立且可被测量的过程，单轮最终答案的评测方式会遮蔽其推理中的偏差。BayesBench 为后续研究提供了一个可复现的实验框架，有望推动对长程推理、对话 agent 等场景的更细粒度评估。

论文目前以 arXiv 预印本形式发布（编号 2606.30850v1），更多任务细节与具体模型表现尚待完整论文进一步披露。