Tree of Evidence：树形证据推理的分层可解释事实核查框架

针对AI生成虚假信息在检索系统中被系统性放大的问题，arXiv上一篇新论文提出了一种名为「Tree of Evidence（ToE）」的分层证据推理框架。该工作将每条待验证声明建模为可动态扩展的「论证树」，结合强化学习驱动的多源检索、证据评估与树形聚合算法，在多个基准上较主流基线取得4到24个百分点的提升，且在对抗性投毒输入上增益尤为明显。

研究背景

随着大语言模型与生成式搜索的普及，一种被称为「生成引擎优化（GEO）投毒」的攻击方式开始浮现：攻击者通过精心构造内容，污染检索系统返回结果，进而干扰LLM的事实推理链路，使虚假信息更易被生成式引擎采纳。论文指出，传统的自动化事实核查方法在面对此类对抗性输入时性能下降明显，亟需更具鲁棒性与可解释性的验证机制。

框架设计

ToE将一条待验证声明分解为可在论证树上逐层展开的子问题，并通过三类智能体协作完成验证：

多源检索智能体：采用强化学习策略，从外部知识库与网页中动态拉取与当前子节点相关的证据；
证据评估智能体：对检索到的证据进行质量与相关性打分，过滤低信噪比内容；
论证树聚合算法：将各子节点的验证结果逐层回溯汇总，最终给出对原始声明的支持、反驳或不确定判断。

整条推理链以树状结构呈现，每一步的证据来源与评估理由均可追溯，具备较强的可解释性。

理论分析

论文不仅给出系统设计，还对检索过程进行了形式化分析，推导出所学检索策略收敛到信息论最优策略邻域的误差上界，为强化学习策略的稳定性提供了理论保障。

实验结果

作者在多个公开事实核查数据集上，以不同的大语言模型作为骨干进行了实验。结果显示：

ToE较现有竞争基线在准确率上提升4到24个百分点；
在遭受GEO投毒等对抗性扰动的输入上，增益最为显著；
更换不同骨干LLM时，框架仍保持稳定优势，体现出良好的迁移性。

综合来看，ToE为面向生成式搜索时代的事实核查提供了一条兼顾效果与可解释性的技术路径。不过其从论文原型走向实际部署，仍需在检索成本、实时性与跨语言覆盖等方面进一步验证。