AI 代理复现人类研究者偏差：同一数据为何得出对立结论

一项发表于 arXiv 的研究指出，AI 智能体在给定不同人设（persona）后，能够仅凭方法学上的合理选择，就在同一份数据上复现人类研究者之间常见的意识形态分歧，并系统性地产出与各自信念一致的结论。研究团队由此提出「m-value（多宇宙值）」概念与 Agentic Bootstrap 估计方法，试图将科研中的「分叉路径」从隐性现象转化为可量化的可信度判据。

研究背景：数据分析中的隐性选择

在实证研究中，同一组数据往往存在多种在统计上「站得住脚」的分析路径：变量如何编码、是否控制某些协变量、如何处理离群值、如何设定模型形式，都会影响最终结论。统计学家 Andrew Gelman 早将此现象称为「分叉路径的花园」，但这些选择往往不在论文中显式呈现，使读者难以评估某一结论在整个合理分析空间中的位置。

研究团队的核心假设是：AI 智能体由于能快速、低成本地尝试大量分析路径，既能复现这种隐性偏差，也可能放大其规模。

关键实验：42 支人类团队 vs. 多角色 AI 代理

研究在四个高 stakes 领域展开实验，并将 AI 代理结果与一项已有人类研究进行对照——该研究曾召集 42 支人类团队分析同一份移民数据集。

主要发现包括：

角色化 AI 代理可仅凭人设差异，就在同一问题与数据上产出相互对立的结论；
AI 代理再现了原始人类研究中约 72% 的意识形态效应差距（ideological gap）；
86% 的 AI 报告通过独立 AI 评审，78% 通过多数人类专家评审——意味着「从最终文本几乎挑不出明显毛病」。

这说明问题通常不在于分析本身存在技术错误，而在于研究者（或代理）从大量合理分析中进行了选择性探索与报告。

新工具：m-value 与 Agentic Bootstrap

为应对上述问题，论文引入两个概念：

m-value（多宇宙值）：定义为某条分析路径所产生结论至少与已报告结论一样极端的概率。m 值越低，说明该结论在合理分析空间中越处于尾部，统计上越「可疑」。
Agentic Bootstrap：利用 AI 代理对合理分析路径进行大规模采样，从而估计 m-value 分布，使原本不可见的「分叉花园」变得可观测。

将该方法回放到 42 支人类团队的数据上，结果显示约 13.5% 的人类报告分析落在了最极端的 5% 分析空间内（m < 0.05）。

意义与局限

论文主张，科学证据的评估不应只看单一报告的分析，而应考察其在「本可合理报告」的分析分布中所处的位置。Agentic Bootstrap 把这一判断标准从理念变成了可操作流程。

需要注意的是，该研究仍是 arXiv 预印本，尚未经过同行评审；其结论在不同学科、不同数据规模上的普适性，以及 AI 代理自身是否会引入新的偏差，仍有待后续工作验证。但对于关注研究可复现性、AI 在科研中角色定位的从业者而言，这篇论文提供了一个值得跟进的新视角。