AI 能否胜任事实核查？专业核查员与基准测试给出的答案是：还不行

WIRED 事实核查部门近日发表长文，探讨 AI 是否能承担事实核查工作。作者作为从业十余年的核查员，结合自身工作经验与多项公开研究指出：当前主流大模型在事实准确性上仍然错误频出，远未达到可以取代专业核查员的水平。

AI 搜索与对话的错误率居高不下

作者分享了自己在工作中与 AI 打交道的主要场景——使用 Google 的 AI Overviews 辅助核查基础信息。她估算，在专业视角下，AI Overviews 给出结果约有三分之一是错误的，而这一比例甚至可能偏乐观。

更系统的数据来自学术与媒体研究：

2025 年 3 月 Tow Center for Digital Journalism 的研究显示，AI 驱动搜索引擎给出的回答中，超过 60% 存在准确性问题。
BBC 的一项研究将聊天机器人的错误率定在约 45%，这也是被引用最多的数字之一。
综合来看，AI 在一般事实性问题上的错误率接近一半。

文章援引了两项针对性基准的测试结果：

RealFactBench：由中国与英国计算机科学家于去年开发的专项事实核查基准。Claude 在全部指标上以 73% 的准确率领先，但测试未涵盖 Grok。
SimpleQA：OpenAI 于 2024 年 10 月发布，包含 4000 余道单答案问题。参与测试的 OpenAI 与 Anthropic 模型均未超过 50% 准确率。Google 随后将题库精简至 1000 题，Gemini 2.5 Pro 以 55.6% 居首。

作者还让 ChatGPT 自我评估业界模型的准确率，得到的回答是「90%–96%」，但所附链接实际指向一篇关于睡眠医学考试的论文，所谓的「1%–2% 幻觉率」来源也无法点开。这一插曲本身也是当下模型引用不可靠的缩影。

文章引用了 AAAI（人工智能促进协会）2025 年发布的 AI 未来报告，60% 的受访研究者对「事实性问题」能否在近期得到解决表示悲观。一种被多位研究者提出的解释是：大模型被训练为取悦用户，这种「过度补偿」机制可能让模型在能力提升的同时，幻觉频率不降反升。

即便如此，AI 已经在「事后事实核查」环节产生影响。英国机构 Full Fact 自主研发了 AI 工具，用于在海量社媒帖子与播客转写中定位可疑陈述，供人工进一步核查，工具已覆盖 40 多个国家。该机构公共事务负责人 Mark Frankel 强调：「你绝对需要人来参与。」

作者最后用自己的入职测试作为案例，分别交给 ChatGPT、Claude、Gemini 与 Grok 的免费版本作答。整体来看，模型给出的回答形式完整、措辞自信，但细节核验上仍漏洞不少，与专业核查员逐条比对一手资料、追问当事人、审视基本假设的工作方式相比，仍有本质差距。

文章并未宣称 AI 在事实核查领域毫无用处，而是基于公开基准与自身实践给出一个审慎判断：在事实性这一最基础的能力维度上，主流大模型距离可靠仍有显著距离，AI 更适合作为人工核查的辅助，而非替代。短期内，「人机协作」仍是事实核查行业更现实的方向。