AI 能否胜任事实核查?专业核查员与基准测试给出的答案是:还不行
WIRED 事实核查员结合自身工作与多项基准测试指出,主流大模型在事实核查任务中错误率仍高,AI 尚无法替代人工核查。
WIRED 事实核查部门近日发表长文,探讨 AI 是否能承担事实核查工作。作者作为从业十余年的核查员,结合自身工作经验与多项公开研究指出:当前主流大模型在事实准确性上仍然错误频出,远未达到可以取代专业核查员的水平。
AI 搜索与对话的错误率居高不下
作者分享了自己在工作中与 AI 打交道的主要场景——使用 Google 的 AI Overviews 辅助核查基础信息。她估算,在专业视角下,AI Overviews 给出结果约有三分之一是错误的,而这一比例甚至可能偏乐观。
更系统的数据来自学术与媒体研究:
- 2025 年 3 月 Tow Center for Digital Journalism 的研究显示,AI 驱动搜索引擎给出的回答中,超过 60% 存在准确性问题。
- BBC 的一项研究将聊天机器人的错误率定在约 45%,这也是被引用最多的数字之一。
- 综合来看,AI 在一般事实性问题上的错误率接近一半。
主流模型在事实核查基准上的表现
文章援引了两项针对性基准的测试结果:
- RealFactBench:由中国与英国计算机科学家于去年开发的专项事实核查基准。Claude 在全部指标上以 73% 的准确率领先,但测试未涵盖 Grok。
- SimpleQA:OpenAI 于 2024 年 10 月发布,包含 4000 余道单答案问题。参与测试的 OpenAI 与 Anthropic 模型均未超过 50% 准确率。Google 随后将题库精简至 1000 题,Gemini 2.5 Pro 以 55.6% 居首。
作者还让 ChatGPT 自我评估业界模型的准确率,得到的回答是「90%–96%」,但所附链接实际指向一篇关于睡眠医学考试的论文,所谓的「1%–2% 幻觉率」来源也无法点开。这一插曲本身也是当下模型引用不可靠的缩影。
模型「更聪明」不等于「幻觉更少」
文章引用了 AAAI(人工智能促进协会)2025 年发布的 AI 未来报告,60% 的受访研究者对「事实性问题」能否在近期得到解决表示悲观。一种被多位研究者提出的解释是:大模型被训练为取悦用户,这种「过度补偿」机制可能让模型在能力提升的同时,幻觉频率不降反升。
人工核查仍是不可替代的一环
即便如此,AI 已经在「事后事实核查」环节产生影响。英国机构 Full Fact 自主研发了 AI 工具,用于在海量社媒帖子与播客转写中定位可疑陈述,供人工进一步核查,工具已覆盖 40 多个国家。该机构公共事务负责人 Mark Frankel 强调:「你绝对需要人来参与。」
作者最后用自己的入职测试作为案例,分别交给 ChatGPT、Claude、Gemini 与 Grok 的免费版本作答。整体来看,模型给出的回答形式完整、措辞自信,但细节核验上仍漏洞不少,与专业核查员逐条比对一手资料、追问当事人、审视基本假设的工作方式相比,仍有本质差距。
结语
文章并未宣称 AI 在事实核查领域毫无用处,而是基于公开基准与自身实践给出一个审慎判断:在事实性这一最基础的能力维度上,主流大模型距离可靠仍有显著距离,AI 更适合作为人工核查的辅助,而非替代。短期内,「人机协作」仍是事实核查行业更现实的方向。
