普朗克旧文被算法误撤稿，AI 知识基础设施可靠性引担忧

马克斯·普朗克——量子论奠基人、1918 年诺贝尔物理学奖得主——其发表于 1940 年和 1942 年的两篇学术文章，近期在 Springer 的数字平台上被标记为「retracted」（撤回）。但根据一篇新发表的 arXiv 论文，这两篇文章并非因学术不端或错误被撤，而是被平台算法误伤。这一看似离奇的事件，实际上折射出现代学术出版基础设施在处理历史文献时的深层问题，也对 AI 时代的知识管理和训练数据可靠性提出了警示。

撤稿标签背后的算法误判

据物理学史研究者调查，触发「撤稿」标签的原因是平台将这两篇文章识别为「版权违规」或「重复发表」。Springer 平台页面标题将其标注为「RETRACTED ARTICLE」，PDF 内文则注明「This article has been withdrawn due to article violation」。

这两篇文章分别是 1940 年的《自然科学与真实外部世界》和 1942 年的《精确科学的意义与界限》。它们并非实验报告或新理论，而是普朗克关于科学知识性质的哲学反思。其中，1942 年那篇源自普朗克 1941 年在柏林 Kaiser-Wilhelm-Gesellschaft 的演讲，后以小册子、期刊（《Europäische Revue》和《Die Naturwissenschaften》）和演讲集等多种形式流通。这种从演讲到期刊、从小册子到文集的多渠道传播，在前数字时代是科学思想传播的正常路径，但在现代数据库中容易被识别为「重复发表」或「自我剽窃」。

更严重的是，这两篇文章在 Springer 平台上变成了空白页。通常撤稿会保留原文并附说明，但在这里连原文都无法访问，必须借助 Internet Archive 等非营利档案库才能看到。

历史实践与现代系统的错位

这一事件的核心问题在于：现代出版平台的版权管理和文献计量标准，是 20 世纪后期才逐步成形的。「自我剽窃」这一概念尤其晚近，它随着 1990 年代以来以论文数量衡量学术生产力的评价体系而兴起。用这套标准去衡量前数字时代的学术实践，本身就存在错位。

当历史文献进入数字平台后，它们会被拆解为 DOI、标题、作者、版权状态、撤稿标签、PDF 文件、引用记录等结构化对象。平台若按当代规则自动或半自动地处理旧文献，就可能把过去正常的出版实践，改写成今天的「违规事件」。

对 AI 知识系统的警示

这一错位在 AI 时代尤其值得警惕。训练数据、数据清洗、文献数据库、知识图谱和 RAG 系统，都默认数字化知识是稳定、可检索、可调用的。但普朗克事件提醒我们：数字档案并非中性的「过去之镜」，而是一套带有商业逻辑、法律假设和平台规则的过滤器。

数据会被平台重新命名、重新分类，甚至被空白页替代。一个现代版权和计量系统，把前数字时代正常的科学传播行为反向判定为可疑操作，直接影响了历史文献的可访问性。对 AI 系统而言，一个错误标签、一段缺失的 PDF、一次不透明的版权处理，都可能在模型、搜索引擎和学术工具中被进一步放大——未来的 AI 助手未必知道普朗克的文章是「误撤」的，它可能只会看到数据库里那个冷冰冰的 retracted 标记。

随着科学记忆越来越多地被数据库、出版商、平台规则和商业基础设施托管，如何确保这些系统能够准确、可信地承载人类知识的过去，将成为 AI 时代不可回避的基础设施级问题。