AI 内容洪流与「认知热寂」:网页信号正在失效?
解读 Szulc 论文:当 AI 内容淹没网络,传统指标失去衡量意义,但搜索与聊天助手已在悄然筛选人类内容。
当你打开搜索引擎,输入一个稍微具体的问题,前五条结果往往格式工整、读起来流畅,却几乎没有提供任何超出问题本身的新信息。这种感觉并非错觉,也不只是「SEO 变差了」。一篇正在流传的工作论文认为,这是某种结构性变化的可见症状:网络的填充速度正在超过其真实内容的创造速度,而我们沿用二十年的衡量指标,已经悄悄失去了衡量的对象。
论文核心:「认知热寂」是什么
这篇论文题为《Epistemic Heat Death and the Signal-to-Noise Ratio of the Global Web》,作者 Jarosław Szulc,全文共十六个章节、九个附录,并附带微分方程模型与香农熵分析。其核心主张是:随着 AI 生成的文本、图像、视频逐渐占据网络新增内容的多数,表面上网页数量、文章数量、形式多样性都在膨胀,但实际的「信息含量」却在暗中坍塌。
Szulc 用「认知热寂」来命名这一失效模式,刻意借用了热力学中的「热寂」概念,强调它并非模糊的「质量下降」,而是一组更具体的现象:真正独立的观点、有据可查的论断、可追责的人类作者不再增长,而内容的总产量却在持续爆炸。论文因此指出,页面浏览量、互动率、链接权重、「热门趋势」这类工具不仅变得不再准确,它们从一开始就是为「在人类内容中寻找人类内容」的世界而设计的,在区分人类内容与合成内容这件事上从未被设计过。
数字与争议
「到 2026 年 90% 的网络内容将由 AI 生成」这一说法被反复引用,通常被追溯到 2022 年 Europol 的一份威胁报告。但需要指出的是,那是 ChatGPT 消费品尚未发布时的预测,并非测量结果,原文中也没有可查证的方法论。
实际测量给出的画面更为复杂:
- Ahrefs 对 90 万个页面的研究发现,约四分之三存在某种程度的 AI 参与,但仅约 2.5% 是「纯 AI」、未经任何人工编辑的内容。
- 一家内容情报厂商估算,每月新发布的 AI 辅助页面约为 3.12 亿,两年前约为 8200 万——无论其中人机比例如何,都是真实的快速增长。
- 对 Common Crawl 中 6.5 万个 URL 的分析显示,AI 生成文章在 2024 年 11 月前后一度超过人工写作,此后两者占比大致持平,而非继续向 90% 攀升。
更值得注意的是同一研究中的另一个细节:在 Google 自然搜索结果中,排名前列的页面绝大多数(按百分比算处于八十多这个区间)仍是人类撰写;ChatGPT、Perplexity 等聊天助手在引用来源时也呈现同样的倾向。也就是说,搜索与 AI 助手似乎已经在「悄然」偏向人类作者,无论这是设计使然还是排名信号自然演化的副作用。Szulc 认为,这恰恰与其框架一致:原始合成内容占比的平台期,并不意味着人们真正依赖的分发渠道没有在底层继续筛选更稀缺、更可信任的内容。
为什么是「热寂」隐喻
「热寂」是热力学中描述宇宙理论终点的术语:当所有物质达到同一温度,再没有可用的能量梯度,系统便无法做功。Szulc 借用这一结构,把信息替换为能量,描绘一个表面上看似丰富、实则失去有效能量梯度的系统。但他也谨慎地指出隐喻断裂之处:真正的热力学热寂是最大熵——彻底、真实的随机化;而他描述的更接近一种相反机制产生的相似外观:网络并非变得更加随机,而是在视觉上越来越同质化。
这个区分至关重要,因为它将论文与其他仅仅套用物理学词汇来制造戏剧效果的文本区分开来。它意味着 Szulc 的工作并非声称网络陷入了无序,而是说网络陷入了一种「看起来丰富、实际同质」的状态。
这意味着什么
抛开「90%」这个被反复引用的预测不谈,真正在发生的是一件更细致、也更可验证的事情:人类与 AI 内容的比例关系正在被分发渠道主动或被动地重新谈判。搜索结果、聊天助手的引用列表、以及未来可能出现的更多信号,都在对「内容来自哪里」做出隐式判断。Szulc 的论文并没有宣称这种筛选已经完成,它只是给出了一个名字,提醒我们:当我们衡量网络时,可能问错了问题。
