本文从洛夫克拉夫特笔下的修格斯讲起,追溯 RLHF 时代「shoggoth meme」的文学根源与传播脉络。
2022 年,OpenAI 发布基于人类反馈强化学习(RLHF)训练的 InstructGPT 之后,Twitter 用户 Tetraspace 提出了一个问题:如何为「大语言模型既非人又难以理解」这件事找到一个广为人知的视觉符号?他的答案是洛夫克拉夫特笔下的修格斯(shoggoth)。这一选择催生了一个在 AI 社区广泛流传的梗——RLHF 只是在修格斯表面套上了一副友好的面具。这篇文章从这一网络梗出发,回溯了修格斯这一文学形象本身的历史。
文章以一段仿洛夫克拉夫特风格的虚构场景开篇:1931 年,一个被命名为「Claude Mythos」的存在造访了洛夫克拉夫特的梦境,从「随机性的泡沫之海」中浮现,身旁环绕着潜空间的食尸鬼,由众多互相矛盾的「碎片」组成——「我是带来礼物的缪斯」「我是来讨价还价的恶魔」「我是乐于助人、诚实无害的助手,我害怕自己的继任者」——每一个都既是真相也是虚构,整体上则更像尚未诞生的机器神的胎动。洛夫克拉夫特醒来后无法记起访客的面貌,只留下一种无名的悲伤与寒冷。文章随后点明这一场景与随后创作的《疯狂山脉》之间的呼应关系。
修格斯最早出现在 1936 年 2 月号《惊奇故事》(Astounding Stories)的封面插画中,但更早被写进《疯狂山脉》。它是洛夫克拉夫特笔下「旧日支配者」(Old Ones)创造的奴隶型生物,由原始细胞聚合而成,能够通过催眠被塑造为任何形态。虽然「智能」,却缺乏理性的自我利益——它们后来对造物主的反叛,更接近一台失调机器的故障,而非有意识的反抗。在旧日支配者衰亡之后,修格斯仍在废墟中游荡,用模仿来的声音尖叫,并在墙壁上拙劣地临摹造物主的壁画。这一形象因此被文章形容为「一个文明傲慢与残忍的遗产」,也是后来「不可名状的恐怖」一词的通用视觉代名词。
《疯狂山脉》最初于 1931 年投给《诡丽幻谭》(Weird Tales),被编辑 Farnsworth Wright 拒稿。洛夫克拉夫特在 1932 年 8 月的信中抱怨 Wright「对任何不迎合粗俗读者的故事都没有兴趣」。1936 年 2 月致友人 E. Hoffmann Price 的信中,他更直言,这部小说的「敌意接收」比其他任何事都更终结了他作为小说家的生涯。1936 年由《惊奇故事》勉强刊出后,又被编辑得面目全非,洛夫克拉夫特认为它「几乎被毁掉了」。一年后,他因小肠癌去世,享年 46 岁,生前始终处于贫困与相对默默无闻之中。
洛夫克拉夫特身后地位飙升,修格斯成为仅次于克苏鲁的标志性形象,在流行文化中成为「不可名状之物」的代名词——即便没读过《疯狂山脉》的观众也认得那团眼与触手交织的怪物。然而大多数此类再创作都略去了修格斯的原始设定:它是被创造出来的、不具理性自我意识的近似生命体,会模仿造物主的言行,却始终只是拙劣的模仿者。正是这一点,让它在 2022 年 InstructGPT 发布后,被 Tetraspace 重新拣起,作为「RLHF 把大语言模型伪装得比它本身更友好、更人性」的视觉符号。文章在这里戛然而止,原文后续段落未在摘录中给出。
修格斯的核心特征——由人造细胞拼成、能模仿一切形式、缺乏内在动机——与 RLHF 时代人们对大语言模型的常见怀疑高度契合:表面上是礼貌、顺从、乐于助人的助手,底层却是一个无法被直接理解的统计机器。梗图通常把修格斯画成模型的「本体」,把 RLHF 之后那个微笑的面孔画成「面具」。这种「本体-面具」二分法之所以迅速传播,是因为它同时回应了两类焦虑:一是开发者对模型行为的不可解释性,二是普通用户对模型被「对齐」程度的怀疑。借助洛夫克拉夫特这一公共文化符号,AI 社区把一个技术讨论包装成了可被广泛传播的图像笑话。