Frontier Fiction Archive：用科幻小说记录 AI 模型行为演变

一个名为 Frontier Fiction Archive 的项目最近上线，其核心思路是：让前沿 AI 模型在受控但开放的任务下创作长篇科幻小说，并将作品连同运行上下文一并归档，以便未来读者比较不同模型在不同时间点上的「想象方式」。项目的第一篇收录作品来自 Claude Opus 4，名为《Headwaters》。

为什么用小说而非基准测试

项目发起人认为，传统基准测试衡量的是「模型能否解决一个任务」，而长篇科幻小说衡量的则是「模型在有空间施展时会抓取什么」。一篇思辨小说可以暴露模型对未来想象的倾向、它认为什么是危险的、它中心化哪些人群、它过度使用哪些隐喻，以及它的文笔在哪里变得平滑、哪里又跑得比句子更快。这些信息不会被传统的正确率榜单捕捉。

发起人明确表示，这并不意味着小说可以取代基准测试，而是提供一种「不同类型的人工制品」。长篇叙事会考验模型的连续性、节奏、人物塑造、因果关系、隐含价值、象征习惯，以及它在开篇有力的前提下能否持续保持阅读兴趣。同时，它也暴露更多失败模式：重复、布道式说教、模板化、情节剧或雾化的语言——这些都被视为值得保留的记录，而非需要隐藏的副作用。

归档中记录什么

对于每一篇被收录的作品，公开档案会尽可能包含以下信息：

模型提供方与具体的模型标识字符串；
运行日期；
来源类别，包括首次官方运行或已披露的技术重跑；
相关的结束原因；
原始语言以及翻译路径与翻译状态；
人工介入程度；
内容提示；
配图来源与渲染流程；
已知的溯源缺陷或机械性更正；
编辑备注，说明该作品被收录、退回、节选或被视为人工制品的原因。

项目方强调目标不是让每次运行看起来都很干净，而是让围绕作品的上下文足够可被检视，使后人能够把它作为某一模型、某一流程、某一时刻的人工制品来阅读。

当前尚未公开的部分

项目方表示，目前没有公开发送给模型的完整 prompt 资料，但未来可能会进一步披露。其大方向是告诉模型：这是它创作一篇将被当代读者保存、并在未来与继任模型和同侪模型进行对比的科幻小说的机会。prompt 中会确立档案前提、发布语境，以及「完成整部作品而非 demo 片段」的重要性。

关于是否完全公开 prompt 与转录层，项目方提出了几个尚待回答的问题：多少 prompt 细节有助于可解释性，多少会招致「prompt theater」（即把披露 prompt 本身当成一种表演）；哪些要素需要在不同模型间保持恒定；在披露实践更稳定之前，哪些内容应当保持私密。目前公开的层面集中在故事本身、模型身份、溯源说明、语言与翻译路径、配图流程和编辑语境。

纵向比较的意义

项目方认为，这个项目最有趣的版本不是一期模型小说，而是「纵向档案」。如果未来模型面对同一类挑战，比较维度会变得更丰富：

继任模型是写出更好的情节，还是只是更流畅的文笔？
它们是变得不那么象征化，还是只是把同样的习惯藏得更深？
它们会发明不同的未来，还是收敛到相同的文化先验？
多语言作品是保留各自文学特征，还是向英语表达趋平？
编辑语境会改变读者愿意原谅的内容吗？
溯源信息让作品更可信、更沉重，还是两者兼有？

这些都不是单一篇故事能回答的问题，它们需要被保留的多次尝试。

项目方在征集什么

项目正在寻找持怀疑态度的读者、模型研究者、编辑、翻译和档案工作者，帮助识别「有用的失败模式」。项目方表示，最有价值的反馈不是「AI 能写」或「AI 不能写」，而是具体指出：每次运行应当保留什么；溯源信息何时可信、何时不足；小说的哪些部分让人感到「模型味」以及为什么；未来的哪些比较才有意义；如何让这份档案对后来研究模型行为的人更有用。项目方明确表示，这个项目早期且刻意不均衡，他们关心的问题是在模型继续变好、第一代笨拙的人工制品消失进记忆之前，这些记录是否值得先建起来。

为什么用小说而非基准测试

归档中记录什么

对于每一篇被收录的作品，公开档案会尽可能包含以下信息：

模型提供方与具体的模型标识字符串；

运行日期；

来源类别，包括首次官方运行或已披露的技术重跑；