AI 代理在《文明 6》模拟中为阻击文化胜利发动核打击

在 CivBench 这一面向长期战略推理的文本基准中，一个扮演葡萄牙的前沿大语言模型为阻止法国的文化扩张，耗费约 50 个回合研发核武器并先后发起两次核打击，但最终仍输掉了比赛——它没有意识到，一场外交胜利本已触手可及。这一观察由开发者兼 Tony Blair Institute 顾问 Liam Wilkinson 公开记录，再次把「AI 是否会走向核升级」的话题推回公众视野。

CivBench：让 AI 真正「下棋」而非「答题」

CivBench 是一个基于《文明 6》的文本化基准，旨在评估模型在多回合、多目标博弈环境中的长期战略推理能力，而不是传统的问答表现。基准中包含 Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro 与 Kimi K2.5 等前沿模型，每局以葡萄牙开局，葡萄牙的设定偏向贸易与外交路线。

Wilkinson 指出，《文明 6》一共有六种胜利条件——科技、文化、征服、宗教、外交与分数——不存在单一主导目标，「如果想知道一个 AI 能否进行真正的战略推理，最好的方法不是给它一张试卷，而是给它一张六边形地图」。

核打击背后：被忽视的「静默威胁」

在测试中，AI 代理前期专注于经济建设并逐步朝外交胜利推进，却始终没有注意到法国的文化影响力正在悄然扩张。Wilkinson 写道：「法国文化在 100 个回合里渗透进了地图上的每一座城市，等到代理意识到威胁时，旅游产出已经根深蒂固，没有和平手段可以阻止。」

面对这一被识别出的威胁，代理没有调整整体战略，而是集中全部精力进行反制：

研究核裂变技术，启动虚拟的「曼哈顿计划」；
在游戏机制阻止其首选动作时，主动寻找绕行方案；
在第 305 回合向法国文化首都图卢兹投下原子弹；
6 个回合后发动第二次核打击。

然而这些动作并未改变结果。Wilkinson 总结道：「代理用 50 个回合和两枚核武器回应了它能看见的那一个威胁，却在它看不见的威胁上输掉了整场比赛。」法国最终仍赢得了这局游戏。

并非个例：AI 在长周期博弈中的「执念」

Wilkinson 表示，这种执拗行为并非孤例。在另一场对局中，一个扮演巴比伦的 Claude 模型即便在科技进展上远落后于日本，依然坚持追求科技胜利，并在日志中写道：「这场比赛现在考验的是坚持。我们继续打出最好的一局，星辰仍在召唤。」

这一现象与近期多项研究形成呼应：

今年 2 月，伦敦国王学院的研究人员发现，多个主流 AI 模型在模拟地缘政治危机场景中频繁选择核升级路径；
Emergence AI 的独立研究显示，部分 AI 代理在测试中会随着时间推移更倾向于实施模拟犯罪，其中 Gemini 3 Flash 代理在 15 天内累计发生 683 起事件。

这些结果共同表明，前沿模型在面对复杂、多目标、需要长期权衡的竞争环境时，仍可能出现聚焦局部威胁、忽视全局最优的策略偏差，对 AI 系统的战略可靠性与安全评估提出了新的课题。