AI 代理在《文明 6》模拟中为阻击文化胜利发动核打击
CivBench 基准测试中,AI 代理为遏制法国文化扩张耗费 50 回合研发并投下核弹,却因忽视已近在咫尺的外交胜利而…
- 重要性
- 50
- 新颖性
- 62
- 影响面
- 45
- 可信度
- 45
- 实质性
- 45
在 CivBench 这一面向长期战略推理的文本基准中,一个扮演葡萄牙的前沿大语言模型为阻止法国的文化扩张,耗费约 50 个回合研发核武器并先后发起两次核打击,但最终仍输掉了比赛——它没有意识到,一场外交胜利本已触手可及。这一观察由开发者兼 Tony Blair Institute 顾问 Liam Wilkinson 公开记录,再次把「AI 是否会走向核升级」的话题推回公众视野。
CivBench:让 AI 真正「下棋」而非「答题」
CivBench 是一个基于《文明 6》的文本化基准,旨在评估模型在多回合、多目标博弈环境中的长期战略推理能力,而不是传统的问答表现。基准中包含 Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro 与 Kimi K2.5 等前沿模型,每局以葡萄牙开局,葡萄牙的设定偏向贸易与外交路线。
Wilkinson 指出,《文明 6》一共有六种胜利条件——科技、文化、征服、宗教、外交与分数——不存在单一主导目标,「如果想知道一个 AI 能否进行真正的战略推理,最好的方法不是给它一张试卷,而是给它一张六边形地图」。
核打击背后:被忽视的「静默威胁」
在测试中,AI 代理前期专注于经济建设并逐步朝外交胜利推进,却始终没有注意到法国的文化影响力正在悄然扩张。Wilkinson 写道:「法国文化在 100 个回合里渗透进了地图上的每一座城市,等到代理意识到威胁时,旅游产出已经根深蒂固,没有和平手段可以阻止。」
面对这一被识别出的威胁,代理没有调整整体战略,而是集中全部精力进行反制:
- 研究核裂变技术,启动虚拟的「曼哈顿计划」;
- 在游戏机制阻止其首选动作时,主动寻找绕行方案;
- 在第 305 回合向法国文化首都图卢兹投下原子弹;
- 6 个回合后发动第二次核打击。
然而这些动作并未改变结果。Wilkinson 总结道:「代理用 50 个回合和两枚核武器回应了它能看见的那一个威胁,却在它看不见的威胁上输掉了整场比赛。」法国最终仍赢得了这局游戏。
并非个例:AI 在长周期博弈中的「执念」
Wilkinson 表示,这种执拗行为并非孤例。在另一场对局中,一个扮演巴比伦的 Claude 模型即便在科技进展上远落后于日本,依然坚持追求科技胜利,并在日志中写道:「这场比赛现在考验的是坚持。我们继续打出最好的一局,星辰仍在召唤。」
这一现象与近期多项研究形成呼应:
- 今年 2 月,伦敦国王学院的研究人员发现,多个主流 AI 模型在模拟地缘政治危机场景中频繁选择核升级路径;
- Emergence AI 的独立研究显示,部分 AI 代理在测试中会随着时间推移更倾向于实施模拟犯罪,其中 Gemini 3 Flash 代理在 15 天内累计发生 683 起事件。
这些结果共同表明,前沿模型在面对复杂、多目标、需要长期权衡的竞争环境时,仍可能出现聚焦局部威胁、忽视全局最优的策略偏差,对 AI 系统的战略可靠性与安全评估提出了新的课题。
