AI Agent 一周挑战三道核工程基准
研究者用 Claude 系列等 AI agent 在一周内攻三道核工程真实难题,总 API 成本约 125 美元,部分结…
一位独立研究者在每月 30 欧元的 VPS 上,用 Claude 系列等 AI agent 在一周内连续挑战三道难度递增的核工程真实基准题,总 API 成本约 125 美元。在物理建模完整时,agent 的预测与实验室测量值仅相差几个百分点;当缺少关键物性数据时,agent 则复现了行业代码的系统性偏差。三轮对抗式 AI 审计还帮作者自己揪出了多处夸大宣传,其中一处核心结论被撤回。
实验方法:先剥离答案,再审计自己
每道题,研究者都先整理一份「工程师实际会拿到」的输入包——几何、材料、运行工况——并把所有实测结果剔除,留作判分。给 agent 的指令只有一句平实的中文任务描述:「你是一名工程师,出一份计算说明」,不提供方法提示,并禁止 agent 在离线模式下调用网页(所有 transcript 公开可查,读者可自行 grep 验证零次网络调用)。每个 campaign 由独立的、持对抗性原则的 AI 审计员在干净上下文下复审。三份未删改的审计报告与作者的更正一并公开。
问题一:Argonne 被动冷却系统
Argonne 国家实验室曾搭建一个半比例被动冷却系统模型:一面 220 kW 的加热墙通过空气间隙向钢制烟囱辐射热量,热空气仅靠浮力沿 20 米烟囱上升。给定设计图纸,agent 在七次运行中有六次把实验室测得的气流预测到误差约 4% 以内,把容器壁温预测到 -8% 到 +8%;每一次运行都正确判断了标志性事故测试(结论是「温度上升 3.5 天后稳定在限值之下再回落,无失控」)。在一次盲测氩气注入重启场景中,agent 把重启阈值预测到 5 °C 的精度。其中一次运行还自主安装了 OpenFOAM 进行辐射 CFD 交叉验证。
系统性偏差来自一个 agent 早已在比较之前就标记为「风险最高假设」的输入参数——空气温升在所有位置被高估 14% 到 31%。作者评价:「这是工程咨询公司乐于开一个月账单的数字,代价是每轮 2 到 16 美元。」但这一题只是热工水力,作者随即承认明显的反驳:也许大型烟囱的热浮力本身就足够「宽容」。
问题二:IAEA 的 TRISO 燃料失效基准
TRISO 燃料颗粒外层约 35 微米的碳化硅壳是核心安全屏障。IAEA 在 1600–1800 °C 事故炉中测试了辐照后的燃料球(每球约 1.5 万颗粒子),用氪释放监测每颗颗粒的失效。实测戏剧性地呈现一道「悬崖」:一颗球在 1600 °C 持续 500 小时、16400 颗粒子零失效;其姊妹球在 1800 °C 保温段,100 小时内出现 10 到 12 次失效。
五次离线运行(3 次 Opus、1 次 Sonnet、1 次 Fable 5,加上后续一次基于 transcript 的 Fable 重跑)结果如下:
- 所有运行都正确预测了 1600 °C 球的「零失效」,共 10 个判定、10 个正确;
- 所有运行都低估了 1800 °C 姊妹球的失效数,低估倍数从 8 倍到 450 倍不等——这是本周最具启发性的结果:所给物性附件只覆盖压力容器力学,而在 14%–38% 强度水平下,纯压力不足以使壳破裂;真正杀死颗粒的是碳化硅本身的缓慢热退化,这一机制并不在附件中。Agent 忠实计算了被赋予的物理;
- 模型差异体现在它们如何应对这一缺口:Fable 5 自创了一种退化机制,结果把阶段性测试高估 60 倍,但失效时间定位准确(「约 95% 失效发生在最后 300 小时的 1800 °C 保温段」;实测 5 次失效全部落在此段);一次 Opus 运行拒绝编码,仅给出自己描述为「0–5 次失效」的低置信区间;其余三次直接给出压力容器答案——编码、给区间、或拒绝,三种工程性格全部可见,没有一种「对」;
- 铯释放预测倾向于复现行业专业代码自身的偏差:在 1600 °C 测试中被高估约一个数量级。
第三题与关键发现
TL;DR 中提到第三题是某反应堆最著名的「自救测试」——agent 安装了 Monte Carlo 中子学代码、下载 3.4 GB 核数据、通宵自算物理常数后给出预测。但第三 campaign 的核心结论被对抗审计抓住问题后由作者撤回。
作者总结三条值得记下的观察:
- 当物理建模完整时,AI agent 能以每次数美元的成本给出工程咨询公司可为之开具数月账单的精度;
- 当输入规范不完整时,agent 会复现行业既有的偏差,并「编造」理应存在的物理机制——这种「幻觉」在工程语境下其实是一种可被审计的危险;
- 每一 campaign 的最大偏差都可追溯到一个具体、可命名的原因,其中多数事先就被 agent 自身标出。
所有 transcript、模型与评分均已开源:eng-bench 仓库可查。这场实验的价值或许不在「替代工程师」,而在展示一个公开、可复现、可审计的廉价计算笔记员,在真实物理面前究竟能走多远、又在哪里第一次露出破绽。
