Hinton 盛赞，Gemini 核心成员长篇演讲：未来将涌现数十亿「AI 爱因斯坦」

诺贝尔物理学奖、图灵奖双料得主 Geoffrey Hinton 盛赞「精彩绝伦」，谷歌 DeepMind Blueshift 团队负责人、Gemini 大模型核心贡献者 Adam Brown 近日在圆周理论物理研究所发表长篇演讲《训练沙子思考：通用人工智能与物理学的未来》。他从 LLM 的训练机制、Scaling Law 的物理渊源、基准测试的「短命史」一路谈起，谈到大模型在国际数学奥林匹克和埃尔德什猜想上取得的历史性突破，并预测未来将涌现数十亿「超人级 AI 爱因斯坦」。

神经网络是「养成」的，不是「编写」的

布朗给出一个核心比喻：大模型不是被「编写」出来的，而是被「养成」的。与算盘、计算器等单点工具不同，大模型具备完成理论物理学家全流程工作的潜力，是真正意义上的「通用智能」基质。这些系统早在几年前就已悄悄通过图灵测试，但几乎没人专门庆祝。

训练分为两个阶段：

预训练：从随机连接的人工神经元出发，让模型不断预测文本中的下一个词，猜对强化、猜错削弱。从一百万词到几千万词、再到几十万亿词，模型从胡言乱语进化为流畅对话。
后训练：布朗称之为把模型「送进礼仪学校」，让只会机械续写、粗鲁不服管的模型变得礼貌、配合用户。

目前主流大模型参数量已从十年前的十亿级跃升到几万亿级，但仍远低于人脑约一百万亿个突触连接的规模。

Scaling Law：物理学家点燃了这场革命

布朗特别强调物理学家在 AI 革命起点上的关键角色：他们把寻找幂律的思维方式搬到了神经网络上。2020 年，几位具有物理学背景的研究者发现，只要把训练算力、数据量和模型规模按比例放大，模型在「预测下一个词」任务上的表现就会沿对数-对数坐标的直线稳步提升。这条曲线后来被拓展了整整八个数量级依然成立，布朗调侃「简单到连风险投资人都能看懂」。

过去十年，前沿 AI 训练消耗的算力每年增长约四倍，投入资金每年增长约 2.7 倍；目前一次顶级训练需花费数亿美元，而美国全年 GDP 接近三十万亿美元，增长空间仍非常大。但布朗指出，比堆算力更重要的是算法层面的持续打磨——这是过去十年 AI 进步背后真正的「第一引擎」。

基准测试的「短命史」

布朗用一连串基准测试的兴衰描绘能力跃升曲线：

MATH（高中数学题）：四年前最先进模型仅得 6%，人类专家 40% 至 90%。当年预测市场认为 2025 年模型达到 50% 已是「狂妄的乐观」。到 2024 年中，布朗团队在该基准拿到 90%，半年后现成大模型近乎满分。
GPQA（博士资格考试难度）：模型在 2024–2025 年间从随机猜测冲过专家水准（70%），如今几乎满分。
布朗本人在斯坦福出的广义相对论与量子力学研究生期末考题：模型在一年半内拿到满分。

最具标志性的跨越发生在国际数学奥林匹克（IMO）。去年夏天，布朗团队的系统在 IMO 级别测试中六题对五题，达到金牌水准。IMO 主席公开评价这些解答「在很多方面都令人惊讶」，清晰、精确，使用了与人类相似的数学抽象方式。但模型也有「翻车」现场：经典脑筋急转弯「父亲车祸身亡，主刀医生说他是我儿子」的反转版本，模型完全没有察觉，机械套用了「医生是另一位家长」的标准答案。

真正的转折点：AI 独立攻克尘封八十年的猜想

布朗认为意义更重大的进展发生在 2026 年初：OpenAI 内部一个大模型独立给出了埃尔德什 1946 年提出的「单位距离猜想」的反例，借助代数数论工具构造出单位距离对数量超过公认上限的点集，相当于推翻了这一长期被信以为真的猜想。菲尔兹奖得主高尔斯参与复核并给出高度评价。

布朗判断，这是大模型在数学领域取得的第一个真正意义上的重大突破，「闸门已经打开」。他半开玩笑地说，这道题率先被攻克，大概是因为其题目结构恰好踩在了大模型的「舒适区」里。

此外，去年九月布朗团队与几位职业数学家以「半人马式」协作完成的数学论文得到了斯坦福大学教授、美国数学学会现任会长的联名肯定，被评价为「并非对现有证明的简单重新包装，而是一种他本人也会为之自豪的洞见」。

国际象棋的预言

为了让听众相信进步曲线还会持续，布朗援引国际象棋 AI 的四个阶段：玩具时代、工具时代、半人马时代，以及当下人类已进入的「超人时代」——顶尖棋手与计算机合作时，最优策略是干脆放手让计算机自己下。他由此总结几条规律：计算机擅长战术与搜索、弱于战略与「品味」；训练 AI 所需经历的对局虽远超人类一生能下的棋局，但「日历时间」反而更短；计算机棋力一旦超越人类巅峰便再未停下；AI 崛起反而提升了人类棋手整体水平。

布朗的暗示很明确：如果科学研究重复这条轨迹，人类很可能会先迎来完全自主的「AI 科学家」，再之后是某种意义上的「AI 爱因斯坦」。至于再往后，他坦言已超出自身预测范围。他也提出了值得警惕的「悲观假设」：哪怕大模型能力从今天起完全停滞，当前其在自主性、学习速度、规划能力、纠错能力上仍有明显短板，远不足以独自提出全新的量子引力理论。但即便如此，物理学也已经被这场技术浪潮重塑。