OpenAI 首席研究官：AGI 临近，Scaling 远未见顶

OpenAI 首席研究官 Mark Chen 近日在一档访谈节目中作出重磅表态：通用人工智能（AGI）正在临近，Scaling 指数曲线已撑过近 10 个数量级，没有理由认为它会停下。同时，他直言当前 AI 评测体系正陷入「危机」——原有的经典测试套件对今日的大模型已基本饱和。

关键信念：Scaling 远未见顶

面对过去几年反复出现的「预训练已死」「语言模型到不了 AGI」的论调，Mark Chen 表示「相当激烈地反对」。他指出，几乎每一次有人宣称某堵墙「过不去」，OpenAI 都能用工程技巧或研究上的新洞见把墙凿穿。

最有说服力的先例是推理范式。o1 立项时，连 OpenAI 内部都有人心存疑虑——彼时「预训练 + 后训练」的范式表现已经十分强势。是 Jakub Pachocki、Ilya Sutskever 等几位有信念、有判断力的研究者硬推，才把它变成全公司的根本性赌注。一年后 o1 出世，推理范式引爆整个行业。

Chen 的核心判断是：模型仍处在指数曲线上。当模型能在数周甚至数月的长周期任务上持续推理时，它所产生的创新可能已经超出人类专家的认知盲区——这正是「模型自我维持研究」的基石。

每个领域都在出现「神之一手」

Mark Chen 回忆，2016 年 AlphaGo 第二局的「第 37 手」，让全人类棋手集体看不懂，那一刻把他拽进了 AI 领域。如今他观察到一个更微妙的信号：很多人是在今年年初「一觉醒来」，突然意识到 AI agent 在自己这一行真的能干活了——不是玩具、不是 demo，而是能完成有意义的、长周期的真实工作。

他将这一现象概括为「几乎在每一个领域，都能看到自己的『神之一手』」，并由此自然外推到：能自己搞研究的模型已经不再遥远。

「Vibe Researcher」：研究员的工作将变成编排

访谈中，Chen 提出了一个颇具讨论度的概念——Vibe Researcher（氛围研究员）。他预测，未来的顶级研究员不再需要亲手写下每一行 PyTorch 代码，而是负责「拿捏感觉」。无论是 OpenAI 还是其他实验室，大量工作正在变成以编排（orchestration）为主——人负责出主意，模型负责执行与调度。OpenAI 的三年路线图，目标被描述为让模型完成端到端（end-to-end）的研究。

随着 AI 自主执行和编排任务的能力增强，人类的工作将被压缩到两端：提出真正的问题，以及判断 AI 给出的答案是否具备「灵魂」——即 Chen 所称的「品味」。但他同时承认，这条路远未铺平。

评测危机与参差的前沿

Chen 用了一个内部词描述当下评测的失灵：「Benchmaxxing」——研究团队刻意用与测试集高度相似的题目训练模型，分数一路飘红，泛化能力却原地踏步。更棘手的是，SAT 这类经典 benchmark 对今日模型几乎全部饱和，而一项评测一旦公开到世界上，便因进入训练数据而迅速「作废」。

他给出的应对方向有二：

将评估创建团队与模型优化团队分离，以形成对抗性激励；
在大规模部署中观察真实场景下的失败模式。

另一道绕不开的难题是「参差的前沿」（jagged frontier）——模型能拿下奥数、信息学奥赛级别的难题，却常常搞不定人类随手就能完成的日常琐事。差在哪里？Chen 认为差在上下文，差在持续学习（continual learning）——把一个任务里学到的教训迁移到下一个任务，对人来说是本能，对模型而言却是全行业正在死磕的硬骨头。

访谈收尾时，主持人问及 AGI 实现后的个人愿望，这位掌管着全球最强大 AI 大脑之一的负责人给出了一个意外的回答：「我想去开个面馆，这可能是我的 AGI 后爱好。」在他看来，当 AI 能够自我维持科研、所有知识与创新以光速产生，人类最稀缺的资源将不再是智力，而是体验——机器可以算出汤的最佳咸度，却永远无法赋予那碗汤以「温度」与「故事」。