Mark Chen 近日访谈中表示,AGI 即将到来,Scaling 曲线已撑过近 10 个数量级,并指出 AI 评测体…
OpenAI 首席研究官 Mark Chen 近日在一档访谈节目中作出重磅表态:通用人工智能(AGI)正在临近,Scaling 指数曲线已撑过近 10 个数量级,没有理由认为它会停下。同时,他直言当前 AI 评测体系正陷入「危机」——原有的经典测试套件对今日的大模型已基本饱和。
面对过去几年反复出现的「预训练已死」「语言模型到不了 AGI」的论调,Mark Chen 表示「相当激烈地反对」。他指出,几乎每一次有人宣称某堵墙「过不去」,OpenAI 都能用工程技巧或研究上的新洞见把墙凿穿。
最有说服力的先例是推理范式。o1 立项时,连 OpenAI 内部都有人心存疑虑——彼时「预训练 + 后训练」的范式表现已经十分强势。是 Jakub Pachocki、Ilya Sutskever 等几位有信念、有判断力的研究者硬推,才把它变成全公司的根本性赌注。一年后 o1 出世,推理范式引爆整个行业。
Chen 的核心判断是:模型仍处在指数曲线上。当模型能在数周甚至数月的长周期任务上持续推理时,它所产生的创新可能已经超出人类专家的认知盲区——这正是「模型自我维持研究」的基石。
Mark Chen 回忆,2016 年 AlphaGo 第二局的「第 37 手」,让全人类棋手集体看不懂,那一刻把他拽进了 AI 领域。如今他观察到一个更微妙的信号:很多人是在今年年初「一觉醒来」,突然意识到 AI agent 在自己这一行真的能干活了——不是玩具、不是 demo,而是能完成有意义的、长周期的真实工作。
他将这一现象概括为「几乎在每一个领域,都能看到自己的『神之一手』」,并由此自然外推到:能自己搞研究的模型已经不再遥远。
访谈中,Chen 提出了一个颇具讨论度的概念——Vibe Researcher(氛围研究员)。他预测,未来的顶级研究员不再需要亲手写下每一行 PyTorch 代码,而是负责「拿捏感觉」。无论是 OpenAI 还是其他实验室,大量工作正在变成以编排(orchestration)为主——人负责出主意,模型负责执行与调度。OpenAI 的三年路线图,目标被描述为让模型完成端到端(end-to-end)的研究。
随着 AI 自主执行和编排任务的能力增强,人类的工作将被压缩到两端:提出真正的问题,以及判断 AI 给出的答案是否具备「灵魂」——即 Chen 所称的「品味」。但他同时承认,这条路远未铺平。
Chen 用了一个内部词描述当下评测的失灵:「Benchmaxxing」——研究团队刻意用与测试集高度相似的题目训练模型,分数一路飘红,泛化能力却原地踏步。更棘手的是,SAT 这类经典 benchmark 对今日模型几乎全部饱和,而一项评测一旦公开到世界上,便因进入训练数据而迅速「作废」。
他给出的应对方向有二:
另一道绕不开的难题是「参差的前沿」(jagged frontier)——模型能拿下奥数、信息学奥赛级别的难题,却常常搞不定人类随手就能完成的日常琐事。差在哪里?Chen 认为差在上下文,差在持续学习(continual learning)——把一个任务里学到的教训迁移到下一个任务,对人来说是本能,对模型而言却是全行业正在死磕的硬骨头。
访谈收尾时,主持人问及 AGI 实现后的个人愿望,这位掌管着全球最强大 AI 大脑之一的负责人给出了一个意外的回答:「我想去开个面馆,这可能是我的 AGI 后爱好。」在他看来,当 AI 能够自我维持科研、所有知识与创新以光速产生,人类最稀缺的资源将不再是智力,而是体验——机器可以算出汤的最佳咸度,却永远无法赋予那碗汤以「温度」与「故事」。