Codex 已达 500 万周活，与 ChatGPT 合体背后的逻辑

OpenAI 的 Codex 自今年 1 月以来周活跃用户增长了 5 倍以上，规模已达 500 万。其中，知识工作者（非开发者）的采用速度是开发者群体的 3 倍以上。这一陡峭增长曲线的关键催化剂来自 2 月份桌面应用的发布——它提供了专属且经过优化的界面，大幅降低了使用门槛。作为 Codex 桌面端产品负责人，Andrew Ambrosino 近期在访谈中系统拆解了产品增长背后更深层的逻辑，以及 Codex 与 ChatGPT 合体后的未来走向。

增长数据与「催化剂」的时机

Codex 周活从年初至今膨胀至 500 万，知识工作者的采用速度甚至数倍于其原本瞄准的开发者群体，这一现象与 2 月桌面 App 的发布直接相关。但 Andrew 强调，产品形态并非唯一变量，时机同样关键——若同一款 App 提前到去年 11 月推出，市场反应大概率会失败。「产品的成功不仅取决于设计本身，还取决于模型能力的时机」，这是他从这次发布中得出的核心洞察。

更值得关注的是产品规划方式的转变：过去是「全年计划」，如今变成「我们相信模型在某个时间点能做什么，把感兴趣的方向全部做原型，等模型跨过门槛再用升级后的模型去尝试」。这一思路意味着，产品是否好用的前提已从设计转向了模型能力本身。

「实现变便宜了，那什么变贵了？」

几年前的产品开发逻辑建立在「实现很贵」之上：写代码之前需要做大量文档、研究、原型来降低风险。如今情况反转——在 OpenAI 内部，同一个功能可能有 90 个团队在同时尝试 90 种实现方式。

那么贵的是什么？Andrew 的回答是「品味」，更具体地说是策展的过程。品味在他看来包括以下几个层次：

美学层面，但只是一部分
系统思维：这个东西如何融入整个系统
方向感：这属于什么主题
呈现方式：交互动画是否契合其想表达的语义

真正的核心品味问题是：「如果我们能建造任何东西，那么我们想要什么？这是什么？我们如何到达那里？」这是新时代里人类大脑仍最有价值的地方。

为什么 AI 至今做不好设计

Codex 在写代码上已经非常强大，但用于生成设计时输出往往平庸。Andrew 认为原因有多个层次：

设计比软件更难评分，因为人类品味本身就是反馈机制的一部分
实验室历来把最多资源投向能加速 AI 研究本身的能力，设计能力的加速作用不那么直接
设计中有文化层面——什么是「好设计」由文化决定
最难的是抽象层：组件之间的语义共享与品牌重塑时的深层结构理解

编码恰恰相反，几乎总是希望跟随已知模式；而设计需要新颖性，这两者对模型的要求本质上是冲突的。

为什么非得把 Codex 和 ChatGPT 合并

Codex 最早是命令行工具，后独立成 App，定位是「开发者工具」而非 IDE。但团队内部试用时发现，市场、公关、财务、法务等几乎所有部门的人也在用它，尽管界面里全是代码和命令行权限申请，根本不是为他们设计的。

团队的应对起初是把 Codex 的能力搬到 ChatGPT 桌面应用和 Atlas 浏览器里，做成更通用的知识工作工具。然而结果是：没人愿意离开 Codex App。这让他们意识到——开发者工具和通用知识工具之间的边界正在坍塌，Codex 和 ChatGPT 更像是同一个能力的不同入口。

合并后，产品的定位被重新表述为「home base」（大本营）：用户可以在这里开始工作、结束工作、把工作自动化，需要用什么工具就去调用什么工具，而不是把所有事情都框死在一个屏幕方框里。Andrew 举例说，对于需要做几十亿美元融资财务建模的人，App 会直接和电脑桌面上的 Excel 插件对话，而不是死守内置的电子表格编辑器。

Andrew 笑称自己很后悔有人把这一方向叫做「超级应用」，因为从那以后他每天都被这个词包围。他更认可「home base」这个表述——它是一个用户可以追踪所有待办事项的主场，一部分事在 App 内完成，其余通过调用外部工具完成。

工程师、设计师、PM 的边界消失了吗

Andrew 团队中设计与工程的边界已比他所待过的其他公司、部门都更模糊，设计师能讲工程师的语言，产品经理也能写代码。但他并不认同「取消所有角色划分」——他见过不少公司喊出「人人都做 builder」，结果却把产品多年来积累的最佳实践和试错经验当成没用的东西丢掉了。

他的态度是：「这不是你的地盘」这种画地为牢式的边界感消失是受欢迎的，但每个专业依然有自己的技能门槛。同时他指出，能力不再与「是否精通某个具体工具」死死绑定——比如他自己长期回避工程师角色，本质上只是不喜欢钻研汇编语言和死记 TypeScript 语法。这种「精通工具才算干得好」的门槛正在瓦解，只是趋势被外界过度夸大了。

前沿的 AI 辅助开发方式

对「最前沿是不是 loop（自主循环开发）」这一问题，Andrew 认为真正重要的指标已经变成了「代码是有监督还是无监督写出来的」，而不是「AI 写了多少」。他对「harness engineering」方向做过不少探索，比如设想让模型在夜里自己跑一遍，把代码库做一次「垃圾回收」式的清理。

他顺便指出所有模型目前的通病——倾向于让代码越改越复杂。他开玩笑说，希望有研究团队能把模型「删代码」的能力练得更好。与此相关的问题包括：怎么教模型判断该做哪些功能、哪些该忽略；怎么教模型搭建正确的抽象结构。这些能力都在变好，但他不认为已经能做到「设一个 loop 让它自己去改进产品，同时盯着 Twitter、Slack、邮件」的程度。