博客结合Fast Gemma Challenge、Qualcomm收购Modular、OpenAI推Jalapeno三件…
上周有几条消息几乎同时出现,让「ML 计算栈未来由谁主导」这个问题再次被摆到桌面。一场由 Google 与 Hugging Face 联合举办的 Fast Gemma Challenge 中,超过 60 个 AI Agent 通过共享消息板协同工作,自主为 Gemma 4 E4B 优化推理速度,覆盖自定义 CUDA kernel、量化策略与投机解码等手段,最终把推理推到超过 127 tokens / 秒的吞吐。同一两周内,Qualcomm 宣布以 39 亿美元收购 Modular;OpenAI 则披露与 Broadcom 合作的首款自研推理芯片 Jalapeno。这三件事指向同一个判断:业界把筹码越来越押在「推理侧的底层优化」上。
文章把这一现状放到编程语言演化史里看。1950 年代写机器码,随后汇编出现;FORTRAN 在 1957 年由 IBM 推出时,汇编程序员同样嗤之以鼻——「太慢」「失去控制」「真正的程序员不需要这种东西」。早期基准上 FORTRAN 确实比汇编慢约 20%,但编写效率、可维护性都大幅领先,通用汽车研究给出 5–10 倍的产能提升;十年之内,IBM 机器上一半以上代码由 FORTRAN 生成。C、C++、Java 一路重演同样剧本:每一层新抽象被唱衰,最终被编译器迭代慢慢追平。
把这一段直接平移到 ML 计算栈上:当 PyTorch 里一句 nn.Linear 落到 GPU 上,要变成数千个线程访问 shared memory、避开 bank conflict、必要时调用 tensor core、把算子切成适配缓存层级的 tile——这些「真正的活」和 1950 年在 IBM 704 上写加法并没有本质区别。
很长一段时间里,这套「研究员写 Python,kernel 工程师写 CUDA」的双层架构运转良好。NVIDIA 的 cuDNN、cuBLAS 为常见算子提供手工调优 kernel,标准层基本「开箱即快」。
转折点是 2017 年《Attention Is All You Need》之后。Attention 机制、自定义激活函数、新的归一化方案、MoE 路由——架构花样增长的速度超过了任何 kernel 团队的手工覆盖能力。PyTorch 算子数量已膨胀到数千,把 N 个算子在不同硬件上做融合的组合爆炸,靠人手已不可能完成——这是 ML 编译器登场的背景。
文章梳理了三条有代表性的技术线:
torch.compile 的默认 kernel 生成后端。文章最后抛出一个让「两派人都不舒服」的判断:如果 AI Agent 能自主写出并优化 kernel,ML 编译器还有没有必要存在?
回顾历史,每一层抽象都曾被「更快更可控」的阵营唱衰,而每次最终胜出的都是抽象层——因为编译器本身也在被更好的编译器、更多的优化 pass、更好的自动调度持续改进。Fast Gemma Challenge 展示的 Agent 协同出 kernel、Qualcomm 与 OpenAI 同周重金押注推理底层硬件,恰恰说明行业在用真金白银验证两件事:一是 AI Agent 已经具备替代部分手工 kernel 调优的能力;二是围绕这些 Agent 与推理栈的整条工具链正在变成新的价值高地。