AI Agent 写算子，ML 编译器会被淘汰吗

上周有几条消息几乎同时出现，让「ML 计算栈未来由谁主导」这个问题再次被摆到桌面。一场由 Google 与 Hugging Face 联合举办的 Fast Gemma Challenge 中，超过 60 个 AI Agent 通过共享消息板协同工作，自主为 Gemma 4 E4B 优化推理速度，覆盖自定义 CUDA kernel、量化策略与投机解码等手段，最终把推理推到超过 127 tokens / 秒的吞吐。同一两周内，Qualcomm 宣布以 39 亿美元收购 Modular；OpenAI 则披露与 Broadcom 合作的首款自研推理芯片 Jalapeno。这三件事指向同一个判断：业界把筹码越来越押在「推理侧的底层优化」上。

抽象层的历史从未被逆转

文章把这一现状放到编程语言演化史里看。1950 年代写机器码，随后汇编出现；FORTRAN 在 1957 年由 IBM 推出时，汇编程序员同样嗤之以鼻——「太慢」「失去控制」「真正的程序员不需要这种东西」。早期基准上 FORTRAN 确实比汇编慢约 20%，但编写效率、可维护性都大幅领先，通用汽车研究给出 5–10 倍的产能提升；十年之内，IBM 机器上一半以上代码由 FORTRAN 生成。C、C++、Java 一路重演同样剧本：每一层新抽象被唱衰，最终被编译器迭代慢慢追平。

把这一段直接平移到 ML 计算栈上：当 PyTorch 里一句 nn.Linear 落到 GPU 上，要变成数千个线程访问 shared memory、避开 bank conflict、必要时调用 tensor core、把算子切成适配缓存层级的 tile——这些「真正的活」和 1950 年在 IBM 704 上写加法并没有本质区别。

ML 编译器为什么会出现

很长一段时间里，这套「研究员写 Python，kernel 工程师写 CUDA」的双层架构运转良好。NVIDIA 的 cuDNN、cuBLAS 为常见算子提供手工调优 kernel，标准层基本「开箱即快」。

转折点是 2017 年《Attention Is All You Need》之后。Attention 机制、自定义激活函数、新的归一化方案、MoE 路由——架构花样增长的速度超过了任何 kernel 团队的手工覆盖能力。PyTorch 算子数量已膨胀到数千，把 N 个算子在不同硬件上做融合的组合爆炸，靠人手已不可能完成——这是 ML 编译器登场的背景。

三条主流路径

文章梳理了三条有代表性的技术线：

XLA（Accelerated Linear Algebra）：源自 TensorFlow、后被 JAX 唯一采用的后端；它以算子图为输入，融合操作、消除冗余计算、重排内存布局，把「矩阵乘 + bias 加 + ReLU」压成一次 kernel 启动而非三次。Google 就是在 TPU pod 上用 JAX+XLA 训练 Gemini。
Triton：由 Philippe Tillet 起手、后并入 OpenAI。思路不同——它不直接从图编译，而是给出一套类 Python、以「数据块」为单位的 kernel 语言，编译器处理内存合并与线程调度，比裸 CUDA 易上手得多。Triton 3.7.1（2026 年 6 月 17 日发布）已作为 torch.compile 的默认 kernel 生成后端。
Mojo：Chris Lattner 主导，目标「像 Python 一样简单、像 C 一样快」，底层依托同一人打造的 MLIR。2023 年推出，2026 年 5 月达到 1.0 beta，到文章发布日则已随 Modular 一同归入 Qualcomm 麾下。奥克岭国家实验室 2025 年的一篇论文对 Mojo 的 GPU kernel 性能做过测量（论文具体结论在原文中被截断）。

双方各有理由，但历史倾向哪一边

文章最后抛出一个让「两派人都不舒服」的判断：如果 AI Agent 能自主写出并优化 kernel，ML 编译器还有没有必要存在？

回顾历史，每一层抽象都曾被「更快更可控」的阵营唱衰，而每次最终胜出的都是抽象层——因为编译器本身也在被更好的编译器、更多的优化 pass、更好的自动调度持续改进。Fast Gemma Challenge 展示的 Agent 协同出 kernel、Qualcomm 与 OpenAI 同周重金押注推理底层硬件，恰恰说明行业在用真金白银验证两件事：一是 AI Agent 已经具备替代部分手工 kernel 调优的能力；二是围绕这些 Agent 与推理栈的整条工具链正在变成新的价值高地。

抽象层的历史从未被逆转

ML 编译器为什么会出现

三条主流路径

文章梳理了三条有代表性的技术线：

XLA（Accelerated Linear Algebra）：源自 TensorFlow、后被 JAX 唯一采用的后端；它以算子图为输入，融合操作、消除冗余计算、重排内存布局，把「矩阵乘 + bias 加 + ReLU」压成一次 kernel 启动而非三次。Google 就是在 TPU pod 上用 JAX+XLA 训练 Gemini。

Triton：由 Philippe Tillet 起手、后并入 OpenAI。思路不同——它不直接从图编译，而是给出一套类 Python、以「数据块」为单位的 kernel 语言，编译器处理内存合并与线程调度，比裸 CUDA 易上手得多。Triton 3.7.1（2026 年 6 月 17 日发布）已作为 torch.compile 的默认 kernel 生成后端。

Mojo：Chris Lattner 主导，目标「像 Python 一样简单、像 C 一样快」，底层依托同一人打造的 MLIR。2023 年推出，2026 年 5 月达到 1.0 beta，到文章发布日则已随 Modular 一同归入 Qualcomm 麾下。奥克岭国家实验室 2025 年的一篇论文对 Mojo 的 GPU kernel 性能做过测量（论文具体结论在原文中被截断）。

双方各有理由，但历史倾向哪一边

文章最后抛出一个让「两派人都不舒服」的判断：如果 AI Agent 能自主写出并优化 kernel，ML 编译器还有没有必要存在？