SOLAR：用大模型自动推导深度学习模型理论性能上限

来自 NVIDIA 等机构的研究团队近日发布论文 SOLAR，提出一个能够自动推导深度学习模型在特定硬件上「速度上限」（Speed-of-Light，SOL）性能边界的分析框架。该工作面向深度学习编译器、硬件设计与模型优化场景，试图回答一个核心问题：给定模型和目标硬件，理论上的最快执行时间是多少？现有实现与之差距有多大？

研究背景：SOL 分析的痛点

速度上限分析用于计算一个工作负载在指定架构上的理论最小执行时间，是评估软件、硬件与算法优化潜力的重要工具。然而，传统 SOL 边界推导依赖人工，过程繁琐且容易出错，难以跟上模型迭代速度。SOLAR 的目标正是把这一过程自动化，让研究者在模型开发阶段就能快速获得可靠的性能上限参考。

方法构成：生成式与确定性流程结合

SOLAR 采用「LLM 前端 + 确定性后端」的混合架构，关键模块包括：

LLM 前端：将任意 PyTorch 或 JAX 源码翻译为可执行的 Affine Loop IR，并通过输出比对进行验证，确保翻译结果与原始程序语义一致。
确定性流程：将 IR 进一步提升为 einsum 图，保留计算结构信息。
分析后端：基于 einsum 图计算未融合、已融合以及缓存感知（cache-aware）三种粒度的 SOL 边界。

论文指出，这种设计兼顾了语言覆盖广度（生成式组件）与结果可复现性（确定性组件），并通过零观测违规验证了边界可靠性。

评估与典型用例

研究团队在 KernelBench、JAX/Flax 模型以及机器人负载上对 SOLAR 进行了系统评估，并展示了四个典型使用场景：

多保真度层级的 headroom（优化空间）分析；
发现模型在特定硬件上的优化机会；
跨平台探索，比较同一模型在不同架构上的极限性能；
基于 inverse roofline 的硬件资源预估与选型。

研究意义与适用范围

SOLAR 把大语言模型的能力引入到传统性能工程流程中，使 SOL 边界推导从一项高门槛的人工工作转变为可重复使用的自动化工具。对于从事 AI 编译器、推理引擎定制以及硬件-软件协同设计的团队而言，该框架提供了一套相对统一的性能上限评估方法，有助于在模型开发早期识别瓶颈并指导优化方向。