MrFlow：无训练扩散加速方案，最高 25 倍提速

近期发布于 arXiv 的论文《Multi-Resolution Flow Matching》提出了一种名为 MrFlow 的免训练加速策略，可直接作用于已预训练的流匹配（flow matching）文生图模型，在不引入额外训练成本的前提下，显著降低推理时间。该方法已在 Hugging Face Daily Papers 获得推荐，并同步开源了 ComfyUI 插件与代码。

核心思路：分级低到高分辨率流水线

传统文生图扩散模型在潜空间内逐步上采样时，往往因局部区域选择性修改而产生模糊或伪影。MrFlow 采用分阶段（staged）的低到高分辨率流水线来规避这一问题：

先在低分辨率下快速生成图像的整体结构；
再使用一个轻量级预训练 GAN 模型在像素空间完成超分辨率放大；
之后注入低强度噪声以激活高频信息的重新采样；
最后在高分辨率下进行细节精修。

由于低分辨率阶段利用了 token 数量的二次方缩减以及更少的采样步数，整体推理开销被大幅压缩。

端到端加速效果

研究团队在多个主流文生图骨干网络上进行了实测，端到端提速（含文本编码、VAE 编解码、超分辨率、噪声准备以及扩散前向过程）数据如下：

FLUX.1-dev（12 + 1 步）：8.25 倍
Qwen-Image（12 + 1 步）：10.3 倍
FLUX.2 Klein Base 9B（12 + 1 步）：8.79 倍
Z-Image-Turbo（8 + 1 步）：21.0 倍
Qwen-Image + Pi-Flow（4 + 1 步）：最高 25 倍

定量与定性实验表明，在 FLUX.1-dev 与 Qwen-Image 上，MrFlow 的 OneIG 指标相对加速前仅出现不到 1% 的差距，显著优于其他免训练加速方案。

兼容性与工程优势

MrFlow 的一个关键卖点是与现有生态的兼容性：

无需微调、无需学习上采样器，也无需针对特定模型重新训练；
实现基于标准 PyTorch、Diffusers 流水线与调度器控制，不依赖定制算子；
可与预训练的时间步蒸馏（如 Pi-Flow、FLUX-schnell）正交组合，进一步叠加加速；
已验证可迁移到 Qwen-Image、FLUX.1-dev、FLUX.2 Klein、Z-Image 等多个模型家族。

开源与社区进展

项目目前已发布论文（arXiv: 2607.01642）、GitHub 源代码以及 Hugging Face 模型仓库。社区方面，作者团队补充了 ComfyUI 插件并设置了贡献区域，鼓励开发者分享 MrFlow 的移植、工作流与实验经验，便于该方法在更广泛的开源创作生态中落地。