研究论文
MrFlow:无训练扩散加速方案,最高 25 倍提速
研究者提出 MrFlow,通过多分辨率分级采样实现文生图扩散模型免训练加速,在 FLUX、Qwen-Image 等模型上…
2026.07.05 · 周日约 3 分钟阅读
近期发布于 arXiv 的论文《Multi-Resolution Flow Matching》提出了一种名为 MrFlow 的免训练加速策略,可直接作用于已预训练的流匹配(flow matching)文生图模型,在不引入额外训练成本的前提下,显著降低推理时间。该方法已在 Hugging Face Daily Papers 获得推荐,并同步开源了 ComfyUI 插件与代码。
核心思路:分级低到高分辨率流水线
传统文生图扩散模型在潜空间内逐步上采样时,往往因局部区域选择性修改而产生模糊或伪影。MrFlow 采用分阶段(staged)的低到高分辨率流水线来规避这一问题:
- 先在低分辨率下快速生成图像的整体结构;
- 再使用一个轻量级预训练 GAN 模型在像素空间完成超分辨率放大;
- 之后注入低强度噪声以激活高频信息的重新采样;
- 最后在高分辨率下进行细节精修。
由于低分辨率阶段利用了 token 数量的二次方缩减以及更少的采样步数,整体推理开销被大幅压缩。
端到端加速效果
研究团队在多个主流文生图骨干网络上进行了实测,端到端提速(含文本编码、VAE 编解码、超分辨率、噪声准备以及扩散前向过程)数据如下:
- FLUX.1-dev(12 + 1 步):8.25 倍
- Qwen-Image(12 + 1 步):10.3 倍
- FLUX.2 Klein Base 9B(12 + 1 步):8.79 倍
- Z-Image-Turbo(8 + 1 步):21.0 倍
- Qwen-Image + Pi-Flow(4 + 1 步):最高 25 倍
定量与定性实验表明,在 FLUX.1-dev 与 Qwen-Image 上,MrFlow 的 OneIG 指标相对加速前仅出现不到 1% 的差距,显著优于其他免训练加速方案。
兼容性与工程优势
MrFlow 的一个关键卖点是与现有生态的兼容性:
- 无需微调、无需学习上采样器,也无需针对特定模型重新训练;
- 实现基于标准 PyTorch、Diffusers 流水线与调度器控制,不依赖定制算子;
- 可与预训练的时间步蒸馏(如 Pi-Flow、FLUX-schnell)正交组合,进一步叠加加速;
- 已验证可迁移到 Qwen-Image、FLUX.1-dev、FLUX.2 Klein、Z-Image 等多个模型家族。
开源与社区进展
项目目前已发布论文(arXiv: 2607.01642)、GitHub 源代码以及 Hugging Face 模型仓库。社区方面,作者团队补充了 ComfyUI 插件并设置了贡献区域,鼓励开发者分享 MrFlow 的移植、工作流与实验经验,便于该方法在更广泛的开源创作生态中落地。
