桃子桃子快讯
返回首页
工具

Blackwell 实测 Qwen3.5 35B MoE NVFP4 量化

用户在 RTX Pro 6000 Blackwell 上用 vLLM 跑 NVFP4 版 Qwen3.5 35B MoE…

2026.07.05 · 周日4 分钟阅读

近日 Reddit r/LocalLLaMA 社区用户分享了一组在 RTX Pro 6000 Blackwell 上运行 nvidia/Qwen3.6-35B-A3B-NVFP4 多模态模型的实测数据。该模型为 NVFP4 量化的 Qwen3.5 系列 35B 档位 MoE 版本,使用 vLLM 作为推理后端,FLASHINFER 作为 attention 后端。

测试场景与关键数据

测试场景为图像批量描述(bulk captioning),客户端建立 30 路并发流,每路先发送一次「图像 + 提示」请求,再发送第二次请求以命中前缀缓存。截取的 vLLM 日志显示:

  • 聚合 prompt 吞吐:1301.0 tokens/s
  • 聚合生成吞吐:1924.0 tokens/s
  • 并发请求数:30 / 等待:0
  • GPU KV cache 使用率:4.8%
  • 前缀缓存命中率:0.0%
  • 多模态缓存命中率:50.1%

作者估算整体聚合吞吐量约 2000 tps,并指出当前配置远未吃满显存,RTX 5090 在聊天上下文较短、KV cache 不被淘汰的前提下也应能逼近相近表现。

部署配置要点

启动脚本中的关键参数如下:

  • 模型:nvidia/Qwen3.6-35B-A3B-NVFP4,对外服务名 qwen36_35b_a3b
  • --max-num-seqs 30,匹配并发流数
  • --max-model-len 36768
  • --gpu-memory-utilization 0.90
  • 启用前缀缓存(--enable-prefix-caching
  • 多模态限制:{"video":0,"image":1},像素范围 3136 – 500000
  • Attention 后端:FLASHINFER
  • 设备:CUDA_VISIBLE_DEVICES=1(单卡 Blackwell)

NVFP4 版本模型权重约 23.4 GB,而 Unsloth 同款量化约 26 GB,作者认为差异来自后者保留了更多未量化层。

与 dense 模型的对比

作者同时基于 lmarena-ai/VisionArena-Chat 测试集给出了与 Qwen3.5 dense 27B 等模型的视觉对话对比曲线,结论是:在测试条件下 35B MoE 版本表现明显领先。

MoE 专家激活分析

针对 MoE 模型在高并发下仍领先于 dense 的现象,作者结合 Monte Carlo 进行了专家激活估算:

  • 并发 c=24 时,约 53% 的专家被选中
  • q=0.95 条件下,约 56%
  • 并发提升至 c=30 时,约 61%

也就是说,并非作者最初直觉所认为的「绝大多数专家都会被触发、行为接近 dense 35B」,实际只比一半略多。该结果意味着 NVFP4 量化下的 35B MoE 在多并发场景中仍保有 MoE 的稀疏优势,但绝对优势并不悬殊。

小结

本次社区实测展示了 NVFP4 量化 + vLLM + FLASHINFER 在 Blackwell 上的多模态并发推理表现,单卡 30 路并发的聚合吞吐量已进入约 2000 tps 量级;同时,作者对 MoE 专家激活比例的量化分析,为「MoE 是否退化为 dense」的常见争议提供了具体数据支撑。

信源