Blackwell 实测 Qwen3.5 35B MoE NVFP4 量化
用户在 RTX Pro 6000 Blackwell 上用 vLLM 跑 NVFP4 版 Qwen3.5 35B MoE…
近日 Reddit r/LocalLLaMA 社区用户分享了一组在 RTX Pro 6000 Blackwell 上运行 nvidia/Qwen3.6-35B-A3B-NVFP4 多模态模型的实测数据。该模型为 NVFP4 量化的 Qwen3.5 系列 35B 档位 MoE 版本,使用 vLLM 作为推理后端,FLASHINFER 作为 attention 后端。
测试场景与关键数据
测试场景为图像批量描述(bulk captioning),客户端建立 30 路并发流,每路先发送一次「图像 + 提示」请求,再发送第二次请求以命中前缀缓存。截取的 vLLM 日志显示:
- 聚合 prompt 吞吐:1301.0 tokens/s
- 聚合生成吞吐:1924.0 tokens/s
- 并发请求数:30 / 等待:0
- GPU KV cache 使用率:4.8%
- 前缀缓存命中率:0.0%
- 多模态缓存命中率:50.1%
作者估算整体聚合吞吐量约 2000 tps,并指出当前配置远未吃满显存,RTX 5090 在聊天上下文较短、KV cache 不被淘汰的前提下也应能逼近相近表现。
部署配置要点
启动脚本中的关键参数如下:
- 模型:
nvidia/Qwen3.6-35B-A3B-NVFP4,对外服务名qwen36_35b_a3b --max-num-seqs 30,匹配并发流数--max-model-len 36768--gpu-memory-utilization 0.90- 启用前缀缓存(
--enable-prefix-caching) - 多模态限制:
{"video":0,"image":1},像素范围 3136 – 500000 - Attention 后端:FLASHINFER
- 设备:CUDA_VISIBLE_DEVICES=1(单卡 Blackwell)
NVFP4 版本模型权重约 23.4 GB,而 Unsloth 同款量化约 26 GB,作者认为差异来自后者保留了更多未量化层。
与 dense 模型的对比
作者同时基于 lmarena-ai/VisionArena-Chat 测试集给出了与 Qwen3.5 dense 27B 等模型的视觉对话对比曲线,结论是:在测试条件下 35B MoE 版本表现明显领先。
MoE 专家激活分析
针对 MoE 模型在高并发下仍领先于 dense 的现象,作者结合 Monte Carlo 进行了专家激活估算:
- 并发 c=24 时,约 53% 的专家被选中
- q=0.95 条件下,约 56%
- 并发提升至 c=30 时,约 61%
也就是说,并非作者最初直觉所认为的「绝大多数专家都会被触发、行为接近 dense 35B」,实际只比一半略多。该结果意味着 NVFP4 量化下的 35B MoE 在多并发场景中仍保有 MoE 的稀疏优势,但绝对优势并不悬殊。
小结
本次社区实测展示了 NVFP4 量化 + vLLM + FLASHINFER 在 Blackwell 上的多模态并发推理表现,单卡 30 路并发的聚合吞吐量已进入约 2000 tps 量级;同时,作者对 MoE 专家激活比例的量化分析,为「MoE 是否退化为 dense」的常见争议提供了具体数据支撑。
