Blackwell 实测 Qwen3.5 35B MoE NVFP4 量化

近日 Reddit r/LocalLLaMA 社区用户分享了一组在 RTX Pro 6000 Blackwell 上运行 nvidia/Qwen3.6-35B-A3B-NVFP4 多模态模型的实测数据。该模型为 NVFP4 量化的 Qwen3.5 系列 35B 档位 MoE 版本，使用 vLLM 作为推理后端，FLASHINFER 作为 attention 后端。

测试场景与关键数据

测试场景为图像批量描述（bulk captioning），客户端建立 30 路并发流，每路先发送一次「图像 + 提示」请求，再发送第二次请求以命中前缀缓存。截取的 vLLM 日志显示：

聚合 prompt 吞吐：1301.0 tokens/s
聚合生成吞吐：1924.0 tokens/s
并发请求数：30 / 等待：0
GPU KV cache 使用率：4.8%
前缀缓存命中率：0.0%
多模态缓存命中率：50.1%

作者估算整体聚合吞吐量约 2000 tps，并指出当前配置远未吃满显存，RTX 5090 在聊天上下文较短、KV cache 不被淘汰的前提下也应能逼近相近表现。

部署配置要点

启动脚本中的关键参数如下：

模型：nvidia/Qwen3.6-35B-A3B-NVFP4，对外服务名 qwen36_35b_a3b
--max-num-seqs 30，匹配并发流数
--max-model-len 36768
--gpu-memory-utilization 0.90
启用前缀缓存（--enable-prefix-caching）
多模态限制：{"video":0,"image":1}，像素范围 3136 – 500000
Attention 后端：FLASHINFER
设备：CUDA_VISIBLE_DEVICES=1（单卡 Blackwell）

NVFP4 版本模型权重约 23.4 GB，而 Unsloth 同款量化约 26 GB，作者认为差异来自后者保留了更多未量化层。

与 dense 模型的对比

作者同时基于 lmarena-ai/VisionArena-Chat 测试集给出了与 Qwen3.5 dense 27B 等模型的视觉对话对比曲线，结论是：在测试条件下 35B MoE 版本表现明显领先。

MoE 专家激活分析

针对 MoE 模型在高并发下仍领先于 dense 的现象，作者结合 Monte Carlo 进行了专家激活估算：

并发 c=24 时，约 53% 的专家被选中
q=0.95 条件下，约 56%
并发提升至 c=30 时，约 61%

也就是说，并非作者最初直觉所认为的「绝大多数专家都会被触发、行为接近 dense 35B」，实际只比一半略多。该结果意味着 NVFP4 量化下的 35B MoE 在多并发场景中仍保有 MoE 的稀疏优势，但绝对优势并不悬殊。

小结

本次社区实测展示了 NVFP4 量化 + vLLM + FLASHINFER 在 Blackwell 上的多模态并发推理表现，单卡 30 路并发的聚合吞吐量已进入约 2000 tps 量级；同时，作者对 MoE 专家激活比例的量化分析，为「MoE 是否退化为 dense」的常见争议提供了具体数据支撑。