Reddit 用户实测 Tesla V100-SXM2 16GB 单卡与双卡 NVLink 的本地 LLM 推理性能,给…
一位 Reddit 用户在 r/LocalLLaMA 分享了自己用 Tesla V100-SXM2 16GB 模块跑本地大模型的实测结果,覆盖单卡、双卡 NVLink 两种配置下的推理性能与多智能体并发表现,并整理了驱动、电源等「踩坑」经验。
测试平台使用 SXM2 形态的 V100 模组,需要搭配转接卡才能装进普通台式机。关键参数如下:
V100 SXM2 模组本身没有显示输出,需要用其他设备(作者用 Ryzen 的核显)做显示输出,V100 只承担计算。
单卡可以完整容纳 26B 量级的模型,例如 Gemma 4 26B-A4B(Q4_0 QAT)可整卡加载并留出 KV cache 空间。更大的 MoE 模型(如 Qwen3 35B-A3B)则无法装下 16 GB,会有部分 expert 卸载到 CPU 内存,速度会受 CPU/RAM 性能影响。
作者重点对比了 Windows 下两种驱动模式:
以 Gemma 4 26B-A4B(Q4_0 QAT)为例:
Qwen3 35B-A3B(IQ4_XS)由于部分 expert 卸载到 CPU,结果会受内存速度影响,WSL2 下 37.7 tok/s,TCC 下 54.5 tok/s(+45%)。
结论是:单卡约 100 tok/s 的水平,对于驱动编程 agent 或离线本地模型而言已足够。
两块 SXM2 模组通过定制 PCIe 转接卡 + NVLink 桥接器连接,显存合计 32 GB。测试模型为 Qwen3.6-35B-A3B IQ4_XS(4.19 bpw),完整驻留显存,使用 tensor-split 1/1、q8_0 KV cache、TCC 模式,256 token 生成长度。
在 prompt 很短的「decode-dominated」场景下,双卡表现如下:
实际 Claude Code 场景下系统 prompt 约 24k token,属于 prefill-heavy:
作者给出的「实际可用」参考值是 8–16 并发时 150–175 tok/s 聚合吞吐,且未出现 Volta 架构在小 SM 共享内存预算下常发的 smem launch 失败。NVLink/NCCL all-reduce 相对默认 Windows 内部路径仅有小幅聚合增益,主要体现在 prefill 阶段。
另外,Q4 量化在长链路 agent 任务中质量会有损失。若想用更高量化,32 GB 容量可装下 Q6_K 全驻留版本,单流约 80 tok/s(-sm layer),但单卡 16GB 装不下。
作者在文中强调了几个真正会卡住人的坑:
作者提供了完整预编译二进制和 serve 脚本,托管在 github.com/andrewleleech/v100-llm-kit,详细笔记见 notes.alelec.net/posts/datacentre-under-the-desk。