V100 16GB 本地 LLM 推理实测：单卡与双卡 NVLink 基准及避坑

一位 Reddit 用户在 r/LocalLLaMA 分享了自己用 Tesla V100-SXM2 16GB 模块跑本地大模型的实测结果，覆盖单卡、双卡 NVLink 两种配置下的推理性能与多智能体并发表现，并整理了驱动、电源等「踩坑」经验。

硬件与基本规格

测试平台使用 SXM2 形态的 V100 模组，需要搭配转接卡才能装进普通台式机。关键参数如下：

GPU：GV100，Volta 架构，sm_70
显存：16 GB HBM2，带宽约 900 GB/s
精度：仅支持 fp16，不支持 bf16，也不支持 int8 tensor op，需要 bf16 的框架需走 fp16 路径
双卡 NVLink：两块模组通过桥接器连接，可获得 32 GB 显存与约翻倍的带宽

V100 SXM2 模组本身没有显示输出，需要用其他设备（作者用 Ryzen 的核显）做显示输出，V100 只承担计算。

单卡 16GB 性能

单卡可以完整容纳 26B 量级的模型，例如 Gemma 4 26B-A4B（Q4_0 QAT）可整卡加载并留出 KV cache 空间。更大的 MoE 模型（如 Qwen3 35B-A3B）则无法装下 16 GB，会有部分 expert 卸载到 CPU 内存，速度会受 CPU/RAM 性能影响。

作者重点对比了 Windows 下两种驱动模式：

WSL2 / MCDM 模式：通用显示模式
TCC 模式：数据中心驱动模式

以 Gemma 4 26B-A4B（Q4_0 QAT）为例：

WSL2 / MCDM：56.8 tok/s
TCC：99.8 tok/s（提升 +76%）

Qwen3 35B-A3B（IQ4_XS）由于部分 expert 卸载到 CPU，结果会受内存速度影响，WSL2 下 37.7 tok/s，TCC 下 54.5 tok/s（+45%）。

结论是：单卡约 100 tok/s 的水平，对于驱动编程 agent 或离线本地模型而言已足够。

双卡 NVLink 与多智能体并发

两块 SXM2 模组通过定制 PCIe 转接卡 + NVLink 桥接器连接，显存合计 32 GB。测试模型为 Qwen3.6-35B-A3B IQ4_XS（4.19 bpw），完整驻留显存，使用 tensor-split 1/1、q8_0 KV cache、TCC 模式，256 token 生成长度。

解码上限（短 prompt）

在 prompt 很短的「decode-dominated」场景下，双卡表现如下：

1 agent：聚合 62.7 tok/s，每 agent 62.7 tok/s，p50 延迟 4.3 s
4 agents：聚合 125.1 tok/s，每 agent 31.3 tok/s，延迟 6.4 s
8 agents：聚合 211.4 tok/s，每 agent 26.4 tok/s，延迟 8.0 s
16 agents：聚合 338.1 tok/s，每 agent 21.1 tok/s，延迟 13.0 s

真实 agent 流量（约 24k token 长 prompt）

实际 Claude Code 场景下系统 prompt 约 24k token，属于 prefill-heavy：

1 agent：聚合 47 tok/s，每 agent 47 tok/s
4 agents：聚合 122 tok/s，每 agent 30 tok/s
8 agents：聚合 155 tok/s，每 agent 19 tok/s
16 agents：聚合 174 tok/s，每 agent 11 tok/s

作者给出的「实际可用」参考值是 8–16 并发时 150–175 tok/s 聚合吞吐，且未出现 Volta 架构在小 SM 共享内存预算下常发的 smem launch 失败。NVLink/NCCL all-reduce 相对默认 Windows 内部路径仅有小幅聚合增益，主要体现在 prefill 阶段。

另外，Q4 量化在长链路 agent 任务中质量会有损失。若想用更高量化，32 GB 容量可装下 Q6_K 全驻留版本，单流约 80 tok/s（-sm layer），但单卡 16GB 装不下。

常见陷阱

作者在文中强调了几个真正会卡住人的坑：

驱动窗口：Volta 已进入驱动退场阶段。Windows 上至少需要 R570（570.65）才能加载 CUDA 12.8 二进制，旧版会报「device kernel image is invalid」；Volta 支持上限是 R580，CUDA 13.3 / R595 之后会完全移除。如果直接装最新驱动，就会发现「什么都不跑」。
电源瞬态响应：双卡同时高负载时电流会同步拉起，老电源扛不住瞬态、brown out 触发 0x133 DPC_WATCHDOG_VIOLATION。温度、ECC、NVLink P2P 都查不出问题，最终更换为 Corsair RM850 后稳定。结论是双卡方案下电源比 GPU 温度更关键。
双卡设置：转接卡需要在 BIOS 里把插槽设为 x8/x8 拆分，并开启 Above 4G Decoding。两卡间 NVLink P2P 实测约 33 GB/s。

作者提供了完整预编译二进制和 serve 脚本，托管在 github.com/andrewleleech/v100-llm-kit，详细笔记见 notes.alelec.net/posts/datacentre-under-the-desk。