桃子桃子快讯
返回首页
工具

双 RTX 3090 开启 P2P 实测:Qwen3-27B INT4 推理性能对比

Reddit 用户实测双 3090 PCIe P2P 模式开关前后的推理性能差异,整体方向与社区既有报告一致。

2026.07.03 · 周五2 分钟阅读

近日,Reddit 用户 @Mr-serial_killer 在 r/LocalLLaMA 板块分享了一项针对双卡 RTX 3090 推理平台的实测:在 PCIe 4.0 8x/8x 拓扑下,开启 P2P(Peer-to-Peer,GPU 直连数据传输)模式前后,使用 Qwen3-27B INT4 量化模型在 256k 上下文长度下进行解码与长时间负载测试,并对比性能变化。

测试背景与硬件环境

测试平台为两张 RTX 3090 显卡,PCIe 通道配置为 4.0 8x/8x。用户在 P2P 关闭与开启两种状态下分别运行 5 次基准测试,工具链包括 nvbandwidth 以及标准的 decode/soak 测试脚本。

作者特别说明,两轮测试之间驱动版本发生了更换,因此具体数值幅度需「保留一定余地」,但整体趋势与社区此前报告一致。

核心结论

  • 方向一致:P2P 开启后的性能改善方向与社区既有观察吻合。
  • 时间成本:完成该对比测试耗时约 4.5 小时,作者认为对于每日运行本地推理的用户来说值得一试。
  • 不建议为该结果专门购入第二张 3090:作者明确表示,与其为追求 P2P 收益而追加硬件投资,不如将预算用于其他方向。

对读者的实际意义

对已经在使用双卡 3090(或类似多卡消费级平台)的本地 LLM 玩家而言,这项测试再次印证了 P2P 模式在跨卡数据传输场景下的正向作用;但对于尚未组建多卡平台的用户,作者的建议是「先攒钱」,不要单纯为这点性能提升买单。

帖子发布后,有用户在评论中感慨「像极了 2013 年双卡 SLI 玩游戏的感觉」,也侧面反映出多卡消费级 GPU 跑大模型在体验上仍带有浓厚的「折腾」色彩。

信源