双 RTX 3090 开启 P2P 实测：Qwen3-27B INT4 推理性能对比

近日，Reddit 用户 @Mr-serial_killer 在 r/LocalLLaMA 板块分享了一项针对双卡 RTX 3090 推理平台的实测：在 PCIe 4.0 8x/8x 拓扑下，开启 P2P（Peer-to-Peer，GPU 直连数据传输）模式前后，使用 Qwen3-27B INT4 量化模型在 256k 上下文长度下进行解码与长时间负载测试，并对比性能变化。

测试背景与硬件环境

测试平台为两张 RTX 3090 显卡，PCIe 通道配置为 4.0 8x/8x。用户在 P2P 关闭与开启两种状态下分别运行 5 次基准测试，工具链包括 nvbandwidth 以及标准的 decode/soak 测试脚本。

作者特别说明，两轮测试之间驱动版本发生了更换，因此具体数值幅度需「保留一定余地」，但整体趋势与社区此前报告一致。

核心结论

方向一致：P2P 开启后的性能改善方向与社区既有观察吻合。
时间成本：完成该对比测试耗时约 4.5 小时，作者认为对于每日运行本地推理的用户来说值得一试。
不建议为该结果专门购入第二张 3090：作者明确表示，与其为追求 P2P 收益而追加硬件投资，不如将预算用于其他方向。

对读者的实际意义

对已经在使用双卡 3090（或类似多卡消费级平台）的本地 LLM 玩家而言，这项测试再次印证了 P2P 模式在跨卡数据传输场景下的正向作用；但对于尚未组建多卡平台的用户，作者的建议是「先攒钱」，不要单纯为这点性能提升买单。

帖子发布后，有用户在评论中感慨「像极了 2013 年双卡 SLI 玩游戏的感觉」，也侧面反映出多卡消费级 GPU 跑大模型在体验上仍带有浓厚的「折腾」色彩。