桃子桃子快讯
返回首页
工具

Kimi K2.7 Code 混合推理基准:Mac 加 RTX PRO 6000 的 RPC 实测

Reddit 用户测试 Kimi K2.7 Code Q3 在 Mac Studio M3 Ultra 与 RTX PR…

2026.07.02 · 周四4 分钟阅读

一位 Reddit 用户在 r/LocalLLaMA 分享了 Kimi K2.7 Code Q3 量化模型在「Mac Studio M3 Ultra + NVIDIA RTX PRO 6000」混合架构下的 llama.cpp RPC 推理基准。结果显示,RPC 拆分对 prefill(预填充)阶段有明显提速,但对 decode(逐 token 生成)阶段几乎无帮助。

测试环境

测试采用一台 512GB 统一内存的 Mac Studio M3 Ultra(Metal 后端)作为主机,搭配一台搭载 RTX PRO 6000 Blackwell 工作站版(96GB VRAM、CUDA)的 Linux 工作机,通过有线以太网直连。实际可用带宽为 1GbE,实测 RPC 传输速率约 112-113 MiB/s。

  • 模型:unsloth/Kimi-K2.7-Code-GGUF,UD-Q3_K_XL 量化
  • 磁盘体积:约 432GB,分 11 个 GGUF 分片
  • 运行时:llama.cpp server 版本 9827(4c6e0ff3a),Unsloth 构建版

控制变量测试结果

两次运行使用相同的合成 prompt:7120 token 输入、生成 64 token、temperature=0、ignore_eos=true,并关闭 prompt cache。

  • Prefill 提速:约 14.8%
  • Decode 提速:约 4.2%
  • 总请求时间改善:约 12.3%

即在 20/80 拆分比例下,prefill 阶段从 132.88 tok/s 提升至 152.49 tok/s;decode 速度从 17.55 tok/s 微增至 18.28 tok/s,差异在统计上几乎可忽略。

分层比例趋势

作者进一步尝试了不同的 GPU 分摊比例:

  • Mac 0%(纯 Mac):prefill 132.88 tok/s,decode 17.55 tok/s,RTX VRAM 为 0
  • 15/85:prefill 138.3 tok/s
  • 19/81:prefill 141.77 tok/s
  • 20/80:prefill 152.49 tok/s,VRAM 占 93.3GB(该卡实际上限)
  • 21/79:失败,即使降至 8K context 同样崩溃

总体趋势是:随着 GPU 分摊比例提高、prefill 速度线性提升,但 decode 阶段并未随之改善。

网络与小结

针对 20/80 拆分下的 7120 token prefill-only 运行,作者对 RPC 流量进行了追踪:

  • Mac → RTX:251.59 MiB,用时 2.03s
  • RTX → Mac:194.69 MiB,用时 1.49s
  • 总 RPC 流量 446.28 MiB、用时 3.52s
  • RTX 端图计算耗时 1.34s

RPC 传输的主要是隐藏层激活而非文本 token。Prefill 阶段因可分块批处理,网络开销尚可承受;decode 阶段每生成一个 token 都要跨越设备边界,因此理论上更受网络拖累,实测也确实几乎无收益。

作者总结:在其当前网络与硬件条件下,RPC 主要仍是「容量工具」——用于装下单一设备放不下的模型或拆分,而对 decode 速度增益有限;通过更好的线缆或可再节省数秒,但边际收益不大。如果未来加入更多 GPU、并且网络/拆分模式更优,prefill 提速趋势是否可继续向上,仍待验证。

信源