桃子桃子快讯
返回首页
工具

用户实测 DeepSeek V4 Pro 本地批量推理性能

Reddit 用户基于 llama.cpp 自定义分支,在 Epyc 9374F + RTX PRO 6000 Max-…

2026.07.03 · 周五3 分钟阅读

Reddit 用户「fairydreaming」近日分享了在自建工作站上运行 DeepSeek V4 Pro 的实测数据。测试基于 llama.cpp 的一个自定义分支(包含尚未合入主线的一系列修复与优化),通过批量推理基准工具 llama-batched-bench 对从 8192 到 1048064 不等的 prompt 长度进行了压力测试,覆盖了 prompt 处理(PP)与文本生成(TG)两个阶段的吞吐表现。

硬件与模型规格

测试平台搭载一颗 AMD Epyc 9374F 服务器 CPU,配备 12 根 96GB DDR5-4800 RDIMM(共 1152GB),显卡为单张 RTX PRO 6000 Max-Q(96GB 显存)。模型使用主线 llama.cpp 转换为 GGUF 格式,文件体积约 794GB。推理期间系统内存占用约 69.3%,显存占用约 78986 MiB,整机功耗约 500W,启用 flash attention(-fa 1)与 CPU MoE 卸载(-cmoe),未使用 repack。

批量推理性能

在批量大小(-b / -ub)均为 8192、上下文长度依次递增的条件下,关键吞吐数据如下:

  • 8192 tokens:PP 192.03 t/s,TG 11.73 t/s
  • 16384 tokens:PP 190.66 t/s,TG 11.62 t/s
  • 32768 tokens:PP 184.70 t/s,TG 11.36 t/s
  • 65536 tokens:PP 175.07 t/s,TG 11.01 t/s
  • 131072 tokens:PP 158.45 t/s,TG 10.42 t/s
  • 262144 tokens:PP 132.90 t/s,TG 9.35 t/s

随着 prompt 长度增加,PP 吞吐从约 192 t/s 逐渐下滑到 132 t/s,TG 速度也因注意力计算成本上升而从 11.7 t/s 降至 9.3 t/s 左右。原文还给出了 524288 与 1048064 tokens 的初步数据,作者表示完整结果将在基准跑完后补充到帖子中。

llama.cpp 主线对 V4 的支持现状

作者同步介绍了主线 llama.cpp 在 DeepSeek V4 上的几个已知问题:

  • 内存开销偏高,主要浪费在闪电索引器(lightning indexer)的计算缓冲区以及 top-k 临时缓冲区;相关修复 PR 已提交但仍在排队等待合并,降低 ubatch 或上下文长度可暂时缓解
  • 量化 KV cache 当前存在 bug,需要多个 PR 才能彻底修复
  • prompt cache 复用与 batch 准备流程仍可能存在 bug,修复难度较大

闪电索引器相关的内存问题在作者的分支中已解决,但量化 KV cache 漏洞在该分支中也尚未修复。整体而言,要在普通消费级硬件上本地运行 DeepSeek V4 Pro 仍存在较高门槛,该数据更适合拥有类似大容量 CPU/内存/GPU 工作站配置的用户作为参考。

信源