桃子桃子 AI 快讯
返回首页
工具

Gemma 2 9B 在 L4 上的 FP8 量化实测:Prefill 代价与显存红利

作者在单卡 NVIDIA L4 上对比 Gemma 2 9B 原始权重与 FP8 量化版本的延迟与显存表现,揭示量化在…

2026.06.28 · 周日3 分钟阅读评分 39
评分细项加权总分 39
重要性
35
新颖性
38
影响面
30
可信度
55
实质性
62

一位开发者在 Reddit r/MachineLearning 发布了针对自托管 Gemma 2 9B 的量化基准测试报告。他使用 vLLM 在单张 NVIDIA L4 GPU 上,分别对未量化版本与 FP8 量化版本进行端到端延迟、首 token 时间(TTFT)与显存占用的实测,测试场景为简历生成平台的冷邮件撰写与上下文改写。数据集与结果已在 Hugging Face 公开。

核心发现:FP8 在 Prefill 阶段反而更慢

FP8 量化的主流叙事是「更快、更省」,但作者抓取的客户端与服务端遥测数据显示,在交互式、流式输出的场景下,TTFT 才是用户感知速度的唯一指标。

  • 在长上下文、高复杂度输入下,未量化模型首 token 返回时间为 866.93 ms,而 FP8 版本飙升至 1372.12 ms,prefill 阶段额外承担约 58% 的延迟开销。
  • 作者还在 FP8 短上下文测试中观察到一次 1740.34 ms 的 TTFT 尖峰,推测与 vLLM 调度中的冷 prefill 或上下文块换入有关,反映真实生产环境的波动。

解码阶段:FP8 的真正收益

Prefill 是计算密集阶段,量化的反量化开销在显存带宽受限的解码阶段转化为收益。

  • 权重精度从 16 位降至 8 位,GPU 显存总线上的数据量大致减半。
  • 中等长度生成序列下,客户端总耗时由 12290.2 ms 降至 11526.2 ms。
  • 对于中等或较短上下文、异步或批量任务,FP8 提供了稳定且可预期的基础设施收益。

质量评估:9B 参数未明显失守

作者将原始与 FP8 输出的文本在公开数据集上做对比:

  • 模式与人设一致性:在针对固定个人资料的短任务上,9B 架构在格式与角色语气上与前沿模型表现接近。
  • 语义漂移:在领域内窄任务上,FP8 引入的语义偏差几乎可忽略,模型仍能区分面向工程师的冷邮件与正式求职信的语调差异。

工程取舍与 KV 缓存红利

作者的最终结论并非简单地「用或不用 FP8」,而是按工作负载区分:

  • 交互式、低并发、长输入:建议保留未量化权重或采用更激进的 prefill 策略,避免 UI 抖动。
  • 异步、短到中等上下文:FP8 几乎是必选项。
  • 真正的价值在于显存释放:模型占用降低后,KV 缓存可占用更大空间。作者称在重负载下仍维持 92.7% 的 KV 缓存利用率,并发未触发 OOM。

完整配置与缓存分配策略已发布在作者 Substack 专栏,三套测试数据集也已上传至 Hugging Face,读者可自行复现。

信源