桃子桃子 AI 快讯
返回首页
工具

audio.cpp 集成 VibeVoice 1.5B,RTX 5090 上 4 倍实时合成长音频

本地 C++/ggml 推理框架 audio.cpp 新增 VibeVoice 1.5B 支持,在 RTX 5090 上…

2026.07.01 · 周三2 分钟阅读

本地音频模型推理框架 audio.cpp 近日新增对 VibeVoice 1.5B 的支持,作者在 RTX 5090 上跑出 4.08 倍实时的合成速度,较 Python 基线快 2.86 倍,且全程未做量化处理。这是该项目在长文本、多说话人语音合成场景下的一次压力测试。

基准测试结果

在 RTX 5090 上的 VibeVoice 1.5B 推理表现:

  • 音频长度:5615.73 秒(约 93.60 分钟)
  • 墙钟时间:1376.84 秒(约 22.95 分钟)
  • RTF(实时因子):0.245
  • 相对实时速度:4.08x
  • 扩散步数:10
  • 量化:无

作为对照,Python 基线用 65.70 分钟生成 92.66 分钟音频。audio.cpp 的 C++/ggml 路径相比该基线取得 2.86 倍加速。

关于 audio.cpp

audio.cpp 是一个面向本地音频模型的 C++/ggml 运行时。作者强调,目标不只是避开 Python 部署的繁琐流程,而是把音频模型放进「原生本地运行时」:

  • 可复用的会话(reusable sessions)
  • 类服务化的调用方式
  • 长音频生成的稳定性
  • 可预测的显存行为
  • 以 CUDA 为优先(后续计划支持 CPU 与 Metal)

VibeVoice 之所以被选为里程碑式的测试对象,是因为它面向的是长文本、多说话人对白——如播客、角色对话、叙事类内容——而不是单句 TTS,更考验运行时的稳定性与持续吞吐能力。

项目进度

作者披露框架已覆盖 28 个模型家族中的 16 个,完成度约 57%。其余家族已在内端跑通端到端流程,将逐步在测试与清理后开源。仓库地址:https://github.com/0xShug0/audio.cpp

作者征集社区在不同 GPU 与 CPU 上的反馈,特别是长 prompt、多说话人格式、显存占用与性能数据,以完善跨硬件兼容性与稳定性。

信源