工具
audio.cpp 集成 VibeVoice 1.5B,RTX 5090 上 4 倍实时合成长音频
本地 C++/ggml 推理框架 audio.cpp 新增 VibeVoice 1.5B 支持,在 RTX 5090 上…
2026.07.01 · 周三约 2 分钟阅读
本地音频模型推理框架 audio.cpp 近日新增对 VibeVoice 1.5B 的支持,作者在 RTX 5090 上跑出 4.08 倍实时的合成速度,较 Python 基线快 2.86 倍,且全程未做量化处理。这是该项目在长文本、多说话人语音合成场景下的一次压力测试。
基准测试结果
在 RTX 5090 上的 VibeVoice 1.5B 推理表现:
- 音频长度:5615.73 秒(约 93.60 分钟)
- 墙钟时间:1376.84 秒(约 22.95 分钟)
- RTF(实时因子):0.245
- 相对实时速度:4.08x
- 扩散步数:10
- 量化:无
作为对照,Python 基线用 65.70 分钟生成 92.66 分钟音频。audio.cpp 的 C++/ggml 路径相比该基线取得 2.86 倍加速。
关于 audio.cpp
audio.cpp 是一个面向本地音频模型的 C++/ggml 运行时。作者强调,目标不只是避开 Python 部署的繁琐流程,而是把音频模型放进「原生本地运行时」:
- 可复用的会话(reusable sessions)
- 类服务化的调用方式
- 长音频生成的稳定性
- 可预测的显存行为
- 以 CUDA 为优先(后续计划支持 CPU 与 Metal)
VibeVoice 之所以被选为里程碑式的测试对象,是因为它面向的是长文本、多说话人对白——如播客、角色对话、叙事类内容——而不是单句 TTS,更考验运行时的稳定性与持续吞吐能力。
项目进度
作者披露框架已覆盖 28 个模型家族中的 16 个,完成度约 57%。其余家族已在内端跑通端到端流程,将逐步在测试与清理后开源。仓库地址:https://github.com/0xShug0/audio.cpp
作者征集社区在不同 GPU 与 CPU 上的反馈,特别是长 prompt、多说话人格式、显存占用与性能数据,以完善跨硬件兼容性与稳定性。
