audio.cpp 集成 VibeVoice 1.5B，RTX 5090 上 4 倍实时合成长音频

本地音频模型推理框架 audio.cpp 近日新增对 VibeVoice 1.5B 的支持，作者在 RTX 5090 上跑出 4.08 倍实时的合成速度，较 Python 基线快 2.86 倍，且全程未做量化处理。这是该项目在长文本、多说话人语音合成场景下的一次压力测试。

基准测试结果

在 RTX 5090 上的 VibeVoice 1.5B 推理表现：

作为对照，Python 基线用 65.70 分钟生成 92.66 分钟音频。audio.cpp 的 C++/ggml 路径相比该基线取得 2.86 倍加速。

audio.cpp 是一个面向本地音频模型的 C++/ggml 运行时。作者强调，目标不只是避开 Python 部署的繁琐流程，而是把音频模型放进「原生本地运行时」：

VibeVoice 之所以被选为里程碑式的测试对象，是因为它面向的是长文本、多说话人对白——如播客、角色对话、叙事类内容——而不是单句 TTS，更考验运行时的稳定性与持续吞吐能力。

作者披露框架已覆盖 28 个模型家族中的 16 个，完成度约 57%。其余家族已在内端跑通端到端流程，将逐步在测试与清理后开源。仓库地址：https://github.com/0xShug0/audio.cpp

作者征集社区在不同 GPU 与 CPU 上的反馈，特别是长 prompt、多说话人格式、显存占用与性能数据，以完善跨硬件兼容性与稳定性。