开源
开源项目 qwen3-tts.cpp 与桌面 GUI 发布,本地 TTS 速度达 15 倍
开发者发布 GGML 版 Qwen3-TTS 推理实现及 Compose 桌面端,支持 0.6B/1.7B 模型,速度较…
2026.06.30 · 周二约 2 分钟阅读评分 50
评分细项加权总分 50
- 重要性
- 45
- 新颖性
- 60
- 影响面
- 40
- 可信度
- 55
- 实质性
- 60
开发者 Danmoreng 在 GitHub 上发布了基于 GGML 的 Qwen3-TTS 本地推理实现 qwen3-tts.cpp,并配套提供了使用 Kotlin Compose Multiplatform 构建的桌面应用 Qwen-TTS-Studio。该项目可在 Windows 与 Linux 上编译运行,为本地部署 Qwen 系列语音合成模型提供了一条轻量化路径。
性能与跨平台
qwen3-tts.cpp 基于 GGML 框架开发,作者称在 RTX 5080 上可达到约 5 倍实时合成速度,相较官方 Python 参考实现快约 15 倍。项目支持 CPU 与 CUDA 两种后端,并已在 Windows 与 Linux 系统下完成测试。Windows 用户可直接下载预编译发行版运行,Linux 用户则需要从源码自行编译。
支持的模型与功能
Qwen-TTS-Studio 集成了三种 Qwen3-TTS 模型变体,覆盖 0.6B 与 1.7B 两种参数规格,主要能力包括:
- Base 模型支持声音克隆,可基于参考音频复刻音色
- CustomVoice 模型支持通过自然语言指令控制语气与风格
- VoiceDesign 模型支持通过指令设计全新的声音特征
- 可导出 speaker embedding,并支持将多个 embedding 进行混合与合并
- 支持流式合成,输出过程中附带半准确度的文字高亮
资源与下载
仓库内置了预转换 GGUF 模型的下载入口,权重文件托管在 HuggingFace 的 Serveurperso/Qwen3-TTS-GGUF 仓库,用户无需自行转换即可在桌面端直接加载使用。该项目将 TTS 模型从 Python 环境释放到更广泛的 GGML 生态,对希望本地化、低门槛部署语音合成的开发者具有参考意义。
