桃子桃子 AI 快讯
返回首页
开源

开源项目 qwen3-tts.cpp 与桌面 GUI 发布,本地 TTS 速度达 15 倍

开发者发布 GGML 版 Qwen3-TTS 推理实现及 Compose 桌面端,支持 0.6B/1.7B 模型,速度较…

2026.06.30 · 周二2 分钟阅读评分 50
评分细项加权总分 50
重要性
45
新颖性
60
影响面
40
可信度
55
实质性
60

开发者 Danmoreng 在 GitHub 上发布了基于 GGML 的 Qwen3-TTS 本地推理实现 qwen3-tts.cpp,并配套提供了使用 Kotlin Compose Multiplatform 构建的桌面应用 Qwen-TTS-Studio。该项目可在 Windows 与 Linux 上编译运行,为本地部署 Qwen 系列语音合成模型提供了一条轻量化路径。

性能与跨平台

qwen3-tts.cpp 基于 GGML 框架开发,作者称在 RTX 5080 上可达到约 5 倍实时合成速度,相较官方 Python 参考实现快约 15 倍。项目支持 CPU 与 CUDA 两种后端,并已在 Windows 与 Linux 系统下完成测试。Windows 用户可直接下载预编译发行版运行,Linux 用户则需要从源码自行编译。

支持的模型与功能

Qwen-TTS-Studio 集成了三种 Qwen3-TTS 模型变体,覆盖 0.6B 与 1.7B 两种参数规格,主要能力包括:

  • Base 模型支持声音克隆,可基于参考音频复刻音色
  • CustomVoice 模型支持通过自然语言指令控制语气与风格
  • VoiceDesign 模型支持通过指令设计全新的声音特征
  • 可导出 speaker embedding,并支持将多个 embedding 进行混合与合并
  • 支持流式合成,输出过程中附带半准确度的文字高亮

资源与下载

仓库内置了预转换 GGUF 模型的下载入口,权重文件托管在 HuggingFace 的 Serveurperso/Qwen3-TTS-GGUF 仓库,用户无需自行转换即可在桌面端直接加载使用。该项目将 TTS 模型从 Python 环境释放到更广泛的 GGML 生态,对希望本地化、低门槛部署语音合成的开发者具有参考意义。

信源