工具
Hugging Face 工程师展示开源实时语音 AI 流水线
Hugging Face 工程师 Andi 公布一套完全开源的实时语音对话流水线,融合 Parakeet、Gemma 4…
2026.07.02 · 周四约 2 分钟阅读
Hugging Face 团队的 Andi 于 r/LocalLLaMA 板块发布了一款完全开源、可本地运行的实时语音对话 Demo。该方案通过将语音识别(ASR)、大语言模型(LLM)与语音合成(TTS)串联,组成一套端到端的实时语音交互流水线,被作者称为 OpenAI Realtime API 的开源替代品。
流水线构成
整套系统由三个主要模块拼接而成:
- 语音识别:使用 NVIDIA 的 Parakeet,负责将用户语音转写为文本。
- 对话大脑:使用 Gemma 4(作者文中分别提及 31B、32B 与 E4B 三个规模,其中云端 Demo 由 Cerebras 提供推理服务)。
- 语音合成:使用作者自行实现的 Qwen3TTS 推理,将模型回复重新生成为自然语音。
部署方式与性能
作者表示,该栈具备以下特点:
- 完全开源,支持自行下载、修改与本地部署;
- 可作为 OpenAI Realtime API 的平替方案(drop-in replacement);
- 在 MacBook Pro M3 36GB 上运行 Gemma 4 E4B 时,能够获得与云端 Demo 相近的延迟;
- 网页版 Demo 的所有推理均在云端完成。
应用场景延伸
作者补充道,该流水线同样运行在 Reachy Mini 机器人上,是此前已展示过的同一套技术栈的延续。对于希望搭建本地语音助手或硬件语音交互设备的开发者而言,该项目提供了一个可参考的端到端实现路径。
需要指出的是,原帖并未给出具体的延迟数字、Benchmark 跑分或与其他方案的对比数据,整体仍属于个人/社区项目演示性质,而非官方模型发布或产品更新。
