Hugging Face 工程师展示开源实时语音 AI 流水线

Hugging Face 团队的 Andi 于 r/LocalLLaMA 板块发布了一款完全开源、可本地运行的实时语音对话 Demo。该方案通过将语音识别（ASR）、大语言模型（LLM）与语音合成（TTS）串联，组成一套端到端的实时语音交互流水线，被作者称为 OpenAI Realtime API 的开源替代品。

流水线构成

整套系统由三个主要模块拼接而成：

语音识别：使用 NVIDIA 的 Parakeet，负责将用户语音转写为文本。
对话大脑：使用 Gemma 4（作者文中分别提及 31B、32B 与 E4B 三个规模，其中云端 Demo 由 Cerebras 提供推理服务）。
语音合成：使用作者自行实现的 Qwen3TTS 推理，将模型回复重新生成为自然语音。

部署方式与性能

作者表示，该栈具备以下特点：

完全开源，支持自行下载、修改与本地部署；
可作为 OpenAI Realtime API 的平替方案（drop-in replacement）；
在 MacBook Pro M3 36GB 上运行 Gemma 4 E4B 时，能够获得与云端 Demo 相近的延迟；
网页版 Demo 的所有推理均在云端完成。

应用场景延伸

作者补充道，该流水线同样运行在 Reachy Mini 机器人上，是此前已展示过的同一套技术栈的延续。对于希望搭建本地语音助手或硬件语音交互设备的开发者而言，该项目提供了一个可参考的端到端实现路径。

需要指出的是，原帖并未给出具体的延迟数字、Benchmark 跑分或与其他方案的对比数据，整体仍属于个人/社区项目演示性质，而非官方模型发布或产品更新。