桃子桃子快讯
返回首页
工具

Vox:定位「语音版 Ollama」的本地语音模型运行时

独立开发者发布开源工具 Vox,统一本地 STT/TTS 模型接口并提供 WebRTC 实时语音层。

2026.07.03 · 周五2 分钟阅读

一名独立开发者在 Reddit 的 r/LocalLLaMA 板块发布了开源项目 Vox,定位为「语音版 Ollama」——一个面向语音模型的本地运行时。Vox 试图解决当前 STT(语音转文字)与 TTS(文字转语音)模型各自为政的问题:每换一个模型,往往要重写胶水代码、重新配置环境,对开发者并不友好。

统一接口与多后端适配

Vox 的核心思路是「一次拉取,自动适配」。用户拉取某个语音模型后,Vox 会自动安装对应的适配器,并通过统一的 API 对外提供服务。STT 与 TTS 均挂在与 OpenAI 兼容的端点之后,包括 /v1/audio/speech 和 /v1/audio/transcriptions,因此多数现有客户端可直接对接。

在后端层面,Vox 不绑定单一推理框架:

  • 支持 CTranslate2、ONNX、Torch、NeMo、vLLM 等多种后端
  • 用户无需关心模型具体跑在哪个引擎上
  • 不同模型可按其特性自动选择最合适的后端

基于 WebRTC 的实时语音层

Vox 区别于普通语音模型运行时的关键,是其内置的 WebRTC 实时语音层。开发者可以将自己的智能体(agent)或大语言模型通过 gRPC、POST+SSE 或 WebSocket 接入 Vox。当用户从浏览器端接入时,Vox 自动接管麦克风侧的处理:

  • 语音活动检测(VAD)
  • 实时转写
  • 判断用户何时停止说话
  • 以事件流的形式回传给上层

上层 LLM 生成回复文本后,Vox 再通过 WebRTC 将其朗读出来,支持「barge-in」(用户中途插话打断)。作者用一句话概括其角色:「Vox 是耳朵和嘴巴,大脑由你自己接入的 LLM 提供。」

项目现状

Vox 由作者独自维护数月,原本为个人使用而开发。在看到 r/LocalLLaMA 上有关 audio.cpp 的讨论后,作者决定公开分享。项目代码已在 GitHub 开源(eleven-am/vox),作者表示欢迎批评指正,也欢迎有兴趣者加入维护。

目前该工具尚无公开的基准测试数据或性能对比,其稳定性、生态完善程度与社区采用情况仍有待观察。

信源