Vox：定位「语音版 Ollama」的本地语音模型运行时

一名独立开发者在 Reddit 的 r/LocalLLaMA 板块发布了开源项目 Vox，定位为「语音版 Ollama」——一个面向语音模型的本地运行时。Vox 试图解决当前 STT（语音转文字）与 TTS（文字转语音）模型各自为政的问题：每换一个模型，往往要重写胶水代码、重新配置环境，对开发者并不友好。

统一接口与多后端适配

Vox 的核心思路是「一次拉取，自动适配」。用户拉取某个语音模型后，Vox 会自动安装对应的适配器，并通过统一的 API 对外提供服务。STT 与 TTS 均挂在与 OpenAI 兼容的端点之后，包括 /v1/audio/speech 和 /v1/audio/transcriptions，因此多数现有客户端可直接对接。

在后端层面，Vox 不绑定单一推理框架：

支持 CTranslate2、ONNX、Torch、NeMo、vLLM 等多种后端
用户无需关心模型具体跑在哪个引擎上
不同模型可按其特性自动选择最合适的后端

基于 WebRTC 的实时语音层

Vox 区别于普通语音模型运行时的关键，是其内置的 WebRTC 实时语音层。开发者可以将自己的智能体（agent）或大语言模型通过 gRPC、POST+SSE 或 WebSocket 接入 Vox。当用户从浏览器端接入时，Vox 自动接管麦克风侧的处理：

语音活动检测（VAD）
实时转写
判断用户何时停止说话
以事件流的形式回传给上层

上层 LLM 生成回复文本后，Vox 再通过 WebRTC 将其朗读出来，支持「barge-in」（用户中途插话打断）。作者用一句话概括其角色：「Vox 是耳朵和嘴巴，大脑由你自己接入的 LLM 提供。」

项目现状

Vox 由作者独自维护数月，原本为个人使用而开发。在看到 r/LocalLLaMA 上有关 audio.cpp 的讨论后，作者决定公开分享。项目代码已在 GitHub 开源（eleven-am/vox），作者表示欢迎批评指正，也欢迎有兴趣者加入维护。

目前该工具尚无公开的基准测试数据或性能对比，其稳定性、生态完善程度与社区采用情况仍有待观察。