桃子桃子 AI 快讯
返回首页
开源

开源桌面语音助手 OpenDex:把任意大模型装进「贾维斯」界面

开发者开源桌面端语音优先 AI 助手 OpenDex,支持本地 Whisper/Vosk 与多种大模型,可在 macOS…

2026.06.29 · 周一4 分钟阅读评分 33
评分细项加权总分 33
重要性
28
新颖性
30
影响面
22
可信度
62
实质性
45

近日,开发者 wassgha 在 GitHub 开源了一款名为 OpenDex 的桌面 AI 助手应用,定位是「语音优先、可换皮、可本地运行」的 LLM Agent 壳层。它并不训练新模型,而是把任意大模型、语音识别、语音合成、唤醒词和图形界面整合成一个类似《钢铁侠》中 Jarvis 的桌面体验。

项目定位与核心思路

OpenDex 不是一个固定的机器人,而是一套「可配置的脚手架(harness)」。模型、语音、唤醒/转写引擎、界面主题、问候语和技能都可以自由替换。项目基于 Electron 构建,启动后会在 GitHub Releases 上检查更新并支持后台静默下载。

它强调三件事:一是「免手」(hands-free),唤醒后自然对话、可中途打断、连续追问;二是「本地优先」,在配备 Apple Intelligence 的 Mac 上可实现模型、语音、识别全在设备端跑、零 API Key;三是「电影感界面」,内置 Jarvis HUD(含动画反应堆)、Talking Dot、Typing Cursor 等主题。

模型与语音 I/O 的可插拔设计

OpenDex 的所有能力都被拆成可替换的模块:

  • 模型:可选 Apple Intelligence(macOS 端侧、免费、无 Key)、OpenAI/Anthropic 自带 Key,或通过 Vercel AI Gateway 用一个 Key 切换 Claude、GPT、Gemini 等。
  • 语音输出:系统自带 TTS(免费)或 ElevenLabs。
  • 语音输入:本地 Whisper / Vosk(WebAssembly、一次性模型下载)或 OpenAI Whisper。
  • 唤醒:按键说话、Vosk(离线)或 Web Speech。

API Key 默认在 App 内输入,使用操作系统 Keychain 加密存储,仅存于主进程、不暴露给渲染层;开发者也可以通过 .env.local 进行本地调试。

技能系统与权限闸门

Agent 的能力以「Skill(技能)」形式声明,目前内置两类:

  • 打开应用与 URL:可以代为启动软件、跳转网页。
  • 计算机控制(Computer-use):可选开启,授权后可截屏、用视觉模型识别界面、驱动键鼠操作。

所有敏感动作都会触发权限弹窗,提供「仅本次 / 始终允许 / 拒绝」三档选择,决策按技能维度记忆。官方提示在 macOS 上启用屏幕录制与辅助功能权限是前提,否则截屏会得到空白图像、点击也不会生效。

路线图与现状

项目已完成 Electron 外壳与 IPC 通道、配置与系统 Keychain 存储、主题、唤醒/转写、技能闸门、计算机控制、多模型接入和签名自动更新等里程碑。Roadmap 中尚未发布但已列出的方向包括:OpenDex 托管订阅(免 Key、云端同步配置与历史)、MCP 服务器、更多内置技能(Shell、文件系统等)。

从本质上看,OpenDex 是一位独立开发者用主流开源组件(Whisper、Vosk、Electron、各家 LLM API)拼装出来的桌面端语音 Agent 壳层,技术并无突破,但把「本地、可换皮、可控权限」三件事在工程上做到了可用的程度。对于想自己搭一个离线 Jarvis 风格助手的开发者,它提供了一个相对完整、代码量不大的起点。

信源