桃子桃子快讯
返回首页
工具

Gemma Avatar:与 Gemma 4-31B 面对面语音对话的开源 demo

开发者用 Gemma 4 31B 配合语音与 3D 头像工具,实现可自主控制表情动作的实时语音对话 demo。

2026.07.03 · 周五2 分钟阅读

一名开发者在 Reddit 的 r/LocalLLaMA 板块分享了名为「Gemma Avatar」的项目 demo:用户可以对着一个 3D 虚拟形象说话,模型会一边用语音回答,一边驱动头像做出对应的表情和手势,整个体验类似「面对面」与 AI 对话。

项目基本玩法

用户在浏览器中对着麦克风说话,系统会持续监听语音内容;大模型在生成回复后,不仅输出文本与语音,还会自主决定头像的情绪与肢体动作。具体而言,3D 头像相关的动作被封装为函数工具暴露给 LLM,包括 set_mood(设置情绪)、make_hand_gesture(做出手势)和 make_facial_expression(面部表情),由模型自行调用决定。

技术栈构成

整套方案完全基于开源模型与开源工具组合:

  • 语音活动检测:Silero VAD
  • 语音转文字:Parakeet(STT)
  • 大模型:Gemma 4 31B,由 Cerebras 推理服务托管,因此回复速度较快
  • 语音合成:Qwen3-TTS
  • 音频传输:原始 PCM 音频通过普通 WebSocket 传输
  • 唇形同步与 3D 头像:met4citizen 开发的 TalkingHead 与 HeadAudio

值得关注的点

这一 demo 的核心思路是让 LLM 直接控制虚拟形象的「表现层」,而不是由外部脚本或规则系统决定表情动作,这种「工具即表达」的设计让对话过程在视觉上更自然。不过需要指出的是,目前的「Gemma 4 31B」并非 Google 官方正式发布的版本,该项目更接近社区层面的探索性组合实验,距离成熟产品仍有距离。

信源