Gemma Avatar：与 Gemma 4-31B 面对面语音对话的开源 demo

一名开发者在 Reddit 的 r/LocalLLaMA 板块分享了名为「Gemma Avatar」的项目 demo：用户可以对着一个 3D 虚拟形象说话，模型会一边用语音回答，一边驱动头像做出对应的表情和手势，整个体验类似「面对面」与 AI 对话。

项目基本玩法

用户在浏览器中对着麦克风说话，系统会持续监听语音内容；大模型在生成回复后，不仅输出文本与语音，还会自主决定头像的情绪与肢体动作。具体而言，3D 头像相关的动作被封装为函数工具暴露给 LLM，包括 set_mood（设置情绪）、make_hand_gesture（做出手势）和 make_facial_expression（面部表情），由模型自行调用决定。

技术栈构成

整套方案完全基于开源模型与开源工具组合：

语音活动检测：Silero VAD
语音转文字：Parakeet（STT）
大模型：Gemma 4 31B，由 Cerebras 推理服务托管，因此回复速度较快
语音合成：Qwen3-TTS
音频传输：原始 PCM 音频通过普通 WebSocket 传输
唇形同步与 3D 头像：met4citizen 开发的 TalkingHead 与 HeadAudio

值得关注的点

这一 demo 的核心思路是让 LLM 直接控制虚拟形象的「表现层」，而不是由外部脚本或规则系统决定表情动作，这种「工具即表达」的设计让对话过程在视觉上更自然。不过需要指出的是，目前的「Gemma 4 31B」并非 Google 官方正式发布的版本，该项目更接近社区层面的探索性组合实验，距离成熟产品仍有距离。