虎牙发布实时多模态数字人VAM 1.0，主打24小时不间断直播

虎牙近日推出实时多模态数字人基础模型「VAM 1.0」（Vivid Avatar Model），用户只需提供一张照片，即可生成能说会道、可被打断、还能唱歌跳舞的AI数字人，并在直播间中实现实时互动。官方数据显示，该模型可实现 480×832 分辨率、28 帧的实时流式输出，并能连续运行 24 小时以上不宕机。

核心能力与实测表现

VAM 1.0 的关键突破在于「全状态拟人交互仿真」，即原生覆盖静默、聆听、说话三种状态。在实际体验中，数字人在用户输入时会做出侧头、眨眼等微动作以示等待，回应时表情与情绪匹配，并能根据上下文自主延展话题。

模型支持即时打断与自然过渡，即「全双工」交互模式，并兼容文字弹幕与语音双链路输入。延迟方面，官方数据显示首帧延迟约 1.3 秒，后续每生成一个片段的延迟仅 0.77 秒。

除对话外，VAM 1.0 还能实时生成唱歌与舞蹈内容，嘴型与歌词同步，肢体动作自然且不重复；也可驱动多人策略游戏场景，支持多个AI角色同场博弈与轮流发言。

技术方案：三阶段训练与全链路工程优化

VAM 1.0 基于 DiT 架构，采用三阶段训练策略来突破数字人行业的「时间墙」：

第一阶段（长时间稳定性）：通过多张参考图与运动帧「锚定」人物形象，并引入运动控制模块与音频自适应注入模块，让嘴型、头部与肢体动作与语音节奏同步；训练时主动喂入「画面劣化」样本以提升抗干扰能力。
第二阶段（多目标平衡）：采用 DPO 偏好优化算法，让模型在嘴型精度、表情自然度、动作协调性之间找到平衡。
第三阶段（推理加速）：通过模型蒸馏将计算步骤从 20 步压缩至 4 步，并引入自纠错机制，让模型在训练阶段就学会自我纠偏。

在部署层面，VAM 1.0 完成了从底层算子到模型权重的全链路工程优化，涵盖编译加速、注意力计算优化、VAE 解码加速与多策略量化。最终在 8 块 H200 GPU 集群上达到 36.4 帧/秒的推理速度。

行业背景：翻越「三堵墙」

数字人行业普遍面临三类技术瓶颈：时间墙（长时运行面部漂移、画面撕裂）、交互墙（只能单向输出、无法自然聆听与打断）、部署墙（算力开销大、难以规模化上线）。VAM 1.0 针对每一堵墙都给出了对应方案，官方称其在真实感、身份保持、同步精度、动作自然度四个维度上较多个学术前沿方法更优，且计算开销更低。

虎牙的布局逻辑

虎牙作为国内游戏直播平台，在弹幕互动、语音连麦、礼物打赏等交互基础设施上具备现成场景。VAM 1.0 的发布，是其从「给直播加 AI 功能」迈向「用 AI 做直播本身」的一步。产品规划中的落地方向包括才艺主播实时互动、带货主播沉浸式推荐、24 小时新闻播报等。