虎牙发布实时多模态数字人VAM 1.0,主打24小时不间断直播
虎牙推出基于DiT架构的实时多模态数字人VAM 1.0,支持单张照片生成可对话的数字人,连续运行24小时以上。
- 重要性
- 58
- 新颖性
- 68
- 影响面
- 52
- 可信度
- 72
- 实质性
- 75
虎牙近日推出实时多模态数字人基础模型「VAM 1.0」(Vivid Avatar Model),用户只需提供一张照片,即可生成能说会道、可被打断、还能唱歌跳舞的AI数字人,并在直播间中实现实时互动。官方数据显示,该模型可实现 480×832 分辨率、28 帧的实时流式输出,并能连续运行 24 小时以上不宕机。
核心能力与实测表现
VAM 1.0 的关键突破在于「全状态拟人交互仿真」,即原生覆盖静默、聆听、说话三种状态。在实际体验中,数字人在用户输入时会做出侧头、眨眼等微动作以示等待,回应时表情与情绪匹配,并能根据上下文自主延展话题。
模型支持即时打断与自然过渡,即「全双工」交互模式,并兼容文字弹幕与语音双链路输入。延迟方面,官方数据显示首帧延迟约 1.3 秒,后续每生成一个片段的延迟仅 0.77 秒。
除对话外,VAM 1.0 还能实时生成唱歌与舞蹈内容,嘴型与歌词同步,肢体动作自然且不重复;也可驱动多人策略游戏场景,支持多个AI角色同场博弈与轮流发言。
技术方案:三阶段训练与全链路工程优化
VAM 1.0 基于 DiT 架构,采用三阶段训练策略来突破数字人行业的「时间墙」:
- 第一阶段(长时间稳定性):通过多张参考图与运动帧「锚定」人物形象,并引入运动控制模块与音频自适应注入模块,让嘴型、头部与肢体动作与语音节奏同步;训练时主动喂入「画面劣化」样本以提升抗干扰能力。
- 第二阶段(多目标平衡):采用 DPO 偏好优化算法,让模型在嘴型精度、表情自然度、动作协调性之间找到平衡。
- 第三阶段(推理加速):通过模型蒸馏将计算步骤从 20 步压缩至 4 步,并引入自纠错机制,让模型在训练阶段就学会自我纠偏。
在部署层面,VAM 1.0 完成了从底层算子到模型权重的全链路工程优化,涵盖编译加速、注意力计算优化、VAE 解码加速与多策略量化。最终在 8 块 H200 GPU 集群上达到 36.4 帧/秒的推理速度。
行业背景:翻越「三堵墙」
数字人行业普遍面临三类技术瓶颈:时间墙(长时运行面部漂移、画面撕裂)、交互墙(只能单向输出、无法自然聆听与打断)、部署墙(算力开销大、难以规模化上线)。VAM 1.0 针对每一堵墙都给出了对应方案,官方称其在真实感、身份保持、同步精度、动作自然度四个维度上较多个学术前沿方法更优,且计算开销更低。
虎牙的布局逻辑
虎牙作为国内游戏直播平台,在弹幕互动、语音连麦、礼物打赏等交互基础设施上具备现成场景。VAM 1.0 的发布,是其从「给直播加 AI 功能」迈向「用 AI 做直播本身」的一步。产品规划中的落地方向包括才艺主播实时互动、带货主播沉浸式推荐、24 小时新闻播报等。
