桃子桃子 AI 快讯
返回首页
模型发布

虎牙发布实时多模态数字人VAM 1.0,主打24小时不间断直播

虎牙推出基于DiT架构的实时多模态数字人VAM 1.0,支持单张照片生成可对话的数字人,连续运行24小时以上。

2026.06.30 · 周二3 分钟阅读评分 62
评分细项加权总分 62
重要性
58
新颖性
68
影响面
52
可信度
72
实质性
75

虎牙近日推出实时多模态数字人基础模型「VAM 1.0」(Vivid Avatar Model),用户只需提供一张照片,即可生成能说会道、可被打断、还能唱歌跳舞的AI数字人,并在直播间中实现实时互动。官方数据显示,该模型可实现 480×832 分辨率、28 帧的实时流式输出,并能连续运行 24 小时以上不宕机。

核心能力与实测表现

VAM 1.0 的关键突破在于「全状态拟人交互仿真」,即原生覆盖静默、聆听、说话三种状态。在实际体验中,数字人在用户输入时会做出侧头、眨眼等微动作以示等待,回应时表情与情绪匹配,并能根据上下文自主延展话题。

模型支持即时打断与自然过渡,即「全双工」交互模式,并兼容文字弹幕与语音双链路输入。延迟方面,官方数据显示首帧延迟约 1.3 秒,后续每生成一个片段的延迟仅 0.77 秒。

除对话外,VAM 1.0 还能实时生成唱歌与舞蹈内容,嘴型与歌词同步,肢体动作自然且不重复;也可驱动多人策略游戏场景,支持多个AI角色同场博弈与轮流发言。

技术方案:三阶段训练与全链路工程优化

VAM 1.0 基于 DiT 架构,采用三阶段训练策略来突破数字人行业的「时间墙」:

  • 第一阶段(长时间稳定性):通过多张参考图与运动帧「锚定」人物形象,并引入运动控制模块与音频自适应注入模块,让嘴型、头部与肢体动作与语音节奏同步;训练时主动喂入「画面劣化」样本以提升抗干扰能力。
  • 第二阶段(多目标平衡):采用 DPO 偏好优化算法,让模型在嘴型精度、表情自然度、动作协调性之间找到平衡。
  • 第三阶段(推理加速):通过模型蒸馏将计算步骤从 20 步压缩至 4 步,并引入自纠错机制,让模型在训练阶段就学会自我纠偏。

在部署层面,VAM 1.0 完成了从底层算子到模型权重的全链路工程优化,涵盖编译加速、注意力计算优化、VAE 解码加速与多策略量化。最终在 8 块 H200 GPU 集群上达到 36.4 帧/秒的推理速度。

行业背景:翻越「三堵墙」

数字人行业普遍面临三类技术瓶颈:时间墙(长时运行面部漂移、画面撕裂)、交互墙(只能单向输出、无法自然聆听与打断)、部署墙(算力开销大、难以规模化上线)。VAM 1.0 针对每一堵墙都给出了对应方案,官方称其在真实感、身份保持、同步精度、动作自然度四个维度上较多个学术前沿方法更优,且计算开销更低。

虎牙的布局逻辑

虎牙作为国内游戏直播平台,在弹幕互动、语音连麦、礼物打赏等交互基础设施上具备现成场景。VAM 1.0 的发布,是其从「给直播加 AI 功能」迈向「用 AI 做直播本身」的一步。产品规划中的落地方向包括才艺主播实时互动、带货主播沉浸式推荐、24 小时新闻播报等。

信源