Outpost VFX 借助 AWS P5 实例实现人脸替换模型 8 倍提速
Outpost VFX 与 AWS 合作,将人脸替换 AI 模型从单卡 RTX 3090 迁移至 P5 实例多卡训练,训…
Outpost VFX 是一家在英国、加拿大和印度设有工作室的高端影视特效公司,长期为人脸替换(face replacement)流程投入大量人力与时间。该公司与 AWS Generative AI Innovation Center 合作,将自研人脸替换 AI 模型从本地单 GPU 工作站迁移到 AWS P5 实例上进行多 GPU 分布式训练,训练速度相比 G5 单卡基线提升最高达 8 倍。
业务痛点:单 GPU 训练拖慢迭代周期
在传统影视特效流程中,人脸替换的初版交付给导演审批需要超过 5 天的合成或专门的美颜/减龄处理,审批环节的延迟会直接传导到项目排期。Outpost VFX 此前已开发出能够基于片场素材训练的人脸替换 AI 模型,但训练只能跑在单张 GPU 上,可用显存和算力受限,每次微调需要 1 到 2 周,难以满足多项目并行的需求。
设计目标:可扩展、安全、性能优化
在迁移方案设计阶段,团队明确了三个核心要求:
- 算力可扩展:需要将训练并行到多块 GPU 上,缩短模型迭代周期。
- 基础设施安全:作为自 2022 年起就全面使用 AWS 的客户,需要方案在隔离的安全云环境中处理高敏感度的制作数据。
- 性能与质量兼顾:架构需支持更大数据集与更高分辨率图像,以提升最终输出质量。
技术实现:P5 实例 + PyTorch DDP
Outpost VFX 原有训练在配备 RTX 3090 的 GPU 工作站上进行,团队后来转向 P5 实例。该实例配备 NVIDIA H100 GPU,相比 G 系列实例使用的 PCIe 总线,P5 通过 NVLink 实现 GPU 间互联,带宽显著高于梯度同步所需,对分布式训练尤为关键。H100 单卡拥有 14,592 个 CUDA 核心和 80GB HBM3 高带宽内存,相较 RTX 3090 提升明显。
在为期 6 周的顾问合作中,AWS 的数据科学家帮助 Outpost 将模型代码改造为基于 PyTorch Distributed Data Parallel(DDP)的训练策略。DDP 会将模型权重复制到每张 GPU,从而在每个训练批次中容纳更多图像,直接加快收敛速度。整个方案运行在与 Outpost 现有 AWS 技术栈一致的隔离安全环境中。
性能结果与后续规划
团队在固定超参数、以达到相同损失阈值为终止条件的设定下,测量 G5 单卡基线与 P5 多卡方案的训练耗时,最终实现最高 8 倍的模型学习速度提升。更快的迭代直接缩短了导演审批初版所需的时间。展望未来,Outpost 计划进一步引入 Amazon SageMaker AI 的托管训练、模型版本管理与托管推理能力,将分散在各地工作室的模型开发与部署流程进一步统一。
