Outpost VFX 借助 AWS P5 实例实现人脸替换模型 8 倍提速

Outpost VFX 是一家在英国、加拿大和印度设有工作室的高端影视特效公司，长期为人脸替换（face replacement）流程投入大量人力与时间。该公司与 AWS Generative AI Innovation Center 合作，将自研人脸替换 AI 模型从本地单 GPU 工作站迁移到 AWS P5 实例上进行多 GPU 分布式训练，训练速度相比 G5 单卡基线提升最高达 8 倍。

业务痛点：单 GPU 训练拖慢迭代周期

在传统影视特效流程中，人脸替换的初版交付给导演审批需要超过 5 天的合成或专门的美颜/减龄处理，审批环节的延迟会直接传导到项目排期。Outpost VFX 此前已开发出能够基于片场素材训练的人脸替换 AI 模型，但训练只能跑在单张 GPU 上，可用显存和算力受限，每次微调需要 1 到 2 周，难以满足多项目并行的需求。

设计目标：可扩展、安全、性能优化

在迁移方案设计阶段，团队明确了三个核心要求：

算力可扩展：需要将训练并行到多块 GPU 上，缩短模型迭代周期。
基础设施安全：作为自 2022 年起就全面使用 AWS 的客户，需要方案在隔离的安全云环境中处理高敏感度的制作数据。
性能与质量兼顾：架构需支持更大数据集与更高分辨率图像，以提升最终输出质量。

技术实现：P5 实例 + PyTorch DDP

Outpost VFX 原有训练在配备 RTX 3090 的 GPU 工作站上进行，团队后来转向 P5 实例。该实例配备 NVIDIA H100 GPU，相比 G 系列实例使用的 PCIe 总线，P5 通过 NVLink 实现 GPU 间互联，带宽显著高于梯度同步所需，对分布式训练尤为关键。H100 单卡拥有 14,592 个 CUDA 核心和 80GB HBM3 高带宽内存，相较 RTX 3090 提升明显。

在为期 6 周的顾问合作中，AWS 的数据科学家帮助 Outpost 将模型代码改造为基于 PyTorch Distributed Data Parallel（DDP）的训练策略。DDP 会将模型权重复制到每张 GPU，从而在每个训练批次中容纳更多图像，直接加快收敛速度。整个方案运行在与 Outpost 现有 AWS 技术栈一致的隔离安全环境中。

性能结果与后续规划

团队在固定超参数、以达到相同损失阈值为终止条件的设定下，测量 G5 单卡基线与 P5 多卡方案的训练耗时，最终实现最高 8 倍的模型学习速度提升。更快的迭代直接缩短了导演审批初版所需的时间。展望未来，Outpost 计划进一步引入 Amazon SageMaker AI 的托管训练、模型版本管理与托管推理能力，将分散在各地工作室的模型开发与部署流程进一步统一。