Goku:基于流的視頻生成模型詳解
论文 (https://arxiv.org/abs/2502.04896)
Goku 是一组基于修正流的 Transformer,可以同时生成图像和视频。作者们介绍了他们如何收集和整理数据,设计模型架构以及制定流的形式,并设置了高效的大型训练。在文本到图像生成任务上,该方法在 GenEval 上获得了 0.76 分,在 DPG-Bench 上获得了 83.65 分;在文本到视频生成任务上,该方法在 VBench 上获得了 84.85 分——这些结果均为新的 SOTA(最优最先进)成果。
接近方式在训练过程中,视频和图像通过一个3D图像-视频联合VAE编码到潜在空间。这些潜在表示被分成包含图像和视频数据的迷你批次,进而实现统一的跨模态表达。然后,模型应用修正流并通过Transformer块处理潜在表示,有效捕捉空间和时间上的依赖关系。
建筑Goku变压器块通过结合自注意力机制来捕捉词元间的相关性、使用跨注意力机制进行文本嵌入、通过前向网络进行投影以及利用逐层adaLN-Zero块和时间戳信息来引导特征变换,扩展了GenTron。它具有以下额外的改进:
- 完整注意力:与之前的方法不同,Goku 不分离空间和时间注意力,而是应用完整注意力以更好地建模运动,通过使用 FlashAttention 和序列并行来提高效率。
- 贴片打包:将图像和视频打包成一个批次,消除了对单独数据桶的需求。
- 3D RoPE 位置嵌入:扩展了 RoPE 以适应图像/视频,使适应不同分辨率和序列长度更加灵活,同时也能更快地收敛。
- Q-K 归一化:使用查询-键 RMSNorm 归一化来防止损失突然增加,确保训练的稳定性。
悟空模型使用了一种修正流(Rectified Flow)算法来进行同时生成图像和视频,提高了收敛速度,并使概念更加清晰。RF利用线性插值,将高斯噪声样本转换成目标数据分布。实验显示,RF比去噪扩散模型更快达到收敛。
训练细节为了有效生成图像和视频,Goku采用了一种三阶段的训练方法。
- 文本-图像语义配对:通过文本到图像的任务进行预训练,以学习视觉语义及概念。
- 联合图像和视频学习:扩展到图像和视频的训练,采用统一令牌序列方法提升视频生成质量。
- 特定模态微调:优化文本到图像的生成以提高视觉质量,并通过提升时间平滑度、运动连贯性和稳定性来优化文本到视频的生成。
在第二阶段,模型使用级联分辨率训练策略进行训练:首先在288x512分辨率下进行训练,接着是480x864和720x1280分辨率。
Goku通过将每个片段的第一帧作为参考图像来引入图像条件,然后将这些令牌在通道维度上与加噪的视频令牌进行拼接。单层MLP负责通道对齐,而Goku-T2V架构的其他部分则保持不变。
基于优化的基础设施- 孙悟空使用3D 平行处理技术将计算分布在序列、数据和模型参数上。序列并行通过切分序列并分散注意力计算来减少内存需求,而全分片数据并行则将参数、梯度和优化器状态分区,以平衡内存效率和通信开销。
- 激活检查点技术通过仅存储必要的层的激活来最小化内存使用。
- 孙悟空整合了来自 MegaScale 的集群容错策略,包括自我检查诊断、多层次监控和快速恢复机制,确保在 GPU 节点发生故障时仍能实现大规模训练的稳定性。
- 孙悟空使用 ByteCheckpoint 实现高效并行保存和加载训练状态,支持重新分区操作和无缝适应不同集群规模。在数千个 GPU 上为 8B 模型创建检查点的时间不到四秒,最大限度地减少中断时间。
该数据集包含了1.6亿张图像-文本对和3600万条视频-文本对。
数据处理与过滤- 视频预处理和标准化编码:根据上述标准过滤视频,并将其标准化为统一的编码格式H.264。
- 视频片段提取:采用两阶段剪辑方法将视频分割成有意义的片段:PySceneDetect检测镜头边界并生成视频片段,DINOv2则基于帧间余弦相似度优化这些片段。超过10秒的片段将被截断,而感知哈希则通过移除美学评分较低的重复片段来确保片段多样性。
- 视觉美学过滤:仅保留美学评分高于阈值的高度逼真的片段。
- OCR过滤:移除包含过多文本的片段。
- 运动动态:使用RAFT光流评估运动,超出可接受运动评分范围的片段将被丢弃。同时为每个片段添加运动评分到元数据中以改善运动控制。
对于图像,作者们使用InternVL2.0为每个样本生成密集描述。对于视频,他们首先使用InternVL2.0生成关键帧描述,然后用Tarsier2生成整个视频的描述文本。Tarsier2能够自然识别摄像机的动作类型,如变焦或平移,这简化了流程,与以前的方法相比,消除了单独的运动预测模型的需要。接着使用Qwen2将关键帧和视频描述合并成一个统一的描述,以确保这些描述的一致性。此外,将来自RAFT的运动评分纳入描述中,从而提高了运动控制,让用户在提示中指定不同的运动模式,以指导视频生成。
实验Goku 在多个基准测试中实现了最先进的文本到图像和文本到视频生成的性能。
在 GenEval、T2I-CompBench 和 DPG-Bench 这些评估中,Goku-T2I 表现得非常出色,超越了诸如 PixArt-α、DALL-E 2/3 和 SDXL 这样的顶级模型,在文本图像对齐和处理密集提示方面表现出色。
对于将文本转换为视频的任务,Goku-T2V 在 UCF-101 和 VBench 数据集上表现出色,生成高保真、多样化和动态的视频。它在 Fréchet 视频距离上达到了业界领先水平,并在包括人类动作表示、动态运动和物体生成在内的 16 个评估维度上表现出色。
共同學(xué)習(xí),寫下你的評論
評論加載中...
作者其他優(yōu)質(zhì)文章