时间、空间可控的视频生成走进现实，阿里大模型新作火了( 二 ) _大模型

风格（Style），为了进一步将单张图像的风格转移到合成的视频中，选择图像嵌入作为风格指导；

时序条件：

运动矢量（Motion Vector），运动矢量作为视频特有的元素表示为二维向量，即水平和垂直方向。它明确地编码了相邻两帧之间的逐像素移动。由于运动矢量的自然属性，将此条件视为时间平滑合成的运动控制信号，其从压缩视频中提取标准 MPEG-4 格式的运动矢量；

深度序列（Depth Sequence），为了引入视频级别的深度信息，利用 PiDiNet 中的预训练模型提取视频帧的深度图；

掩膜序列（Mask Sequence），引入管状掩膜来屏蔽局部时空内容，并强制模型根据可观察到的信息预测被屏蔽的区域；

草图序列（Sketch Sequnce），与单个草图相比，草图序列可以提供更多的控制细节，从而实现精确的定制合成。

时空条件编码器。序列条件包含丰富而复杂的时空依赖关系，对可控的指示带来了较大挑战。为了增强输入条件的时序感知，该研究设计了一个时空条件编码器（STC-encoder）来纳入空时关系。具体而言，首先应用一个轻量级的空间结构，包括两个 2D 卷积和一个 avgPooling，用于提取局部空间信息，然后将得到的条件序列被输入到一个时序 Transformer 层进行时间建模。这样，STC-encoder 可以促进时间提示的显式嵌入，为多样化的输入提供统一的条件植入入口，从而增强帧间一致性。另外，该研究在时间维度上重复单个图像和单个草图的空间条件，以确保它们与时间条件的一致性，从而方便条件植入过程。
两阶段训练策略。虽然 VideoComposer 可以通过图像 LDM 的预训练进行初始化，其能够在一定程度上缓解训练难度，但模型难以同时具有时序动态感知的能力和多条件生成的能力，这个会增加训练组合视频生成的难度。因此，该研究采用了两阶段优化策略，第一阶段通过 T2V 训练的方法，让模型初步具有时序建模能力；第二阶段在通过组合式训练来优化 VideoComposer，以达到比较好的性能。
推理。在推理过程中，采用 DDIM 来提高推理效率。并采用无分类器指导来确保生成结果符合指定条件。生成过程可以形式化如下：

文章插图
其中，ω 是指导比例；c1 和 c2 是两组条件。这种指导机制在两条件集合判断，可以通过强度控制来让模型具有更加灵活的控制。
实验结果
在实验探索中，该研究证明作为 VideoComposer 作为统一模型具有通用生成框架，并在 9 项经典任务上验证 VideoComposer 的能力。
该研究的部分结果如下，在静态图片到视频生成（图 4）、视频 Inpainting（图 5）、静态草图生成生视频（图 6）、手绘运动控制视频（图 8）、运动迁移（图 A12）均能体现可控视频生成的优势。

文章插图

文章插图
团队介绍
公开信息显示，阿里巴巴在视觉基础模型上的研究主要围绕视觉表征大模型、视觉生成式大模型及其下游应用的研究，并在相关领域已经发表 CCF-A 类论文 60 余篇以及在多项行业竞赛中获得 10 余项国际冠军，比如可控图像生成方法 Composer、图文预训练方法 RA-CLIP 和 RLEG、未裁剪长视频自监督学习 HiCo/HiCo++、说话人脸生成方法 LipFormer 等均出自该团队。

【时间、空间可控的视频生成走进现实，阿里大模型新作火了】