Meta新视频生成框架拿捏倒立杂技,双人舞也能完美同步,运动一致性暴增近20%,可无缝集成DiT模型

关注
训练时引入运动信息表示

编者按:本文来自微信公众号 量子位,作者:克雷西,创业邦经授权转载。

针对视频生成中的运动一致性难题,Meta GenAI团队提出了一个全新框架VideoJAM。

VideoJAM基于主流的DiT路线,但和Sora等纯DiT模型相比,动态效果直接拉满:

哪怕变化又大又迅速、动作又复杂的舞蹈,也看起来像真的一样,而且还是两个人同步:

像倒立这样的操作,同样可以轻松驾驭:

而且不需要额外数据或缩放,就能无缝集成到不同规模的DiT模型当中,带来运动效果的提升。

有网友表示,第一眼看上去就和真的一样,也许到今年年底,我们看不到区别了。

运动效果超越Sora、Gen3

VideoJAM在处理运动场景时,不仅视觉上效果更好,也更加贴合物理规律。

比如吹灭蜡烛时火苗的晃动,以及渐进式的熄灭过程,连燃烧产生的白烟也没有落下:

写书法时毛笔的运动处理得也很精细,并且做到了笔迹和纸上的字迹同步(虽然不知道写的是什么):

还有用手捏史莱姆时的形状变化,以及内部产生的流体效果,连手松开时的粘连效果也体现了出来:

甚至是三个球来回抛的杂技表演,也能很好地体现出抛物线轨迹:

另外,作者也针对文本/外观/运动一致性、视频质量等指标,在4B和30B的DiT模型上分别运用VideoJAM进行了评估,并与主流视频生成模型进行了对比。

结果在4B和30B规模下,相比于原始的DiT模型,运动质量从78.3和88.1,分别提升到了93.7和92.4,提升比例分别为19.67%和4.88%。

并且应用VideoJAM后,运动质量也超过了Gen3、Sora等其他对比模型。

那么,VideoJAM是如何做到的呢?

训练中引入运动信息

在训练和推理阶段,VideoJAM针对经典的DiT架构都进行了一定补充。

具体来说,在训练阶段,VideoJAM采用了联合外观-运动表示(Joint Appearance-Motion Representation)。

通过在模型中引入额外的运动预测任务,让模型在生成视频的同时也学习如何预测对应的运动。

为实现联合外观-运动表示,VideoJAM对现有视频生成模型进行了两处关键性改动,添加了输入和输出两个线性投影层。

输入投影层将外观特征(视频帧的表示)和运动特征拼接后映射到模型的隐藏空间,形成一个联合的潜在表示,这个潜在表示融合了静态外观信息和动态运动信息。

输出投影层则从模型的联合潜在表示中,分别解码出视频的外观预测和运动预测,其中外观预测用于生成最终的视频帧,运动预测则用来评估模型对时间一致性的理解。

在这一过程当中,运动是用光流(Optical Flow),也就是视频帧之间像素的位移的形式进行表示的。

处理时,VideoJAM将光流转换成RGB格式,像素运动方向被映射为色调,强度则被映射为亮度或透明度,使其可以像普通视频一样被模型处理。

这种处理方式无需额外训练复杂的运动编码器,且兼容性强,可以方便地嵌入到现有的视频生成模型中。

到了推理阶段,VideoJAM采用了内部引导机制(Inner-Guidance Mechanism),进一步增强生成视频的运动一致性。

这种机制不依赖外部条件,而是使用模型自身在每个生成步骤中预测的运动信息来动态调整生成过程,可以实时捕捉生成视频的动态变化。

和其他扩散模型一样,生成视频的初始输入是随机噪声,模型首先对噪声进行处理,生成初步的视频帧和对应的运动预测。

生成过程中,模型会使用当前帧的运动预测作为指导信号,调整下一个时间步的生成方向。

这种反馈机制之下,模型不断审视自己生成的动作是否连贯,并在发现不一致时自动进行调整。

具体到生成进程,可以分成两个阶段,内部引导主要应用在其中第一个:

粗略阶段:在生成初期(大约前50%的步骤),重点关注大范围的运动连贯性,如整体方向和节奏。

细化阶段:在生成后期,转向优化细节,如肢体动作的微调和物体交互的物理合理性。

消融实验表明,作者采用的光流表示和内部引导机制正是VideoJAM实现高运动一致性的关键。

论文地址:https://arxiv.org/abs/2502.02492

项目主页:https://hila-chefer.github.io/videojam-paper.github.io/

本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。


反馈
联系我们
推荐订阅