主页 › 阅读 › 热点 › 汤晓鸥弟子带队：免调优长视频生成，可支持512帧！｜ICLR'24

汤晓鸥弟子带队：免调优长视频生成，可支持512帧！｜ICLR'24

量子位发布于 8月前

29 0

丰色发自凹非寺

量子位 | 公众号 QbitAI

想要AI生成更长的视频？

现在，有人提出了一个效果很不错的免调优方法，直接就能作用于预训练好的视频扩散模型。

它最长可支持512帧（假设帧率按30fps算，理论上那就是能生成约17秒长的作品了）。

可应用于任何视频生成模型，比如AnimateDiff、LaVie等等。

以及还能支持多文本生成，比如可以让骆驼一会跑一会停：

（提示词：”A camel running on the snow field.” -> “…… standing ……”）

这项成果来自腾讯AI Lab、南洋理工大学以及港科大，入选了ICLR 2024。

值得一提的是，与此前业内性能最佳的同类方法带来255%的额外时间成本相比，它仅产生约17%的时间成本，因此直接可以忽略不计。

可以说是成本和性能两全了～

具体来看看。

通过重新调度噪声实现

该方法主要解决的是两个问题：

一是现有视频生成通常在有限数量的帧上完成训练，导致推理过程中无法生成高保真长视频。

二是这些模型还仅支持单文本生成（即使你给了“一个人睡在桌子上，然后看书”这种提示词，模型也只会响应其中一个条件），而应用到现实中其实是需要多文本条件，毕竟视频内容是会随时间不断变化的。

在此，作者首先分析视频扩散模型的时间建模机制，并研究了初始噪声的影响，提出免调优、实现更长视频推理的FreeNoise。

具体而言，以VideoLDM模型为例，它生成的帧不仅取决于当前帧的初始噪声，还取决于所有帧的初始噪音。

这意味着，由于临时注意力层负责促成整个交互，所以对任何帧的噪声重新采样都会显著影响其它帧。

产生的问题就是我们要想保持原视频主要内容的同时引入新东西就很难。

在此，作者检查VideoLDM的时间建模机制发现，其中的时间注意力模块是顺序无关的，而时间卷积模块是顺序相关的。

实验观察表明，每帧噪声是决定视频整体外观的基础，而它们的时间顺序会影响建立在该基础上的内容。

受此启发，作者提出了FreeNoise，其关键思想是构建一个具有长程相关性的噪声帧序列，并通过基于窗口的融合对其进行时间关注。

它主要包括两个关键设计：局部噪声去除和基于窗口的注意力融合。

通过将局部噪声混洗应用于固定随机噪声帧序列以进行长度扩展，作者实现了具有内部随机性和长程相关性的噪声帧序列。

同时，基于窗口的注意力融合使预先训练的时间注意力模块能够处理任何较长的帧。

并且最重要的是，重叠窗口切片和合并操作只发生在时间注意力上，而不会给VideoLDM的其他模块带来计算开销，这也大大提高了计算效率。

接下来，为了解决多文本条件问题，作者则提出了动作注入（Motion Injection）方法。

其核心利用的是扩散模型不同步骤在去噪过程中恢复不同级别信息（图像布局、物体形状和精细视觉细节）的特性。

在模型完成上一个动作之后，该方法就在与物体形状相关的时间步长内逐渐注入新的运动。

这样的操作，既保证多提示长视频生成，又具备很好的视觉连贯性。

超越此前最先进的无调优方法

首先来看长视频生成的结果。

可以看到，FreeNoise诠释“宇航服吉娃娃”和“熊猫吃披萨”这两个场景最为连贯自然。

相比之下，直接推理的（最左列）的狗有严重伪影且没有生成背景，Gen-L-Video（此前最先进的无调优方法）则由于无法保持长距离的视觉一致性，存在明显内容突变。

定性结果也用数据证明了FreeNoise的效果：

其中CLIP-SIM的得分代表该方法做到了良好的内容一致性。

其次是多文本条件生成效果。

可以看到该方法（中间列和最右列）可以实现连贯的视觉显示和运动：

骆驼从奔跑逐渐变为站立，远处的山脉一直保持同样的外观。

定性结果如下：

可以看到该方法在内容一致性、视频质量和视频文本对齐都实现SOTA，且与第二名拉开的差距几乎达到两倍之多。

最后，再给大家展示一下FreeNoise用在潜视频扩散模型AnimateDiff、LaVie上的效果。

AnimateDiff：

第一列为原效果，第二列为应用后的效果。

LaVie：

效果提升都是肉眼可见的～

哦对，还有生成的满打满算512帧的视频，大家觉得效果如何呢：

，时长00:51

通讯作者之一是汤晓鸥弟子

本文一共7位作者。

一作为南洋理工大学计算机科学与工程学院博士生邱浩楠。

他的研究方向为AIGC、对抗性机器学习和深伪检测，本科毕业于港中文。

通讯作者有两位：

一位是腾讯AI Lab视觉计算中心研究员Menghan Xia。

他的研究方向为计算机视觉和深度学习，尤其是图像/视频的生成和翻译。

Menghan Xia博士毕业于港中文，本硕先后毕业于武汉大学的摄影测量与遥感学、模式识别与智能系统专业。

另一位是南洋理工大学计算机科学与工程学院助理教授刘子纬。

他2017年博士毕业于港中文，师从汤晓鸥教授和王晓刚教授。

毕业后曾在UC伯克利做博士后、港中文担任四年研究员。

论文：

https://arxiv.org/abs/2310.15169

Huggingface体验demo：

https://huggingface.co/spaces/MoonQiu/LongerCrafter

— 完 —

量子位 QbitAI · 头条号签约

友情提示

本站部分转载文章，皆来自互联网，仅供参考及分享，并不用于任何商业用途；版权归原作者所有，如涉及作品内容、版权和其他问题，请与本网联系，我们将在第一时间删除内容！

联系邮箱：1042463605@qq.com

#计算机科学#

汤晓鸥弟子带队：免调优长视频生成，可支持512帧！｜ICLR'24

通过重新调度噪声实现

超越此前最先进的无调优方法

通讯作者之一是汤晓鸥弟子

友情提示

307人未报到！这所航空大学采取必要措施，对原因的思考与启示

广西一高校录取通知书校长签名潦草像“天书”被网友吐槽，教育厅：已关注到，会向领导汇报

香港科技大学张黔团队招聘博士生/研究助理

高维世界真的存在？大脑是高维世界的产物？高维世界有多美好？

一顿连心饭搭起“连心桥”

MAIA 新系统亮相：洞悉 AI 模型内在机制，审查其安全性

夫妻在外地遭遇车祸，可是人25元的挂号费都拿不出。

拜登宣布赦免其子亨特·拜登，特朗普回应：如此的职权滥用！

《还珠格格》《一帘幽梦》作者琼瑶去世，终年86岁

外交部：三名被美方错误羁押的中国公民平安回到祖国

《还珠格格》《一帘幽梦》作者琼瑶轻生身亡，终年86岁

距卸任还有一个半月美总统拜登宣布赦免其子亨特·拜登

刘泽一7中7贡献19分6板4助

广州白云机场进境旅客用行李箱携带百万美金被查！现场曝光

空调也被“卡脖子”？日本产品把生产线搬走，国产空调不能用了？

乌能源部副部长：俄天然气过境运输将从2025年停止

美最强驱逐舰不惜血本搞“换装”

韩国为何突发“紧急戒严令”又解除