Adobe&MIT-新研究：AI-视频边生成边播放-首帧延迟-1.3-秒、生成速度-9.4-帧-/-秒

来源：互联网更新时间：2024-12-17 14:03:42 小编：福利论坛网站导航

AI 生成视频，边生成边实时播放，再不用等了！Adobe 与 MIT 联手推出自回归实时视频生成技术 ——CausVid。

思路就像从下载整部电影到直接观看流媒体的转变，在模型生成首帧画面后，视频便可以即时播放，后续内容则动态生成并无缝衔接。

如果你用过视频生成模型，一定对漫长的等待时间记忆深刻，生成一段 10 秒的视频，往往需要等待好几分钟才可以开始观看。

研究团队表示，这一延迟的根本原因在于：传统视频生成模型普遍采用的双向注意力机制，每一帧都需要参考前后帧的信息。

这就像写故事时必须先构思好整个剧情的所有细节才能动笔，在完整视频生成完毕前，你看不到任何画面。

为此，他们提出了一种全新的解决方案，通过蒸馏预训练的双向扩散模型（DiT），构建自回归生成模型。

实验中，CausVid 基于自回归生成的特性，无需额外训练就能支持多种应用，生成速度和质量均显著超越现有方法。

Adobe&MIT

研究团队还表示将很快开源基于开源模型的实现代码。

Adobe&MIT

用双向教师监督单向自回归学生模型

如前所述，研究团队通过蒸馏预训练的双向扩散模型（DiT），构建自回归生成模型。

为了进一步提速实现实时视频生成，作者通过分布匹配蒸馏（DMD）将生成步骤从 50 步缩减到仅需 4 步。

Adobe&MIT

DMD 是一种扩散模型蒸馏技术，将多步扩散模型转换为快速的单步生成器。DMD 此前已在图像生成中取得成功，Adobe Firefly 文生图的快速模式就是基于此技术。

本次研究团队将其创新性地应用到视频扩散模型中，实现了显著加速。

然而，自回归模型有一个核心难题 —— 误差累积。

每一帧视频都基于之前的帧生成，早期生成的任何细微缺陷都会被放大，导致生成的视频逐渐偏离预期轨迹。

为了解决这一问题，团队提出了非对称蒸馏策略。具体来说：

引入一个拥有未来信息的双向教师模型，在蒸馏训练阶段指导自回归的单向学生模型。这种教师-学生结构允许模型在生成未来帧时具备更强的精确度。

使用双向教师模型生成的的噪声-数据配对来预训练单向学生模型，提升其后蒸馏训练过程的稳定性。

在训练过程中，针对不同时间点的视频帧施加不同强度的噪声，这一策略使模型能够在测试时基于干净的已生成帧对当前帧进行去噪。

Adobe&MIT

通过这种创新性的非对称蒸馏方法，CausVid 显著减少了自回归模型的误差累积问题，并生成了更高质量的视频内容。

这种非对称蒸馏形式中，学生模型和教师模型使用了不同的架构，而这只有在 DMD 风格的蒸馏中才可行。其他方法，例如渐进式蒸馏（Progressive Distillation）或一致性模型（Consistency Distillation），都要求学生模型和教师模型使用相同的架构。

下面是自回归扩散视频模型的误差累积示例（左图）和 CausVid 结果（右图）对比：

Adobe&MIT

实验效果如何？

实验中，CausVid 表现惊艳：

首帧生成延迟从 3.5 分钟降至 1.3 秒，提速 170 倍

生成速度从 0.6 帧 / 秒提升至 9.4 帧 / 秒，提升 16 倍

生成质量经 VBench 和用户调查验证，优于主流模型例如 Meta 的 MovieGen 和智谱的 CogVideoX

Adobe&MIT

得益于单向注意力机制，CausVid 完全支持在大语言模型中广泛应用的 KV 缓存推理技术，从而显著提升了生成效率。结合滑动窗口机制，CausVid 突破了传统模型的长度限制。

尽管训练阶段仅接触过 10 秒的视频，CausVid 依然能够生成长达 30 秒甚至更长的视频，其生成速度和质量均显著超越现有方法。

基于自回归生成的特性，CausVid 无需额外训练就能支持多种应用：

图片动画化：将静态图片自然转化为流畅视频，赋予画面生命力。

实时视频风格转换：如将 Minecraft 游戏画面即时转换为真实场景。这一技术为游戏渲染带来全新思路：未来可能只需渲染基础 3D 几何信息，由 AI 实时补充纹理和光影

交互式剧情生成：用户通过调整提示词，实时引导视频剧情发展，带来全新的创作体验。

Adobe&MIT

项目链接：https://causvid.github.io/

外媒谈博德3遭差评轰炸：暗指黑神话社区不够友善

12-17

国产妇科❌❌❌❌999999-女性健康的守护者：探索现代妇科产品的重要性

12-17

原神荒泷极上盛世豪鼓大祭典首日攻略-资源管理重要性及高效策略解析

12-17

那个夜晚他紧紧的抱着她-是哪本书-你了解这本书的背景和情节吗

12-17

滋润肌肤焕发肌肤光彩的精品一线二线三线精华液

12-17

成品人和精品人的区别是什么-如何在工作中找到平衡

12-17

宝宝吃奶的HPO详解：如何通过HPO提升宝宝的吃奶体验与饮食健康

12-17

原神蒲公英海的狐狸所有位置攻略-具体介绍

12-17

斯坦福大学研究显示：电动汽车电池实际使用寿命要比预期长得多

12-17

如何选择适合自己企业的CRM工具-免费与付费CRM系统的优缺点分析

12-17

热门攻略

Adobe&MIT-新研究：AI-视频边生成边播放-首帧延迟-1.3-秒、生成速度-9.4-帧-/-秒

父亲“硬核宠女”!父亲有力挺送女儿的花园，这才是真正的爱与浪漫！ 12-17

灭火宝贝3美版与法国航空有什么关系-它如何成为消防安全的先锋 12-17

糖心Vlog免费页版：如何在不下载APP的情况下畅享海量短视频内容 12-17

极品飞车集结怎么开局卡气-开局卡气攻略分享 12-17

小丹为何渐渐放弃抵抗-开始迎合：在压力与适应中的自我挣扎与选择 12-17

热门资讯

小销售的销售秘密3HD中字：掌握销售成功的秘诀，提升你的业绩！

10-18

探索三亚电影院IMAX：1.-＂探索三亚IMAX影院：沉浸式观影新体验

10-30

欧美性猛交ⅩXXX乱大交妖精：激情四射的夜晚，欲望与幻想交织成一场无法抗拒的狂欢盛宴

11-15

国产精品99久久久久久人四虎：高品质影视内容，让你一看就上瘾！

11-14

免费影视新体验！永久免费-未满视频带你畅享高清视界！

11-23

热门游戏

Adobe&MIT-新研究：AI-视频边生成边播放-首帧延迟-1.3-秒、生成速度-9.4-帧-/-秒

外媒谈博德3遭差评轰炸：暗指黑神话社区不够友善

国产妇科❌❌❌❌999999-女性健康的守护者：探索现代妇科产品的重要性

原神荒泷极上盛世豪鼓大祭典首日攻略-资源管理重要性及高效策略解析

那个夜晚他紧紧的抱着她-是哪本书-你了解这本书的背景和情节吗

滋润肌肤焕发肌肤光彩的精品一线二线三线精华液

成品人和精品人的区别是什么-如何在工作中找到平衡

宝宝吃奶的HPO详解：如何通过HPO提升宝宝的吃奶体验与饮食健康

原神蒲公英海的狐狸所有位置攻略-具体介绍

斯坦福大学研究显示：电动汽车电池实际使用寿命要比预期长得多

如何选择适合自己企业的CRM工具-免费与付费CRM系统的优缺点分析

女生越痛男生越快，这是什么神奇的操作？

唐三吃宁荣荣两座大山：令人震惊的画面

女友让我给她翻饺子皮，网友：这是爱的考验

国精产品一区一区三区 MBA：打造职场精英的秘密武器

中国 14may18_XXXXXL56edu：一场关于 XX 的争议

Adobe&amp;MIT-新研究：AI-视频边生成边播放-首帧延迟-1.3-秒、生成速度-9.4-帧-/-秒

外媒谈博德3遭差评轰炸：暗指黑神话社区不够友善

国产妇科❌❌❌❌999999-女性健康的守护者：探索现代妇科产品的重要性

原神荒泷极上盛世豪鼓大祭典首日攻略-资源管理重要性及高效策略解析

那个夜晚他紧紧的抱着她-是哪本书-你了解这本书的背景和情节吗

滋润肌肤焕发肌肤光彩的精品一线二线三线精华液

成品人和精品人的区别是什么-如何在工作中找到平衡

宝宝吃奶的HPO详解：如何通过HPO提升宝宝的吃奶体验与饮食健康

原神蒲公英海的狐狸所有位置攻略-具体介绍

斯坦福大学研究显示：电动汽车电池实际使用寿命要比预期长得多

如何选择适合自己企业的CRM工具-免费与付费CRM系统的优缺点分析

女生越痛男生越快，这是什么神奇的操作？

唐三吃宁荣荣两座大山：令人震惊的画面

女友让我给她翻饺子皮，网友：这是爱的考验

国精产品一区一区三区 MBA：打造职场精英的秘密武器

中国 14may18_XXXXXL56edu：一场关于 XX 的争议

Adobe&MIT-新研究：AI-视频边生成边播放-首帧延迟-1.3-秒、生成速度-9.4-帧-/-秒