SORA A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models

图1:Sora:人工智能驱动的视觉生成的突破

Abstract

Sora是一个文本到视频生成的人工智能模型,由OpenAI于2024年2月发布。该模型经过训练,从文本指令中生成逼真或富有想象力的场景视频,并显示模拟物理世界的潜力。基于公共技术报告和逆向工程,本文全面回顾了该模型的背景、相关技术、应用、剩余挑战以及文本到视频人工智能模型的未来方向。

我们首先追踪Sora的发展,并调查用于构建这个“世界模拟器”的基本技术。然后,我们详细描述了Sora在从电影制作和教育到营销等多个行业的应用和潜在影响。我们讨论了广泛部署Sora需要解决的主要挑战和局限性,例如确保安全和无偏见的视频生成。最后,我们讨论了Sora和视频生成模型的未来发展,以及该领域的进步如何实现人与人工智能互动的新方式,提高视频生成的生产力和创造力。 

 

 Introduction 导言

自2022年11月发布ChatGPT以来,人工智能技术的出现标志着重大转变,重塑了互动,并深入融入了日常生活和行业的各个方面[1,2]。 基于这一势头,OpenAI于2024年2月发布了Sora,一种文本到视频生成的人工智能模型,可以从文本提示生成现实或富有想象力的场景视频。 与以前的视频生成模型相比,Sora的特点是能够制作长达1分钟的高质量视频,同时保持对用户文本说明的遵守[3]。Sora的这一进步是长期人工智能研究任务的体现,即使人工智能系统(或人工智能代理)具备理解运动中的物理世界并与之互动的能力。 这涉及开发人工智能模型,这些模型不仅能够解释复杂的用户指令,而且能够应用这种理解,通过动态和上下文丰富的模拟来解决现实世界的问题。

 

图2:文本到视频生成中的Sora示例。文本说明给OpenAI Sora模型,它根据说明生成三个视频 

 

Sora展示了准确解释和执行复杂人类指令的非凡能力,如图2所示。该模型可以生成详细的场景,其中包括多个角色,这些角色在复杂的背景下执行特定操作。研究人员将Sora的熟练程度不仅归因于处理用户生成的文本提示,还归因于辨别场景中元素的复杂相互作用。Sora最引人注目的方面之一是其长达一分钟的视频的能力,同时保持了高视觉质量和引人注目的视觉一致性。与只能生成短视频剪辑的早期模型不同,Sora的一分钟视频创作具有渐进感和从第一帧到最后一帧的视觉一致旅程。

此外,Sora的进步显而易见,它能够制作具有细致入微的运动和互动描述的扩展视频序列,克服了早期视频生成模型特征的较短剪辑和更简单的视觉渲染的限制。这种能力代表了人工智能驱动的创意工具的飞跃,允许用户将文本叙事转换为丰富的视觉故事。总体而言,这些进步显示了Sora作为世界模拟器的潜力,可以为所描绘场景的物理和上下文动态提供细致入微的见解。[3]。 

Technology.应用技术 Sora的核心是一个预先训练的扩散变压器[4]。变压器模型已被证明可以扩展,并且对许多自然语言任务有效。与GPT-4等强大的大型语言模型(LLM)类似,Sora可以解析文本并理解复杂的用户指令。为了使视频生成具有计算效率,Sora使用了时空潜伏补丁作为其构建块。具体来说,Sora将原始输入视频压缩为潜在的时空表示。然后,从压缩视频中提取一系列潜在的时空补丁,以在短时间内封装视觉外观和运动动力学。

这些补丁类似于语言模型中的单词令牌,为Sora提供了用于构建视频的详细视觉短语。Sora的文本到视频生成由扩散变压器模型执行。从充满视觉噪音的框架开始,模型迭代地删除图像,并根据提供的文本提示引入具体细节。本质上,生成的视频通过多步细化过程出现,每一步都使视频更加符合所需的内容和质量。

Highlights of Sora. 亮点 

 •提高模拟能力:大规模训练Sora归功于其模拟物理世界各个方面的非凡能力。尽管缺乏明确的3D建模,但Sora表现出与动态相机运动和长距离一致性的3D一致性,包括对象持久性,并模拟与世界的简单互动。此外,Sora耐人寻味地模拟了像《我的世界》这样的数字环境,由基本政策控制,同时保持视觉保真度。这些紧急能力表明,缩放视频模型在创建人工智能模型以模拟物理和数字世界的复杂性方面是有效的。

•提高创造力想象一下,通过文本勾勒出一个概念,无论是简单的对象还是完整的场景,并在几秒钟内看到逼真或高度风格化的视频。Sora允许加速设计过程,以更快地探索和细化想法,从而显著提高艺术家、电影制片人和设计师的创造力。

•推动教育创新:视觉辅助工具长期以来一直是理解教育中重要概念不可或缺的一部分。有了Sora,教育工作者可以轻松地将课程计划从文本转向视频,以吸引学生的注意力并提高学习效率。从科学模拟到历史戏剧化,可能性是无限的。

•增强可访问性:增强视觉领域的可访问性至关重要。Sora通过将文本描述转换为视觉内容来提供创新的解决方案。这种能力使所有个人,包括有视力障碍的人,能够积极参与内容创作,并以更有效的方式与他人互动。因此,它提供了一个更具包容性的环境,每个人都有机会通过视频表达他或她的想法。

•促进新兴应用:Sora的应用是巨大的。例如,营销人员可能会使用它来创建适合特定受众描述的动态广告。游戏开发人员可能会使用它从玩家叙事中生成定制的视觉效果,甚至角色动作。

Limitations and Opportunities 限制与机遇 虽然Sora的成就凸显了人工智能的重大进步,但挑战仍然存在。描绘复杂的动作或捕捉微妙的面部表情是模型可以增强的领域之 一。此外,道德考虑因素,如减轻生成内容中的偏见和防止有害的视觉输出,强调了开发人员、研究人员和更广泛的社区负责任地使用的重要性。确保Sora的产出始终是安全和无偏见的是一个主要挑战。视频生成领域正在迅速发展,学术和行业研究团队取得了不懈的进步。相互竞争的文本到视频模型的出现表明,Sora可能很快就会成为动态生态系统的一部分。这种协作和竞争环境促进了创新,从而提高了视频质量和新的应用程序,这有助于提高工人的生产力,使人们的生活更加有趣。

Our Contributions. 我们的贡献 根据已发布的技术报告和我们的逆向工程,本文对Sora的背景、相关技术、新兴应用、当前局限性和未来机遇进行了首次全面审查。 

 

Background 背景

2.1 History 历史

 

在计算机视觉(CV)领域,在深度学习革命之前,传统的图像生成技术依赖于基于手工特征的纹理合成[5]和纹理映射[6]等方法。 然而,这些方法产生复杂生动图像的能力有限。 生成对抗网络(GANs)[7]和变体自动编码器(VAEs)[8]的引入标志着一个重要的转折点,因为它在各种应用中具有卓越的功能。 随后的发展,如流量模型[9]和扩散模型[10],以更高的细节和质量进一步增强了图像生成。 人工智能生成内容(AIGC)技术的最新进展使内容创建民主化,使用户能够通过简单的文本指令生成所需的内容[11]。

在过去的十年里,生成CV模型的开发采取了各种途径,如图3所示。 正如BERT[13]和GPT[14]所证明的那样,在NLP中成功应用变压器架构[12]后,这种格局开始发生明显变化。 在CV中,研究人员通过将变压器架构与视觉组件相结合,将这一概念进一步化,允许将其应用于下游的CV任务,如视觉变压器(ViT)[15]和Swin变压器[16]。 在变压器成功的同时,扩散模型在图像和视频生成领域也取得了重大进展[10]。 扩散模型提供了一个数学上合理的框架,用于使用U-Nets[17]将噪声转换为图像,其中U-Net通过学习预测和减轻每个步骤的噪声来促进这一过程。

自2021年以来,人工智能的重点一直是能够解释人类指令的生成语言和视觉模型,称为多模态模型。 例如,CLIP [18]是一个开创性的视觉语言模型,它将变压器架构与视觉元素相结合,促进了其对大量文本和图像数据集的训练。 通过从一开始就整合视觉和语言知识,CLIP可以在多模态生成框架中充当图像编码器。 另一个值得注意的例子是稳定扩散[19],这是一个多功能的文本到图像人工智能模型,以其适应性和易用性而闻名。 它采用变压器架构和潜在扩散技术来解码文本输入,并生成各种风格的图像,进一步说明了多模态人工智能的进步。

 

 图3:视觉领域生成性人工智能的历史

 

继2022年11月发布ChatGPT后,我们目睹了2023年商业文本到图像产品的出现,如Stable Diffusion[19]、Midjourney[20]、DALL-E 3 [21]。这些工具使用户能够通过简单的文本提示生成高分辨率和高质量的新图像,展示人工智能在创意图像生成方面的潜力。然而,由于视频的时间复杂性,从文本到图像过渡到文本到视频具有挑战性。尽管在行业和学术界做出了许多努力,但大多数现有的视频生成工具,如Pika[22]和Gen-2 [23],仅限于制作几秒钟的短视频剪辑。在这种情况下,Sora代表了一个重大突破,类似于ChatGPT在NLP领域的影响。Sora是第一个能够根据人类指令生成长达一分钟的视频的模型,标志着一个里程碑,深刻地影响了生成人工智能的研发。为了方便轻松访问视觉生成模型的最新进展,最新作品已在附录和我们的GitHub中汇编和提供。 

2.2 Advanced Concepts

高级概念 

Scaling Laws for Vision Models.  愿景模型的缩放法则  对于LLM的缩放法则,人们很自然地问,视觉模型的开发是否遵循类似的缩放法则。最近,Zhai等人[24]证明,具有足够训练数据的ViT模型的性能计算前沿大致遵循(饱和)幂定律。随后,谷歌研究[25]提出了一个高效和稳定地训练22B参数ViT的配方。结果显示,使用冷冻模型产生嵌入,然后在顶部训练薄层可以实现出色的性能。Sora作为一个大型视觉模型(LVM),与这些缩放原则保持一致,揭示了文本到视频生成的几种紧急能力。这一重大进展凸显了LVM取得像在LLM中看到的那样进步的潜力。

 

Emergent Abilities.涌现能力. LLM中的紧急能力是在某些尺度上表现出的复杂行为或功能——通常与模型参数的大小有关——开发人员没有明确编程或预期这些行为或功能。这些能力被称为“紧急”,因为它们来自模型在各种数据集上的全面训练,以及其广泛的参数计数。这种组合使模型能够形成连接并得出超越单纯模式识别或死记背的推断。通常,无法通过从小规模模型的性能中推断来直接预测这些能力的出现。虽然许多LLM,如ChatGPTGPT-4,都表现出紧急能力,但在Sora出现之前,展示可比能力的视觉模型一直很少。根据Sora的技术报告,这是第一个表现出已确认的紧急能力的视觉模型,标志着计算机视觉领域的一个重要里程碑。

除了其紧急能力外,Sora还展示了其他值得注意的能力,包括指令跟随、视觉提示工程和视频理解。Sora功能的这些方面代表了视觉领域的重大进展,将在其余部分进行探索和讨论。

 Technology 技术3.1 Overview of Sora 概述


 

图4:逆向工程:Sora框架概述

 

在核心本质中,Sora是一个具有灵活采样尺寸的扩散变压器[4],如图4所示。它有三个部分:(1)时空压缩机首先将原始视频映射到潜在空间。(2)然后,ViT处理令牌化的潜在表示,并输出去诺化的潜在表示。(3)类似CLIP的[26]调理机制接收LLM增强的用户指令和潜在的视觉提示,以指导扩散模型生成样式或主题视频。经过许多去音步骤后,获得生成视频的潜在表示,然后使用相应的解码器映射回像素空间。在本节中,我们旨在对Sora使用的技术进行逆向工程,并讨论广泛的相关工作。 

 

3.2 Data Pre-processing 数据预处理


3.2.1

 Variable Durations, Resolutions, Aspect Ratios 

可变持续时间、分辨率、宽高比 

Sora的一个显著特征是它能够以原生尺寸训练、理解和生成视频和图像[3],如图5所示。传统方法通常调整视频的大小、裁剪或调整宽高比,以适应统一的标准——通常是固定低分辨率的方形帧的短剪辑[27][28][29]。这些样本通常以更广泛的时间步幅生成,并依靠单独训练的帧插入和分辨率渲染模型作为最后一步,在整个视频中造成不一致。利用扩散变压器架构[4](见第3.2.4节),Sora是第一个接受视觉数据多样性的模型,可以以各种视频和图像格式进行采样,从宽屏1920x1080p视频到垂直1080x1920p视频以及介于两者之间的一切,而不会影响其原始尺寸。

 

图5:Sora可以生成灵活尺寸或分辨率从1920x1080p到1080x1920p以及介于两者之间的任何图像。

 

图6:Sora(右)和模型的修改版本(左)之间的比较,该模型将视频裁剪成正方形——这是模型训练的常见做法——突出了优势。 

 

对原生大小的数据进行训练,显著改善了生成视频的构图和框架。 实证发现表明,通过保持原始宽高比,Sora实现了更自然、更连贯的视觉叙事。 Sora和在均匀裁剪的正方形视频上训练的模型之间的比较显示了明显的优势,如图6所示。 Sora制作的视频表现出更好的取景,确保在场景中完全捕捉主体,而不是由方形裁剪导致的有时截断视图。

这种对原始视频和图像特征的细致入微的理解和保存标志着生成模型领域的重大进步。Sora的方法不仅展示了更真实、更引人入胜的视频生成的潜力,还强调了训练数据多样性对于在生成人工智能中实现高质量结果的重要性。Sora的培训方法与Richard Sutton的《苦涩的教训》[30]的核心原则一致,该原则指出,利用计算而不是人类设计的功能,可以带来更有效和灵活的人工智能系统。正如扩散变压器的原始设计寻求简单性和可扩展性[31]一样Sora对其原生尺寸的数据进行训练的策略避免了传统的人工智能对人为抽象的依赖,而是倾向于使用具有计算能力扩展的通才方法。在本节的其余部分,我们尝试对Sora的架构设计进行逆向工程,并讨论相关技术,以实现这一令人惊叹的功能。

 

3.2.2 Unified Visual Representation

统一的视觉表现法

 

为了有效地处理各种视觉输入,包括具有不同持续时间、分辨率和宽高比的图像和视频,一种关键方法涉及将所有形式的视觉数据转换为统一的表示,这有助于生成模型的大规模训练。具体来说,Sora通过最初将视频压缩到低维的潜在空间来修补视频,然后将表示分解为时空补丁。然而,Sora的技术报告[3]只是提出了一个高层次的想法,使生殖对研究界来说具有挑战性。在本节中,我们尝试对潜在成分和技术路径进行逆向工程。此外,我们将根据现有文献的见解,讨论可以复制Sora功能的可行替代方案。

 

图7:在高层次上,Sora通过首先将视频压缩到低维的潜在空间,然后将表示分解为时空补丁,将视频转换为补丁。来源:Sora的技术报告[3]。 

 

3.2.3 Video Compression Network

视频压缩网格

 

图8:ViT将图像拆分为固定大小的补丁,线性嵌入每个补丁,添加位置嵌入,并将生成的矢量序列输入标准变压器编码器。 

Sora的视频压缩网络(或视觉编码器)旨在减少输入数据的维度,特别是原始视频,并输出在时间和空间上压缩的潜在表示,如图7所示。根据技术报告中的参考资料,压缩网络建立在VAE或矢量量化VAE(VQ-VAE)之上[32]。然而,如果没有像技术报告中提到的那样使用调整大小和裁剪,VAE将任何大小的视觉数据映射到统一和固定大小的潜在空间是具有挑战性的。我们总结了两个不同的实现来解决这个问题:

Spatial-patch Compression.  空间补丁压缩。这涉及将视频帧转换为固定大小的补丁,类似于ViT [15]和MAE [33]中使用的方法(见图8),然后将其编码为潜在空间。 这种方法对于容纳不同分辨率和宽高比的视频特别有效,因为它通过处理单个补丁来编码整个帧。 随后,这些空间令牌按时间顺序组织,以创建空间-时间潜在表示。 这项技术强调了几个关键的考虑因素:时间维度可变性-鉴于训练视频的不同持续时间,潜在空间表示的时间维度无法固定。 为了解决这个问题,人们可以采样特定数量的帧(较短的视频可能需要填充或时间插值[34]),或者为后续处理定义一个普遍扩展(超长)的输入长度(更多详细信息见第3.2.4节);利用预先训练的视觉编码器——处理高分辨率的视频,利用现有的预先训练的视觉编码器,如来自稳定扩散[19]的VAE编码器,对大多数研究人员来说是可取的,而Sora的团队希望通过训练潜伏时使用解码器(视频生成器)从头开始训练自己的压缩网络 扩散模型[19,35,36]。 这些编码器可以有效地压缩大尺寸补丁(例如,256×256),促进大规模数据的管理;时间信息聚合-由于这种方法主要侧重于空间补丁压缩,因此需要一种额外的机制来在模型中聚合时间信息。 这一方面对于捕捉随时间变化的动态变化至关重要,并在后续章节中进一步阐述(详见第3.2.6节和图14)。

Spatial-temporal-patch Compression.  时空块压缩 这项技术旨在封装视频数据的空间和时间维度,提供全面的表示。 这项技术不仅仅是通过考虑帧之间的运动和变化来分析静态帧,从而捕获视频的动态方面。 3D卷积的利用成为实现这种集成的一种简单而有效的方法[37]。 图9描绘了图形插图和与纯空间美化的比较。 与空间补丁压缩类似,使用带有预定卷积内核参数(如固定内核大小、步幅和输出通道)的空间-时间补丁压缩会导致由于视频输入的不同特征而导致潜在空间尺寸的变化。 这种可变性主要是由正在处理的视频的不同持续时间和分辨率驱动的。 为了缓解这一挑战,在这种情况下,空间补丁化所采用的方法同样适用和有效。

图9:视频压缩的不同补丁之间的比较。来源:ViViT [38]。(左)空间修补只是样本帧并按照ViT独立嵌入每个2D帧。(右)时空补丁提取并线性嵌入跨越时空输入体积的非重叠或重叠小管。

 

总之,我们反向工程了两种基于VAE或其变体(如VQ-VQE)的补丁级压缩方法,因为补丁操作更灵活地处理不同类型的视频。由于Sora旨在生成高保真视频,因此使用大补丁大小或内核大小进行高效压缩。在这里,我们期望使用固定大小的补丁来实现简单性、可扩展性和训练稳定性。但也可以使用不同大小的补丁[39]来使潜在空间中整个帧或视频的尺寸保持一致。然而,它可能会导致无效的位置编码,并给解码器生成具有不同大小的潜在补丁的视频带来挑战。 

 

3.2.4 Spacetime Latent Patches

时空潜斑

 

压缩网络部分仍然存在一个关键问题:在将补丁输入扩散变压器的输入层之前,如何处理潜在空间维度的变异性(即来自不同视频类型的潜在特征块或补丁的数量)。在这里,我们讨论了几个解决方案。

根据Sora的技术报告和相应的参考资料,补丁n'包(PNP)[40]可能是解决方案。PNP在单个序列中打包来自不同图像的多个补丁,如图10所示。这种方法的灵感来自自然语言处理[41]中使用的示例打包,该方法通过丢弃令牌来适应可变长度输入的高效训练。在这里,补丁化和令牌嵌入步骤需要在压缩网络中完成,但Sora可能会像扩散变压器一样进一步修补变压器令牌的潜伏[4]。

无论是否有第二轮补丁,我们需要解决两个问题,即如何以紧凑的方式打包这些代币,以及如何控制哪些代币应该被丢弃。对于第一个问题,使用一种简单的贪婪方法,在第一个序列中添加示例,并有足够的剩余空间。一旦无法再安装示例,序列就会填充填充令牌,从而产生批处理操作所需的固定序列长度。如此简单的打包算法可以导致显著的填充,这取决于输入长度的分布。另一方面,我们可以控制我们采样的分辨率和帧,通过调整序列长度和限制填充来确保高效包装。

对于第二个问题,一个直观的方法是删除类似的令牌[42,43,33,44],或者像PNP一样,应用下降费率调度器。然而,值得注意的是,3D一致性是Sora的良好属性之一。在训练期间,丢弃令牌可能会忽略细粒度的细节。因此,我们认为OpenAI可能会使用超长的上下文窗口,并从视频中打包所有令牌,尽管这样做在计算上是昂贵的,例如,多头注意力[45,46]运算符在序列长度上表现出二次成本。具体来说,来自长时视频的时空潜在补丁可以打包在一个序列中,而来自几个短时视频的时空潜伏补丁可以串联在另一个序列中。 

 

图10:补丁打包支持具有保留宽高比的可变分辨率图像或视频。6令牌下降可以以某种方式被视为数据增强。来源:NaViT [40]。 

 

3.2.5 Discussion 讨论

我们讨论了Sora可能使用的两种数据预处理技术解决方案。由于建模的灵活性和可扩展性的特点,这两种解决方案都在补丁级别执行。与以前将视频调整大小、裁剪或修剪到标准尺寸的方法不同,Sora以原生大小对数据进行训练。虽然有几个好处(见第3.2.1节中的详细分析),但它带来了一些技术挑战,其中最重要的挑战之一是神经网络本质上无法处理可变持续时间、分辨率和宽高比的视觉数据。

通过逆向工程,我们认为Sora首先将视觉补丁压缩为低维的潜在表示,并按顺序排列这些潜在补丁或进一步补丁化的潜在补丁,然后在将它们输入扩散变压器的输入层之前将噪音注入这些潜在补丁。Sora采用了时空补丁化,因为它易于实现,并且可以使用高信息密度令牌有效地减少上下文长度,并降低时间信息后续建模的复杂性。

对于研究社区,我们建议使用具有成本效益的替代解决方案进行视频压缩和表示,包括利用预训练的检查点(例如压缩网络)[47],缩短上下文窗口,使用轻量级建模机制,如(分组)多查询关注[48,49]或高效的架构(例如Mamba [50]),下采样数据并在必要时丢弃令牌。视频建模的有效性和效率之间的权衡是一个需要探索的重要研究课题。

 

3.2.6 Diffusion Transformer

扩散变压器

 

图11:DiT(左)和U-ViT(右)的总体框架

 

3.3 Modeling 建模


Image Diffusion Transformer.图像扩散变压器 传统的扩散模型[51、52、53]主要利用卷积U-Nets,包括去声网络骨干的下采样和上采样块。 然而,最近的研究表明,U-Net架构对扩散模型的良好性能并不重要。 通过结合更灵活的变压器架构,基于变压器的扩散模型可以使用更多的训练数据和更大的模型参数。 沿着这条线,DiT[4]和U-ViT[54]是首批将视觉变压器用于潜在扩散模型的作品之一。 与ViT一样,DiT采用多头自我关注层和与一些层规范和缩放层交错的逐点前馈网络。

此外,如图11所示,DiT通过自适应层范数(AdaLN)将条件与用于零初始化的额外MLP层相结合,该层将每个剩余块初始化为身份函数,从而大大稳定了训练过程。 DiT的可扩展性和灵活性经过实证验证。 DiT成为扩散模型的新支柱。 在U-ViT中,如图11所示,他们将所有输入(包括时间、条件和嘈杂的图像补丁)视为令牌,并提出浅层和深变压器层之间的长跳过连接。 结果表明,基于CNN的U-Net中的下采样和上采样运营商并不总是必要的,U-ViT在图像和文本到图像生成方面实现了创纪录的FID分数。

与蒙版自动编码器(MAE)[33]一样,蒙版扩散变压器(MDT)[55]将蒙版潜在建模纳入扩散过程,以明确增强图像合成中对象语义部分之间的上下文关系学习。 具体来说,如图12所示,MDT在培训期间使用侧插值进行额外的蒙版令牌重建任务,以提高培训效率,并学习强大的上下文感知位置嵌入进行推理。 与DiT[4]相比,MDT实现了更好的性能和更快的学习速度。 Hatamizadeh等人[56]没有使用AdaLN(即移位和缩放)进行时间调节建模,而是引入了扩散视觉变压器(DiffiT),该变压器使用时间依赖性自注意力(TMSA)模块对采样时间步骤的动态去氮行为进行建模。

此外,DiffiT使用两种混合分层架构,分别在像素空间和潜在空间中进行高效去异,并在各种生成任务中实现了新的最先进的结果。 总体而言,这些研究显示,在使用视觉变压器进行图像潜在扩散方面取得了有希望的结果,为未来其他模式的研究铺平了道路。

 

图12:蒙面扩散变压器(MDT)的总体框架。实线/虚线表示每个时间步骤的训练/推理过程。掩码和侧插拔器仅在训练期间使用,并在推理期间移除。

Video Diffusion Transformer. 视频扩散变压器  在文本到图像(T2I)扩散模型的基础工作的基础上,最近的研究重点是实现扩散变压器用于文本到视频(T2V)生成任务的潜力。由于视频的时间性质,在视频领域应用DiTs的关键挑战是:i)如何将视频空间和时间压缩到潜在空间以进行高效处理 ii)如何将压缩的潜在转换为补丁并将其馈给变压器;以及iii)如何处理远程时间和空间依赖并确保内容一致性。有关第一个挑战,请参阅第3.2.3节。在本节中,我们重点讨论基于变压器的去嘀网络架构,这些架构旨在在空间和时间压缩的潜在空间中运行。我们详细回顾了OpenAI Sora技术报告参考列表中描述的两部重要作品(Imagen Video[29]和Video LDM[36])。

Imagen Video [29]是由谷歌研究开发的文本到视频生成系统,它利用一连串的扩散模型,该模型由7个子模型组成,执行文本条件视频生成、空间超分辨率和时间超分辨率,将文本提示转换为高清视频。

如图13所示,首先,冻结的T5文本编码器从输入文本提示符生成上下文嵌入。这些嵌入对于将生成的视频与文本提示符对齐至关重要,除了基本模型外,还注入到级联中的所有模型中。随后,嵌入被馈送到低分辨率视频生成的基本模型,然后由级联扩散模型进行完善,以提高分辨率。基础视频和超分辨率模型以时空可分离的方式使用3D U-Net架构。该架构将时间注意力和卷积层与空间对应物编织在一起,以有效地捕获帧间依赖关系。它采用v预测参数化进行数值稳定性和调理增强,以促进跨模型的并行训练。该过程涉及对图像和视频进行联合培训,将每个图像视为框架以利用更大的数据集,并使用无分类器指导[57]来提高即时保真度。渐进式蒸馏[58]用于简化采样过程,显著减少计算负载,同时保持感知质量。

结合这些方法和技术,Imagen Video不仅可以生成高保真度的视频,而且具有非凡的可控性,其制作各种艺术风格的视频、文本动画和内容的能力就证明了这一点。

 

图13:Imagen Video的总体框架。来源:Imagen Video [29]。

 

 

(A)额外的时间层。 通过插入学习将帧对齐为时间一致序列的时间层,将预先训练的LDM变成视频生成器。 在优化过程中,图像主干Θ保持固定,只有参数Φ时间层字母lΦ受过训练。

 

 

 (b)视频LDM堆栈。视频LDM首先生成稀疏的关键帧,然后用相同的潜在扩散模型临时插值两次,以实现高帧率。最后,将潜在视频解码为像素空间,并可选地应用视频上采样器扩散模型。

图14:视频LDM的总体框架。来源:视频LDM[36]。

Blattmann等人[36]提议将2D潜在扩散模型转换为视频潜在扩散模型(视频LDM)。他们通过在现有空间层中添加一些临时后时间层到U-Net主干网和学习对齐单个帧的VAE解码器中来实现这一点。这些时间层在编码的视频数据上进行训练,而空间层保持固定,允许模型利用大型图像数据集进行预训练。LDM的解码器经过微调,以实现像素空间的时间一致性,并临时对齐扩散模型上采样器,以增强空间分辨率。

为了生成非常长的视频,模型经过训练,以预测给定一些上下文帧的未来帧,允许在采样期间进行无分类器指导。为了实现高时间分辨率,视频合成过程分为关键帧生成和这些关键帧之间的插值。在级联LDM之后,DM用于将视频LDM输出进一步放大4倍,确保高空间分辨率,同时保持时间一致性。这种方法能够以计算高效的方式生成全球连贯的长视频。此外,作者展示了通过仅训练时间对齐层将预训练的图像LDM(例如稳定扩散)转换为文本到视频模型的能力,从而实现分辨率高达1280×2048的视频合成。 

3.3.1 Discussion讨论

Cascade diffusion models for spatial and temporal up-sampling.

空间和时间上采样的级联扩散模型。Sora可以生成高分辨率视频。 通过审查现有工作和我们的逆向工程,我们推测Sora还利用了级联扩散模型架构[59],该模型由基础模型和许多时空精炼器模型组成。 考虑到在高分辨率情况下使用注意力机器的高计算成本和有限的性能增益,注意力模块不太可能在基于扩散模型和低分辨率扩散模型中大量使用。 对于空间和时间场景一致性,由于以前的作品表明,对于视频/场景生成来说,时间一致性比空间一致性更重要,Sora可能会利用一个有效的训练策略,通过使用较长的视频(时间一致性)与较低的分辨率。此外,Sora可能会使用v-参数化扩散模型[58], 此外,Sora可能会使用考虑到其优越的性能相比,其他变种,预测原来的潜伏x或者噪音ϵ
.

On the latent encoder. 在潜伏编码器上 为了提高训练效率,大多数现有作品利用预训练的稳定扩散VAE编码器[60,61],一个预训练的二维扩散模型,作为初始化模型检查点。然而,编码器缺乏时间压缩能力。尽管一些作品建议只微调用于处理时间信息的解码器,但解码器在压缩的潜在空间中处理视频时间数据的性能仍然不理想。根据技术报告,我们的逆向工程表明,Sora可能使用时空VAE编码器,而不是使用现有的预训练的VAE编码器,该编码器是从视频数据上从头开始训练的,其性能优于具有视频定向压缩潜在空间的现有编码器。

 

3.4 Language Instruction Following 

语言教学遵循

 

用户主要通过自然语言指令(称为文本提示符)参与生成性人工智能模型[62,63]。 模型指令调优旨在提高AI模型准确遵循提示的能力。 这种改进的提示跟踪能力使模型能够产生更类似于人类对自然语言查询的响应的输出。 我们从回顾大型语言模型(LLM)和文本到图像模型(如DALL·E 3)的教学技术开始讨论。 为了增强文本到视频模型遵循文本说明的能力,Sora采用了类似于DALL·E 3的方法。 该方法涉及训练描述性字幕员,并利用字幕员生成的数据进行微调。 由于指令调优,Sora能够满足广泛的用户请求,确保对指令中的细节一丝不苟,并生成精确满足用户需求的视频。

 

3.4.1 Large Language Mod-els  大型语言模型

 

LLM遵循指令的能力已被广泛探索[64,65,66]。这种能力允许 LLM 在没有示例的情况下阅读、理解和适当地响应描述看不见的任务的指令。通过对格式化为指令[64,66]的任务进行微调,可以获得并增强提示跟随能力,称为指令调优。Wei等[65]表明,在看不见的任务上,指令调优的LLM明显优于未调优的LLM。指令遵循能力将 LLM 转变为通用任务求解器,标志着 AI 发展史上的范式转变。
 

3.4.2 Text-to-Image 

从文本到图像转换

 

DALL·E 3中遵循的指令通过标题改进方法解决,其假设是模型训练的文本图像对的质量决定了生成的文本到图像模型的性能[67]。 数据质量差,特别是嘈杂的数据和省略大量视觉信息的短字幕的普遍性,导致许多问题,例如忽视关键字和单词顺序,以及误解用户意图[21]。 标题改进方法通过用详细的描述性标题重新描述现有图像来解决这些问题。 该方法首先训练图像字幕器,这是一个视觉语言模型,以生成精确和描述性的图像字幕。 然后,由字幕器生成的描述性图像字幕用于微调文本到图像模型。

具体来说,DALL·E 3遵循对比字幕(CoCa)[68],联合训练具有CLIP [26]架构和语言模型目标的图像字幕。 此图像字幕器包含图像编码器、用于提取语言信息的单模态文本编码器和多模态文本解码器。 它首先使用单模态图像和文本嵌入之间的对比损失,然后是多模态解码器输出的字幕损失。 由此产生的图像标题进一步微调了对涵盖主要对象、周围环境、背景、文本、样式和着色的图像的高度详细描述。

通过此步骤,图像字幕器能够为图像生成详细的描述性字幕。 文本到图像模型的训练数据集是图像字幕器生成的重新字幕数据集和地真相人工写数据的混合体,以确保模型捕获用户输入。 这种图像标题改进方法引入了一个潜在的问题:实际用户提示与训练数据的描述性图像描述不匹配。 DALL·E 3通过上采样来解决这个问题,其中LLM用于将简短的用户提示重写为详细而冗长的指令。 这确保了在推理时间内收到的模型文本输入与模型训练中的文本输入一致。

 

3.4.3 Text-to-Video

文本到视频的转换 

 

为了提高后续教学能力,Sora采用了类似的字幕改进方法。这种方法是通过首先训练能够为视频制作详细描述的视频字幕器来实现的。然后,此视频字幕器应用于训练数据中的所有视频,以生成高质量的(视频,描述性字幕)用于微调Sora,以提高其指令跟随能力。

Sora的技术报告[3]没有透露视频字幕如何培训的细节。鉴于视频字幕器是一个视频到文本的模型,有很多方法可以构建它。一个直截了当的方法是利用CoCa架构进行视频字幕,方法是将视频的多个帧输入图像编码器[68],称为VideoCoCa[69]。VideoCoCa以CoCa为基础,重新使用图像编码器预训练的权重,并将其独立应用于采样视频帧。生成的帧令牌嵌入被扁平化并串联成一长串的视频表示。然后,这些扁平的帧令牌由生成池器和对比池器处理,它们与对比损失和字幕损失共同训练。构建视频字幕器的其他替代方案包括mPLUG-2 [70]、GIT [71]、FrozenBiLM [72]等。最后,为了确保用户提示与训练数据中那些描述性标题的格式一致,Sora执行了一个额外的提示扩展步骤,其中GPT-4V用于将用户输入扩展到详细的描述性提示。

 

3.4.4 Discussion 讨论

遵循指令的能力对于Sora生成一分钟长的视频至关重要,这些视频具有忠实于用户意图的复杂场景。 根据Sora的技术报告[3],这种能力是通过开发一个可以生成长而详细的字幕的字幕来获得的,然后用于训练模型。 然而,为培训此类字幕者而收集数据的过程是未知的,而且可能是劳动密集型的,因为它可能需要对视频进行详细的描述。 此外,描述性视频字幕可能会使视频的重要细节产生幻觉。 我们认为,如何改进视频字幕需要进一步调查,对于提高文本到图像模型的指令遵循能力至关重要。

 

3.5 Prompt Engineering 提示工程

设计和完善给AI系统的输入的过程,特别是在生成模型的背景下,以实现特定或优化的输出[73,74,75]。即时工程的艺术和科学涉及以指导模型产生最准确、最相关和一致的反应的方式制作这些输入。

 

3.5.1 Text Prompt 文本提示符

文本提示工程对于指导文本到视频模型(例如Sora[3])制作视觉上引人注目的视频,同时精确满足用户规格至关重要。这包括制定详细的描述,以指导模型有效弥合人类创造力和人工智能执行能力之间的差距[76]。Sora的提示涵盖了广泛的场景。最近的作品(例如,VoP[77]、Make-A-Video[28]和Tune-A-Video[78])表明,即时工程如何利用模型的自然语言理解能力来解码复杂的指令,并将其呈现为有凝聚力、生动和高质量的视频叙事。如图15所示,“一个时尚的女人走在霓虹灯下的东京街道上......”是一个精心制作的文本提示,它确保Sora生成一个与预期愿景非常一致的视频。提示工程的质量取决于单词的仔细选择、所提供细节的具体性以及对模型输出影响的理解。例如,图15中的提示详细指定了场景的动作、设置、角色外观,甚至所需的情绪和氛围。

 

图15:关于文本到视频生成的提示工程的案例研究,使用颜色编码来描述创作过程。以蓝色突出显示的文本描述了Sora产生的元素,例如对时尚女性的描绘。相比之下,黄色文本突出了模型对动作、设置和角色外观的解释,展示了精心制作的提示如何转化为生动动态的视频叙事。

 

3.5.2 Image Prompt图像的提示 

图像提示作为待生成视频内容和其他元素(如字符、设置和情绪)的视觉锚[79]。此外,文本提示可以指示模型对这些元素进行动画化,例如,添加层层运动、互动和叙事进展,使静态图像栩栩如生[27,80,81]。使用图像提示允许Sora通过利用视觉和文本信息将静态图像转换为动态、叙事驱动的视频。

在图16中,我们展示了人工智能生成的视频,包括“穿着贝雷帽和高领毛衣的柴伊努”“一个独特的怪物家庭”、“形成“SORA”一词的云”和“在历史大厅内驾驭海浪的冲浪者”。这些例子展示了使用DALL·E生成的图像提示Sora可以实现什么。

 

图16:此示例说明了引导Sora的文本到视频模型生成的图像提示。红色盒子在视觉上锚定了每个场景的关键元素——各种设计的怪物,云层形成拼写“SORA”,以及面对巨大潮汐的华丽大厅中的冲浪者。

 

3.5.3 Video Prompt

视频提示符的提示 

 

视频提示也可以用于视频生成,如[82,83]所示。 最近的作品(例如,Moonshot[84]和Fast-Vid2Vid[85])表明,好的视频提示需要具体和灵活。 这确保了模型在特定目标上获得明确的方向,例如对特定对象和视觉主题的描绘,并允许在最终输出中进行富有想象力的变化。

例如,在视频扩展任务中,提示可以指定扩展的方向(向前或向后)以及扩展的上下文或主题。 在图17(a)中,视频提示指示Sora向后扩展视频,以探索导致原始起点的事件。 当通过视频提示进行视频到视频编辑时,如图17(b)所示,模型需要清楚地了解所需的转换,例如更改视频的风格、设置或氛围,或更改照明或情绪等微妙方面。 在图17(c)中,提示指示Sora连接视频,同时确保视频中不同场景中对象之间的平稳过渡。 

 

 

图17:这些示例说明了Sora模型的视频提示技术:(a)视频扩展,其中模型将序列向后推到原始素材,(b)视频编辑,根据文本提示符转换设置等特定元素,以及(c)视频连接,其中两个不同的视频提示无缝混合,以创建连贯的叙事。每个过程都由一个视觉锚引导,由一个红色框标记,确保生成的视频内容的连续性和准确性。 

 

3.5.4 Discussion 讨论

提示工程允许用户引导人工智能模型生成符合其意图的内容。例如,文本、图像和视频提示的组合使用使Sora能够创建内容,这些内容不仅在视觉上引人注目,而且与用户的期望和意图非常一致。虽然之前关于提示工程的研究一直专注于LLM和LVM的文本和图像提示符[86,87,88],但我们预计对视频生成模型的视频提示将越来越感兴趣。 

 

 3.6 Trustworthiness可信赖性 

随着ChatGPT[89]、GPT4-V[90]和Sora[3]等复杂模型的快速发展,这些模型的能力有了显著增强。这些发展为提高工作效率和推动技术进步做出了重大贡献。然而,这些进步也引起了人们对滥用这些技术的担忧,包括产生假新闻[91,92],侵犯隐私[93]和道德困境[94,95]。因此,大型模型的可信度问题引起了学术和工业领域的广泛关注,成为当代研究讨论的焦点。

 

3.6.1 Safety Concern 安全问题

一个主要关注领域是该模型的安全,特别是其抵御滥用和所谓的“越狱攻击”的复原力,用户试图利用漏洞来生成违禁或有害的内容[96、97、98、99、100、101、102、103、104、105]。

例如,引入了基于梯度技术的新颖且可解释的对抗性攻击方法AutoDAN[103],以实现系统旁路。在最近的一项研究中,研究人员探讨了法学硕士努力抵制“越狱攻击”的两个原因:相互竞争的目标和不匹配的概括[106]。除了文本攻击外,视觉越狱还威胁到多模态模型(例如GPT-4V[90]和Sora[3])的安全。最近的一项研究[107]发现,大型多模态模型更加脆弱,因为额外的视觉输入的连续性和高维性使其对对抗性攻击更弱,代表了扩展的攻击面。

 

3.6.2 Other Exploitation其他开拓 

由于大型基础模型(例如ChatGPT[89]和Sora[3])的训练数据集和训练方法规模庞大,这些模型的真实性需要加强,因为幻觉等相关问题已经被广泛讨论[108]。 在这种情况下,幻觉是指模型产生可能看起来令人信服但毫无根据或虚假的反应的倾向[96]。 这种现象提出了关于模型输出的可靠性和可信度的关键问题,需要采取全面的方法来评估和解决这个问题。

大量的研究致力于从各个角度剖析幻觉问题。 这包括旨在评估不同模型和场景中幻觉的程度和性质的努力[109、96、110、111]。 这些评估为幻觉的发生方式和原因提供了宝贵的见解,为制定降低其发生率的策略奠定了基础。 同时,大量研究集中在设计和实施这些大型模型中减少幻觉的方法[112,113,114]。

可信度的另一个重要方面是公平和偏见。 开发不会使社会偏见永久化或加剧的模型至关重要,这是一个首要问题。 这一优先事项源于一种认识,即这些模型中编码的偏见可能会加剧现有的社会不平等,导致歧视性结果。

该领域的研究,正如Gallegos等人的工作所证明的那样。 [115],Zhang等人。 [116]、Liang等人[117]和Friedrich等人[118],致力于一丝不苟地识别和纠正这些固有的偏见。 目标是培养公平运作的模式,公平对待所有个人,不偏向种族、性别或其他敏感属性。 这不仅涉及检测和缓解数据集中的偏见,还涉及设计可以积极抵消此类偏见传播的算法[119,120]。

当部署这些模型时,隐私保护成为另一个基本支柱。 在一个数据隐私问题不断升级的时代,对保护用户数据的重视从未如此重要。 公众对个人数据处理方式的认识和关注日益提高,促使对大型模型进行更严格的评估。 这些评估侧重于模型保护用户数据的能力,确保个人信息保持机密,并且不会无意中披露。 Mireshghallah等人的研究。 [121],Plant等人[122]和Li等人[123]体现了为推进保护隐私的方法和技术所做的努力。

 

3.6.3 Alignment 调整

在应对这些挑战时,确保大型模型的可信度已成为研究人员的主要关注点之一[124、96、99、125]。最重要的技术之一是模型对齐[125,126],它指的是确保模型的行为和输出与人类设计师的意图和道德标准一致的过程和目标。这关系到技术的发展、道德责任和社会价值观。在LLM领域,人类反馈强化学习方法(RLHF)[127,128]已广泛应用于模型对齐。这种方法将强化学习(RL)与直接的人类反馈相结合,使模型在理解和执行任务时能够更好地符合人类的期望和标准。

 

3.6.4 Discussion 讨论

Sora(特别是其技术报告)中,我们总结了一些有见地的发现,这些发现可能为未来的工作提供翔实的指导方针:

1)模型和外部安全的综合保护:随着模型变得更加强大,特别是在生成内容方面,确保它们不被滥用来产生有害内容(如仇恨言论[129]和虚假信息[92,91])已成为一个严重的挑战。除了调整模型本身外,外部安全保护也同样重要。这包括内容过滤和审查机制、使用权限和访问控制、数据隐私保护,以及透明度和可解释性的增强。例如,OpenAI现在使用检测分类器来判断给定视频是否由Sora生成[130]。此外,还部署了文本分类器来检测潜在有害的文本输入[130]。

(2)多模式模型的安全挑战:多模式模型,如Sora等文本到视频模型,由于其理解和生成各种类型的内容(文本、图像、视频等)的能力,给安全性带来了额外的复杂性。多模式模型可以产生各种形式的内容,增加滥用和版权问题的方式和范围。由于多式联运模型生成的内容更加复杂和多样化,传统的内容验证和真实性方法可能不再有效。这需要开发新技术和方法来识别和过滤这些模型产生的有害内容,从而增加了监管和管理的难度。

(3)跨学科合作的必要性:确保模型的安全不仅仅是一个技术问题,还需要跨学科合作。为了应对这些挑战,来自法律[131]和心理学[132]等各个领域的专家需要共同努力,制定适当的规范(例如,什么是安全的,什么是不安全的?)、政策和技术解决方案。跨学科合作的需求大大增加了解决这些问题的复杂性。

 

 Applications 应用程序

随着以Sora为例的视频传播模型作为前沿技术出现,它们在不同研究领域和行业的采用正在迅速加速。这项技术的影响远远超出了单纯的视频创作,为从自动内容生成到复杂决策过程的任务提供了变革潜力。在本节中,我们深入研究了视频扩散模型的当前应用,强调了Sora不仅展示了其能力,而且彻底改变了解决复杂问题的方法的关键领域。我们的目标是为实际部署场景提供广阔的视角(见图18)。

 

Figure 18: Applications of Sora.

 

4.1 Movie 电影

传统上,创作电影杰作是一个艰巨而昂贵的过程,通常需要几十年的努力、尖端设备和大量的财务投资。然而,先进视频生成技术的出现预示着电影制作的新时代,在这个时代,从简单的文本输入中自主制作电影的梦想正在成为现实。

研究人员通过将视频生成模型扩展到电影创作中,冒险进入了电影生成领域。MovieFactory[133]应用扩散模型从ChatGPT[89]制作的精心制作的脚本中生成电影风格的视频,代表了一个重大的飞跃。在后续行动中,MobileVidFactory [134]可以自动生成仅使用用户提供的简单文本的垂直移动视频。Vlogger [135]使用户可以编写一分钟长的vlog。这些发展体现在Sora毫不费力地生成迷人的电影内容的能力上,标志着电影制作民主化的关键时刻。

它们提供了对未来的一瞥,在那里任何人都可以成为电影制片人,大大降低了进入电影行业的障碍,并为电影制作引入了一个新颖的维度,将传统讲故事与人工智能驱动的创造力相结合。这些技术的影响不仅仅是简化。他们承诺重塑电影制作的格局,使其在不断变化的观众偏好和分销渠道时更容易获得和多才多艺。

 

4.2 Education教育

长期以来,教育内容的景观一直由静态资源主导,尽管这些资源具有价值,但往往无法满足当今学生的不同需求和学习风格。视频传播模型处于教育革命的最前沿,提供了前所未有的机会,以显著增强学习者参与度和理解的方式定制和动画教育材料。

这些先进技术使教育工作者能够将文本描述或课程大纲转换为动态的、引人入胜的视频内容,根据个人学习者的特定风格和兴趣量身定制[136、137、138、139]。此外,图像到视频编辑技术[140、141、142]为将静态教育资产转换为互动视频提供了创新途径,从而支持一系列学习偏好,并有可能提高学生的参与度。

通过将这些模型整合到教育内容创作中,教育工作者可以制作关于无数主题的视频,使复杂的概念对学生来说更容易理解和吸引人。使用Sora彻底改变教育领域,体现了这些技术的变革潜力。这种向个性化、动态教育内容的转变预示着教育的新时代。

 

4.3 Gaming 游戏

游戏行业不断寻找方法来突破现实主义和沉浸感的界限,但传统游戏开发往往与预渲染环境和脚本事件的局限性作斗争。通过实时扩散模型效果生成动态、高保真的视频内容和逼真的声音,承诺克服现有约束,为开发人员提供工具,以创建不断发展的游戏环境,有机地响应玩家的动作和游戏事件[143,144]。这可能包括生成不断变化的天气条件,改变景观,甚至在飞行中创建全新的设置,使游戏世界更具沉浸感和响应能力。一些方法[145,146]还从视频输入中合成逼真的冲击声音,增强了游戏音频体验。

随着Sora在游戏领域的整合,可以创造无与伦比的沉浸式体验,吸引和吸引玩家。如何开发、玩和体验游戏将进行创新,并为讲故事、互动和沉浸感开辟新的可能性。

 

4.4 Healthcare 医疗保健

尽管有生成能力,但视频扩散模型擅长理解和生成复杂的视频序列,使它们特别适合识别体内的动态异常,如早期细胞凋亡[147]、皮肤病变进展[148]和不规则的人类运动[149],这对早期疾病检测和干预策略至关重要。此外,像MedSegDiff-V2[150]和[151]这样的模型利用变压器的力量以前所未有的精度分割医疗图像,使临床医生能够以更高的准确性在各种成像模式中确定感兴趣的领域。

Sora整合到临床实践中,不仅有望完善诊断过程,还能个性化患者护理,根据精确的医学成像分析提供量身定制的治疗计划。然而,这种技术集成伴随着它自己的一系列挑战,包括需要强有力的数据隐私措施和解决医疗保健中的道德考虑。

 

4.5 Robotics机器人

视频扩散模型现在在机器人学中发挥着重要作用,展示了一个机器人可以生成和解释复杂视频序列以增强感知[152,153]和决策[154,155,156]的新时代。这些模型解锁了机器人的新功能,使它们能够与环境交互,并以前所未有的复杂性和精确度执行任务。将网络规模扩散模型引入机器人[152]展示了利用大规模模型来增强机器人视觉和理解的潜力。潜在扩散模型用于语言指导的视频预测[157],允许机器人通过预测视频格式动作的结果来理解和执行任务。此外,机器人研究对模拟环境的依赖已通过能够创建高度逼真的视频序列的视频扩散模型创新地解决了[158,159]。这使得机器人能够生成多样化的训练场景,缓解了现实世界数据稀缺带来的限制。我们相信,将Sora等技术整合到机器人领域,有望实现突破性发展。通过利用Sora的力量,机器人的未来将取得前所未有的进步,机器人可以无缝导航并与其环境互动。

 

Discussion 讨论

Sora在精确理解和实施人类复杂指令方面表现出非凡的天赋。该模型擅长创建带有各种角色的详细视频,所有视频都设置在精心制作的设置中。Sora的一个特别令人印象深刻的属性是它能够制作长达一分钟的视频,同时确保讲故事的一致性和引人入胜。与之前专注于较短视频片段的尝试相比,这标志着一个显著的改进,因为Sora的扩展序列表现出清晰的叙事流程,并从头到尾保持视觉一致性。此外,Sora通过生成捕获复杂动作和互动的更长视频序列来脱颖而出,超越了早期模型的限制,这些模型只能处理短剪辑和基本图像。这一进步标志着人工智能驱动的创意工具向前迈出了一大步,使用户能够将书面故事转换为生动的视频,其细节和复杂性达到了以前无法达到的水平。

 

5.1 Limitations 局限性

Challenges in Physical Realism.  物理现实主义的挑战。Sora作为一个模拟平台,表现出一系列限制,破坏了其在准确描述复杂场景方面的有效性。最重要的是它在复杂场景中对物理原理的处理不一致,导致无法准确复制特定的因果示例。例如,消耗部分cookie可能不会产生相应的咬痕,这说明系统偶尔会偏离物理合理性。这个问题延伸到运动模拟,Sora产生的运动挑战现实的物理建模,例如物体的非自然变换或椅子等刚性结构的不正确模拟,导致不切实际的物理相互作用。当模拟对象和角色之间的复杂互动时,挑战会进一步增加,偶尔会产生倾向于幽默的结果。

Spatial and Temporal Complexities. 空间和时间的复杂性。Sora偶尔会误解与给定提示中对象和字符的放置或排列相关的说明,导致方向混乱(例如,从左向右混淆)。此外,它在保持事件的时间准确性方面面临挑战,特别是在遵守指定的相机移动或序列时。这可能会导致偏离场景的预期时间流。在涉及多种角色或元素的复杂场景中,Sora倾向于插入无关的动物或人。这些添加可以显著改变最初设想的场景构图和氛围,远离计划的叙事或视觉布局。这个问题不仅影响模型准确重现特定场景或叙事的能力,还影响其生成内容的可靠性,这些内容与用户的期望和生成输出的一致性非常一致。

Limitations in Human-computer Interaction (HCI).

在人机交互方面的局限性。 Sora虽然在视频生成领域表现出潜力,但在HCI方面面临重大限制。这些局限性主要体现在用户-系统交互的一致性和效率上,特别是在对生成的内容进行详细修改或优化时。例如,用户可能会发现很难精确指定或调整视频中特定元素的呈现,例如动作细节和场景过渡。此外,Sora在理解复杂语言指令或捕获微妙的语义差异方面的局限性可能导致视频内容不能完全满足用户的期望或需求。这些缺点限制了Sora在视频编辑和增强方面的潜力,也影响了用户体验的整体满意度。

 

Usage Limitation. 使用限制。关于使用限制,OpenAI尚未确定公众访问Sora的具体发布日期,强调在广泛部署之前对安全和准备就绪采取谨慎的态度。这表明Sora可能仍然需要在安全、隐私保护和内容审查等领域进行进一步的改进和测试。此外,目前,Sora只能生成长达一分钟的视频,根据已发布的案例,大多数生成的视频只有几十秒长。这种限制限制了其在需要更长内容显示的应用程序中的使用,例如详细的教学视频或深入的故事讲述。这种限制降低了Sora在内容创作方面的灵活性。

 

 

5.2 Opportunities 机会

Academy. 学院

 

(1)OpenAI引入Sora标志着一个战略转变,鼓励更广泛的人工智能社区利用扩散和变压器技术,深入探索文本到视频模型。这项倡议旨在将重点转向直接从文本描述中创建高度复杂和细致入微的视频内容的潜力,这是一个有望彻底改变内容创作、讲故事和信息共享的前沿。

(2)与传统的调整大小或种植方法相比,对Sora进行本地数据培训的创新方法是学术界的突破性灵感。它通过强调利用未经修改的数据集的好处开辟了新的途径,从而创建了更先进的生成模型。

 

Industry. 工业

(1)Sora目前的能力标志着视频模拟技术进步的一条充满希望的道路,突出了在物理和数字领域显著增强真实感的潜力。Sora的前景通过文本描述创造高度逼真的环境,为内容创作带来了充满希望的未来。这种潜力延伸到革命性的游戏开发,提供了一个未来的一瞥,在这个未来,沉浸式生成的世界可以以前所未有的轻松和准确性制作。

 

(2)公司可以利用Sora制作广告视频,快速适应市场变化并创建定制的营销内容。这不仅降低了制作成本,还提高了广告的吸引力和有效性。Sora仅从文本描述中生成高度逼真的视频内容的能力可能会彻底改变品牌与受众互动的方式,允许创建身临其境和引人注目的视频,以前所未有的方式捕捉其产品或服务的本质。

 

Society. 社会 

(1)虽然利用文本到视频技术取代传统电影制作的前景仍然遥遥无期,但Sora和类似平台在社交媒体上创作内容具有变革潜力。当前视频长度的限制并没有削弱这些工具在使每个人都能获得高质量视频制作方面产生的影响,使个人能够在不需要昂贵设备的情况下制作引人注目的内容。它代表了在TikTokReels等平台上赋予内容创作者权力的重大转变,带来了创造力和参与度的新时代。

 

(2)编剧和创意专业人士可以使用Sora将书面脚本转换为视频,帮助他们更好地展示和分享他们的创意概念,甚至制作短片和动画。从剧本中创建详细、生动的视频的能力可以从根本上改变电影制作和动画的前期制作过程,让人们一睹未来讲故事的人如何推销、发展和完善他们的叙事。这项技术为更动态和互动的脚本开发形式开辟了可能性,可以实时可视化和评估想法,为创造力和协作提供了强大的工具。

 

(3)记者和新闻机构也可以使用Sora快速生成新闻报道或解释性视频,使新闻内容更加生动和引人入胜。这可以显著增加新闻报道的覆盖范围和受众参与度。通过提供可以模拟现实环境和场景的工具,Sora为视觉故事提供了强大的解决方案,使记者能够通过以前难以制作或昂贵的引人入胜的视频来传达复杂的故事。总之,Sora在营销、新闻和娱乐领域彻底改变内容创作的潜力是巨大的。

 

 

Conclusion 结论

 

我们对Sora进行了全面审查,以帮助开发人员和研究人员研究Sora的能力和相关工作。该审查基于我们对已发布的技术报告的调查和基于现有文献的逆向工程。当SoraAPI可用时,我们将继续更新论文,并披露有关Sora的更多细节。我们希望这篇评论文件将证明是开源研究社区的宝贵资源,并为社区在不久的将来联合开发Sora的开源版本奠定基础,以在AIGC时代实现视频自动创作的民主化。为了实现这一目标,我们邀请各方面的讨论、建议和合作。

文:Yixin Liu, Kai Zhang,Yuan Li,Zhiling Yan,Chujie Gao,Ruoxi Chen, Zhengqing Yuan, Yue Huang,Hanchi Sun,Jianfeng Gao,Lifang He, Lichao Sun,Lehigh University ,Microsoft Research References

参考资料:

  • sOpenAI, “Chatgpt: Get instant answers, find creative inspiration, learn something new..” https://openai.com/chatgpt, 2022.
  • OpenAI, “Gpt-4 technical report,” 2023. OpenAI, “Sora: Creating video from text.” https://openai.com/sora, 2024.
  • W. Peebles and S. Xie, “Scalable diffusion models with transformers,” in Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 4195–4205, 2023.
  • M. AI, “Midjourney: Text to image with ai art generator.” https://www.midjourneyai.ai/en, 2023.
  • J. Betker, G. Goh, L. Jing, T. Brooks, J. Wang, L. Li, L. Ouyang, J. Zhuang, J. Lee, Y. Guo, et al., “Improving image generation with better captions,” Computer Science. https://cdn. openai. com/papers/dall-e-3. pdf, vol. 2, p. 3, 2023.
  • P. AI, “Pika is the idea-to-video platform that sets your creativity in motion..” https://pika.art/home, 2023.
  • R. AI, “Gen-2: Gen-2: The next step forward for generative ai.” https://research.runwayml.com/gen2, 2023.
  • X. Zhai, A. Kolesnikov, N. Houlsby, and L. Beyer, “Scaling vision transformers,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 12104–12113, 2022.
  • M. Dehghani, J. Djolonga, B. Mustafa, P. Padlewski, J. Heek, J. Gilmer, A. P. Steiner, M. Caron, R. Geirhos, I. Alabdulmohsin, et al., “Scaling vision transformers to 22 billion parameters,” in International Conference on Machine Learning, pp. 7480–7512, PMLR, 2023.
  •  
  • R. Sutton, “The bitter lesson.” http://www.incompleteideas.net/IncIdeas/BitterLesson.html, March 2019. Accessed: Your Access Date Here.
  • A. Van Den Oord, O. Vinyals, et al., “Neural discrete representation learning,” Advances in neural information processing systems, vol. 30, 2017.
  • A. Blattmann, R. Rombach, H. Ling, T. Dockhorn, S. W. Kim, S. Fidler, and K. Kreis, “Align your latents: High-resolution video synthesis with latent diffusion models,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 22563–22575, 2023.
  • M. Ryoo, A. Piergiovanni, A. Arnab, M. Dehghani, and A. Angelova, “Tokenlearner: Adaptive space-time tokenization for videos,” Advances in Neural Information Processing Systems, vol. 34, pp. 12786–12797, 2021.
  • A. Arnab, M. Dehghani, G. Heigold, C. Sun, M. Lučić, and C. Schmid, “Vivit: A video vision transformer,” arXiv preprint arXiv:2103.15691, 2021.
  • L. Beyer, P. Izmailov, A. Kolesnikov, M. Caron, S. Kornblith, X. Zhai, M. Minderer, M. Tschannen, I. Alabdulmohsin, and F. Pavetic, “Flexivit: One model for all patch sizes,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 14496–14506, 2023.
  • M. Dehghani, B. Mustafa, J. Djolonga, J. Heek, M. Minderer, M. Caron, A. Steiner, J. Puigcerver, R. Geirhos, I. M. Alabdulmohsin, et al., “Patch n’pack: Navit, a vision transformer for any aspect ratio and resolution,” Advances in Neural Information Processing Systems, vol. 36, 2024.
  • M. M. Krell, M. Kosec, S. P. Perez, and A. Fitzgibbon, “Efficient sequence packing without cross-contamination: Accelerating large language models without impacting performance,” arXiv preprint arXiv:2107.02027, 2021.
  • 以下省略