OpenAI文生视频模型Sora要点分析-电子发烧友网

近日，美国人工智能公司OpenAI发布了首个视频生成模型Sora。不同于此前许多AI大模型文生图或视频时，会出现人物形象前后不一致等问题，此次OpenAI展示的Sora生成的视频中的主角、背景人物，都展现了极强的一致性，可以支持60秒一镜到底，并包含高细致背景、多角度镜头，以及富有情感的多个角色，可谓是相当的“炸裂”。甚至有不少人疾呼，传统视频制作行业将会被“革命”！

相关内容参考“OpenAI视频模型Sora替代品分析（2024）”、“一场AI“革命”开始，OpenAI文生视频模型Sora”。

据OpenAI官网介绍，Sora“通过一次性为模型提供多帧的预测，我们解决了一个具有挑战性的问题”。据了解，此次大模型完美继承DALL·E 3的画质和遵循指令能力，能生成长达1分钟的高清视频。并且在随后公布的多段AI生成的视频中，无论镜头如何切换，人物前后都保持了高度的稳定性。

总结来说，Sora大模型的强大之处主要有以下六点：

1、文本到视频生成能力：Sora能够根据用户提供的文本描述生成长达60S的视频，这些视频不仅保持了视觉品质，而且完整准确还原了用户的提示语。

2、复杂场景和角色生成能力：Sora能够生成包含多个角色、特定运动类型以及主题精确、背景细节复杂的场景。它能够创造出生动的角色表情和复杂的运镜，使得生成的视频具有高度的逼真性和叙事效果。

3、语言理解能力：Sora拥有深入的语言理解能力，能够准确解释提示并生成能表达丰富情感的角色。这使得模型能够更好地理解用户的文本指令，并在生成的视频内容中忠实地反映这些指令。

4、多镜头生成能力：Sora可以在单个生成的视频中创建多个镜头，同时保持角色和视觉风格的一致性。这种能力对于制作电影预告片、动画或其他需要多视角展示的内容非常有用。

5、从静态图像生成视频能力：Sora不仅能够从文本生成视频，还能够从现有的静态图像开始，准确地动画化图像内容，或者扩展现有视频，填补视频中的缺失帧。

6、物理世界模拟能力：Sora展示了人工智能在理解真实世界场景并与之互动的能力，这是朝着实现通用人工智能（AGI）的重要一步。它能够模拟真实物理世界的运动，如物体的移动和相互作用。可以说，Sora的出现，预示着一个全新的视觉叙事时代的到来，它能够将人们的想象力转化为生动的动态画面，将文字的魔力转化为视觉的盛宴。在这个由数据和算法编织的未来，Sora正以其独特的方式，或将重新定义我们与数字世界的互动。

OpenAI在模型公布后的不久，就公布了相关的技术论文《Video generation models as world simulators》。以下为论文的主要内容：

Sora的技术特点

三维空间的连贯性：Sora可以生成带有动态相机运动的视频。随着相机移动和旋转，人物和场景元素在三维空间中保持连贯的运动。

模拟数字世界：Sora还能模拟人工过程，如视频游戏。Sora能够同时控制Minecraft中的玩家，并高保真地渲染游戏世界及其动态。通过提及“Minecraft”的提示，可以零样本地激发Sora的这些能力

长期连续性和物体持久性：对视频生成系统来说，Sora通常能够有效地模拟短期和长期的依赖关系。同样，它能在一个样本中生成同一角色的多个镜头，确保其在整个视频中的外观一致。

与世界互动：Sora有时能够模拟对世界状态产生简单影响的行为。例如，画家可以在画布上留下随时间持续的新笔触，或者一个人吃汉堡时留下咬痕。

训练过程

Sora 的训练受到了大语言模型（Large Language Model）的启发。这些模型通过在互联网规模的数据上进行训练，从而获得了广泛的能力。

Sora实际上是一种扩散型变换器模型（diffusion transformer）。首先将视频压缩到一个低维潜在空间中，然后将这种表现形式分解成时空区块，从而将视频转换为区块。它能够接受带有噪声的patch（和条件信息，如文本提示）作为输入，随后被训练，来预测原始的“干净”patch。

训练了一个用于降低视觉数据维度的网络。这个网络以原始视频为输入，输出在时间和空间上都被压缩的潜在表示。Sora在这个压缩的潜在空间上进行训练，并在此空间中生成视频。还开发了一个对应的解码器模型，它能将生成的潜在表示映射回到像素空间。

对于给定的压缩输入视频，提取一系列时空区块，它们在变换器模型中充当标记（token）。这种方案同样适用于图像，因为图像本质上是单帧的视频。基于区块的表示方法使Sora能够针对不同分辨率、持续时间和纵横比的视频和图像进行训练。在推理过程中，可以通过在适当大小的网格中排列随机初始化的区块来控制生成视频的大小。

随着 Sora 训练计算量的增加，样本质量有了显著提升。

Sora训练时没有对素材进行裁切，使得Sora能够直接为不同设备以其原生纵横比创造内容。针对视频的原生纵横比进行训练，还可以提高构图和取景的质量。

它还可以先以较低分辨率快速制作出视频原型，再用相同的模型制作出全分辨率的视频。

训练文本到视频的生成系统需要大量配有相应文本提示的视频。应用了在DALL·E 3中引入的重新字幕技术到视频上。

与DALL·E 3相似，也利用了GPT技术，将用户的简短提示转换成更详细的提示，然后发送给视频模型。

论文关键点

OpenAI 的研究论文《Video generation models as world simulators》探讨了在视频数据上进行大规模训练生成模型的方法。这项研究特别关注于文本条件扩散模型，这些模型同时在视频和图像上进行训练，处理不同时长、分辨率和宽高比的数据。研究中提到的最大模型 Sora 能够生成长达一分钟的高保真视频。以下是论文的一些关键点：

统一的视觉数据表示：研究者们将所有类型的视觉数据转换为统一的表示，以便进行大规模的生成模型训练。Sora 使用视觉补丁（patches）作为其表示方式，类似于大型语言模型（LLM）中的文本标记。

视频压缩网络：研究者们训练了一个网络，将原始视频压缩到一个低维潜在空间，并将其表示分解为时空补丁。Sora 在这个压缩的潜在空间中进行训练，并生成视频。

扩散模型：Sora 是一个扩散模型，它通过预测原始“干净”的补丁来从输入的噪声补丁中生成视频。扩散模型在语言建模、计算机视觉和图像生成等领域已经显示出了显著的扩展性。

视频生成的可扩展性：Sora 能够生成不同分辨率、时长和宽高比的视频，包括全高清视频。这种灵活性使得 Sora 能够直接为不同设备生成内容，或者在生成全分辨率视频之前快速原型化内容。

语言理解：为了训练文本到视频生成系统，需要大量的视频和相应的文本标题。研究者们应用了在 DALL·E 3 中引入的重新描述技术，首先训练一个高度描述性的标题生成器，然后为训练集中的所有视频生成文本标题。

图像和视频编辑：Sora 不仅能够基于文本提示生成视频，还可以基于现有图像或视频进行提示。这使得 Sora 能够执行广泛的图像和视频编辑任务，如创建完美循环的视频、动画静态图像、向前或向后扩展视频等。

模拟能力：当视频模型在大规模训练时，它们展现出了一些有趣的新兴能力，使得 Sora 能够模拟物理世界中的某些方面，如动态相机运动、长期一致性和对象持久性等。

虽然存在不足之处，但这不是关键

尽管 Sora 展示了作为模拟器的潜力，但它仍然存在许多局限性，例如在模拟基本物理交互时的准确性不足。

比如下面这个由 Sora 生成的视频当中，动物的数量随着时间的推移出现了明显的错乱，多个动物凭空出现又凭空消失了。此外，在一些生成的视频当中还会出现违反物理规则的现象。但是，对于新生的Sora来说，这些都不是关键，后续完全能够通过技术迭代来进行完善和改进。

这也是为什么，Sora虽然有一些不完美之处，但是外界仍一致认为它将会革命性地改变许多行业。

可以说，目前的Sora已经拥有了足以改变视频广告行业的能力，如果持续迭代，并在保持稳定性和一致性的前提下，进一步支持更复杂的交互、更长的视频时长，并加入更为丰富的AI视频编辑功能，必将对于现有的影视制作产业带来革命。

试想一下，如果将一部小说输入Sora就能够生成一部高质量的电影，这将会是多么的激动人心！这将极大的降低视频创作的门槛，并提升视频的质量，这对于整个行业来说都将带来更为积极的意义。当然，这也将会冲击到现有的传统视频制作产业链上的诸多从业者，恐怕很多演员、导演、摄影师，以及很多相关的服装、化妆、道具人员都将要失业了。

来源：芯智讯原文：

https://mp.weixin.qq.com/s/_WIFlmCzQHS4K1fRSkgmYg

审核编辑：刘清

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

解码器

解码器

+关注

关注
9

文章
1143

浏览量
40749
变换器

变换器

+关注

关注
17

文章
2099

浏览量
109315
人工智能

人工智能

+关注

关注
1791

文章
47294

浏览量
238580
OpenAI

OpenAI

+关注

关注
9

文章
1090

浏览量
6531
Sora

Sora

+关注

关注
0

文章
81

浏览量
205

原文标题：一场AI“革命”开始，OpenAI文生视频模型Sora要点分析

文章出处：【微信号：架构师技术联盟，微信公众号：架构师技术联盟】欢迎添加关注！文章转载请注明出处。

OpenAI暂不推出Sora视频生成模型API

OpenAI近日宣布，目前暂无推出其视频生成模型Sora的应用程序接口(API)的计划。Sora模型

发表于 12-20 14:23 •138次阅读

智谱AI正在研发国产文生视频模型，对标OpenAI Sora

国内AI领域的独角兽企业智谱AI正全力研发一款与OpenAI的Sora相媲美的国产文生视频模型。据悉，该

发表于 05-13 11:14 •645次阅读

智谱AI正研发对标Sora的国产文生视频模型

智谱AI，这家国内估值超过200亿的AI大模型独角兽企业，正全力投入研发一款与OpenAI的Sora相媲美的国产文生视频

发表于 05-07 09:22 •534次阅读

OpenAI发布文生视频大模型Sora、英伟达市值超谷歌

OpenAI加入文生视频大模型的战局，AI大模型进入视频生成的阶段，这将进一步刺激AI芯片的需求

发表于 03-28 18:13 •856次阅读

7万张H100打造的OpenAI文生视频Sora功能原理详解|Sora注册全攻略

近日，OpenAI发布的基于Transformer架构的文生视频Sora，可谓是在AI圈掀起新的热潮。该模型具有强大的

发表于 02-29 11:48 •1038次阅读

sora模型怎么使用 sora模型对现实的影响

美国当地时间2024年2月15日，OpenAI正式发布文生视频模型Sora ，并发布了48个文生

发表于 02-22 16:42 •1179次阅读

OpenAI新推文生视频大模型Sora引发热议，首批受益者涌现

在科技浪潮中，OpenAI再次引领潮流。继2023年的文生文大语言模型之后，2024年春节期间，OpenAI推出的文生

发表于 02-22 14:15 •707次阅读

openai发布首个视频生成模型sora

美国当地时间2024年2月15日，OpenAI正式发布文生视频模型Sora ，并发布了48个文生

发表于 02-21 16:45 •1270次阅读

Sora助推OpenAI估值飙升275%

近日，人工智能领域的领军企业OpenAI发布了其首个文生视频模型——Sora。这款模型具备令人惊

发表于 02-20 14:12 •582次阅读

OpenAI发布人工智能文生视频大模型Sora

近日，人工智能领域的领军企业OpenAI宣布推出其最新的人工智能文生视频大模型——Sora。这款模型

发表于 02-20 13:54 •871次阅读

OpenAI发布文生视频模型Sora，开启AI内容创作新纪元

近日，人工智能领域的领军企业OpenAI在其官网上正式发布了名为Sora的文生视频大模型。这款模型

发表于 02-20 13:44 •667次阅读

英伟达市值跃居全球第四文生视频大模型Sora带动

英伟达市值跃居全球第四文生视频大模型Sora带动文生视频大

发表于 02-19 16:48 •1003次阅读

OpenAI发布文生视频模型Sora，引领AI视频生成新纪元

在人工智能(AI)领域掀起新一轮革命浪潮的，正是OpenAI最新推出的文生视频大模型——Sora。这款被业界广泛赞誉的

发表于 02-19 11:03 •960次阅读

OpenAI推出全新文生视频模型Sora

近日，全球领先的人工智能研究公司OpenAI宣布推出其最新的文生视频大模型“Sora”。该模型具

发表于 02-19 10:56 •827次阅读

奥特曼发布王炸模型Sora OpenAI首个文生视频模型Sora正式亮相

奥特曼发布王炸模型Sora OpenAI首个文生视频模型So

发表于 02-18 17:41 •995次阅读

搜索历史

OpenAI文生视频模型Sora要点分析

评论

OpenAI暂不推出Sora视频生成模型API

智谱AI正在研发国产文生视频模型，对标OpenAI Sora

智谱AI正研发对标Sora的国产文生视频模型

OpenAI发布文生视频大模型Sora、英伟达市值超谷歌

7万张H100打造的OpenAI文生视频Sora功能原理详解|Sora注册全攻略

sora模型怎么使用 sora模型对现实的影响

OpenAI新推文生视频大模型Sora引发热议，首批受益者涌现

openai发布首个视频生成模型sora

Sora助推OpenAI估值飙升275%

OpenAI发布人工智能文生视频大模型Sora

OpenAI发布文生视频模型Sora，开启AI内容创作新纪元

英伟达市值跃居全球第四文生视频大模型Sora带动

OpenAI发布文生视频模型Sora，引领AI视频生成新纪元

OpenAI推出全新文生视频模型Sora

奥特曼发布王炸模型Sora OpenAI首个文生视频模型Sora正式亮相