OpenAI又打出王炸！一句话生成60秒视频，马斯克：人类认输吧-电子发烧友网

电子发烧友网报道（文/梁浩斌）在大年初七，春节假期的尾声，OpenAI突然发布的AI文字生成视频模型Sora被全网刷屏，马斯克甚至感叹“gg Humans”（gg是good game的缩写，在竞技游戏中原意为称赞对方打得不错，但目前主流的含义是代表认输退出）。

文字生成视频的AI模型其实之前也有不少，比如去年11月美国AI初创公司Pika Labs发布的Pika 1.0；去年Runway推出了文生视频模型Gen-1，并完成了两次迭代；还有谷歌团队发布的视频生成模型VideoPoet。但问题在于，此前市面上的文生视频模型只能生成数秒，最高十多秒的视频。而Sora一上来就是60秒的视频长度，且生成视频的细节、质量几乎“秒杀”其他文生视频模型，这足以颠覆目前的视频生成模型初创公司的格局。

视频生成质量炸裂，好莱坞时代要结束了？

Sora生成的视频效果有多强？下面是OpenAI在官网展示的第一个视频，也是最能够表现Sora实力的视频。

这个视频的提示词为“一位时尚女士走在东京的街道上，街道上充满了温暖的霓虹灯和动画城市标志。她穿着黑色皮夹克、红色长裙和黑色靴子，拿着一个黑色钱包。她戴着太阳镜，涂着红色口红。她走路自信而随意。街道潮湿且反光，形成了五颜六色灯光的镜面效果。许多行人四处走动。”

从视频中，无论是运镜还是人物、地面、背景的细节，还有拉进镜头后人物面部上的皱纹、毛发、墨镜上的反光，都几乎可以以假乱真，画面稳定不错位。在长达60秒的视频里，画面随镜头的大幅度运动并没有出现错位的情况，整体风格保持了惊人的一致性。

在复杂场景方面，另一个演示视频同样展现了Sora的炸裂效果。下面这个视频使用的提示词为：“一段美丽的自制视频展示了2056年尼日利亚拉各斯的人们。用手机相机拍摄。”

同样是运镜幅度巨大的场景，同时背景有大量的人物。在以往的文生图模型中，类似这种背景有人群的图片都会产生很多错位，很容易看出AI的痕迹，而在Sora生成的这个视频里，背景人群不仔细看很难发现有错误，特别是在动态的视频当中。另一方面在视频后半段的人物近景里，大幅度运动的镜头同样没有对人物造成影响，画面细节极为稳定。

Sora生成视频的稳定，不止于单镜头的运动，即使是多镜头的画面切换中，依然能够保持色彩、画面风格的一致

除了真实场景之外，Sora还能以动画风格生成视频。比如使用提示词：“动画场景特写了一个跪在融化的红烛旁的毛茸茸的小怪物。艺术风格是3D和现实主义的，重点是照明和纹理。这幅画的基调是惊奇和好奇，因为怪物睁大眼睛张着嘴凝视着火焰。它的姿势和表情传达出一种天真和顽皮的感觉，就好像它是第一次探索周围的世界。暖色和戏剧性灯光的使用进一步增强了图像的舒适氛围。”

生成出的动画形象与皮克斯电影几乎不相上下，此前在动画电影中大费周章渲染出的毛发，如今AI直接一键生成！难怪会有网友表示“好莱坞的时代要结束了”。

有博主将Sora跟Pika、Runway、Stable Video等几个模型进行对比，对其输入同样的提示词：“美丽、多雪的东京城熙熙攘攘。镜头穿过熙熙攘攘的城市街道，跟随几个享受美丽的下雪天气和在附近摊位购物的人。绚丽的樱花花瓣随着雪花随风飞舞。”

结果Sora生成的视频无论是时间长度、还是运镜、画面细节，都完胜其他几个模型生成出的视频。比如Pika和Runway生成的视频在短短几秒时间里都只有固定镜头画面，Stable Video有镜头移动的变化，但时长太短。

Sora还未完美，OpenAI揭秘背后技术

目前Sora还未对大众开放，OpenAI表示Sora正在面向部分用户开放，以评估关键领域的潜在危害或风险。同时，OpenAI也邀请了一批视觉艺术家、设计师和电影制作人加入以推动模型的发展。

当然，在惊艳的演示视频外，Sora的视频生成也并非完美。OpenAI也表示，目前的模型可能难以准确模拟复杂场景的物理特性，也可能不理解因果关系的具体实例，比如一个人咬了一口饼干，饼干上可能没有咬痕。Sora生成的视频还可能混淆提示词中关于空间的细节（比如左右），并且难以准确描述随时间发生的事件，比如跟随特定的镜头轨迹等。

比如上面动图中所使用的提示词为“五只灰狼崽在一条偏僻的碎石路上嬉戏追逐，周围都是草地。小狗们奔跑跳跃，相互追逐，相互撕咬，嬉戏玩耍”，但实际画面中灰狼数量出错，并且部分是凭空出现又凭空消失，出现身体互相重叠等现象。

对于Sora背后使用的技术，OpenAI在官网上发布了一篇报告进行了介绍，但只提到了方便大模型进行训练的数据处理方式和对Sora局限性的评价，没有太多技术细节。

根据介绍，Sora是一种diffusion模型，它从一个看起来像静态噪声的视频开始生成视频，并通过多个步骤去除噪声来逐渐转换视频。与GPT相似，Sora算法层面也采用了transformer，以释放出强大的扩展性能。

OpenAI表示，Sora是以过于公司对DALL·E和GPT模型的研究作为基础，使用了DALL·E 3中的重新标注技术。通过用一个能够生成详细描述的标注模型，为训练集中的所有视频生成详细的文字说明，这能够提高文字准确性的同时，还能提升视频的整体质量。

与DALL·E 3类似，OpenAI也使用了GPT将简短的用户提示词转换为更详细的文本，所以Sora能够准确理解用户提示，并生成对应视频。

另外，OpenAI还透露了Sora的其他能力，包括接受图像和文本说明输出视频、能够以时间线向前或向后扩展视频、生成图像、改变视频风格和环境、无缝连接两个不同视频等等。

业界大佬评价：“真的非常牛”“中美AI差距进一步拉大”

Sora的“刷屏”，引起了多位业内大佬的关注。前阿里技术副总裁贾扬清也感叹“Sora真的非常牛”，并认为对标OpenAI的公司有一波被其他大厂因为害怕错过AI而收购相关公司的机会。对于其他算法小厂，贾扬清建议“要不就算法上媲美OpenAI，要不就垂直领域深耕应用，要不就开源”，最后他预言AI infra（AI基础设施）的需求会继续猛增。

360董事长周鸿祎则回应了如何看待Sora的问题，他认为科技竞争最终比拼的是让人才密度和深厚积累，“很多人说 Sora的效果吊打Pika和Runway。这很正常，和创业者团队比，OpenAl 这种有核心技术的公司实力还是非常强劲的。有人认为有了AI以后创业公司只需要做个体户就行，实际今天再次证明这种想法是非常可笑的。”

周鸿祎还表示，AI不一定那么快颠覆所有行业，但它能激发更多人的创作力。关于国内外的AI大模型差距，周鸿祎认为国内大模型发展距离GPT-4.0还有一年半的差距，并且相信OpenAl手里应该还藏着一些秘密武器。“奥特曼是个营销大师，知道怎样掌握节奏，他们手里的武器并没有全拿出来。这样看来中国跟美国的AI差距可能还在加大。”

关于大模型本身，周鸿祎对Sora理解为OpenAl利用它的大语言模型优势，把LLM和 Diffusion结合起来训练，让Sora实现了对现实世界的理解和对世界的模拟两层能力，这样产生的视频才是真实的，才能跳出2D的范围模拟真实的物理世界。而得益于大量视频的训练，周鸿祎认为AI对世界的理解将远超文字学习，可能未来一到两年就能实现AGI（通用人工智能）。

而作为去年年底爆火的AI视频生成初创公司Pika创始人，郭文景将Sora的发布视为动力，表示“我们觉得这是一个很振奋人心的消息，我们已经在筹备直接冲，将直接对标 Sora。”

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
31493

浏览量
270178
算力

算力

+关注

关注
1

文章
1012

浏览量
14937
OpenAI

OpenAI

+关注

关注
9

文章
1123

浏览量
6676
大模型

大模型

+关注

关注
2

文章
2543

浏览量
3109

马斯克加码起诉OpenAI 已向美国联邦法院申请了初步禁令

据外媒报道，马斯克与OpenAI的法律纠纷还在继续升级；马斯克加码起诉OpenAI；目前xAI公司已经向美国联邦法院申请了初步禁令，要求法院阻止Op

发表于 12-02 14:40 •504次阅读

马斯克欲阻OpenAI商业化转型

近日，据彭博社最新报道，特斯拉的首席执行官埃隆·马斯克正积极采取行动，试图通过法律途径来阻止OpenAI从一家非营利组织转变为营利性公司。马斯克声称，在

发表于 12-02 10:07 •185次阅读

一句话让你理解线程和进程

今天给大家分享一下线程与进程，主要包含以下几部分内容：一句话说明线程和进程操作系统为什么需要进程为什么要引入线程一图说明线程和进程的关系一句话让你理解进程和线程进程：是指⼀个内存中运⾏

发表于 06-04 08:04 •1296次阅读

马斯克也给英伟达打工了

马斯克融来的60亿美元巨资，让xAI弯道超车，估值一跃成为全球第二大AI独角兽。但马斯克在AI行业内积累的人望，以及此刻大模型创业之激烈，他的入局远远谈不上众望所归。而xAI由此被拉起

发表于 06-03 08:04 •196次阅读

马斯克指责OpenAI背离初衷，OpenAI否认并予以回应

身为多家知名企业如特斯拉、SpaceX以及社交网络平台X的创始人，马斯克早在2015年OpenAI创立之初便同萨姆·奥尔特曼联手合作。然而自2018年退出公司之后，马斯克开始对OpenAI

发表于 03-07 09:43 •726次阅读

新火种AI|马斯克OpenAI开战！神秘Q星细节曝光，GPT-5被迫延迟？

OpenAI的联合创始人和总裁Greg Brockman告上了法庭。这对于风头正盛的OpenAI来说，无异于一枚“深水炸弹”。在马斯克的诉状里，他重点提及当年

发表于 03-05 21:13 •444次阅读

马斯克状告OpenAI，OpenAI回应马斯克诉讼

马斯克在长达46页、1.4万字的诉讼文件中，控诉OpenAI背离了其初衷——即致力于开发开源人工通用智能（AGI）并服务全人类。

发表于 03-04 15:33 •973次阅读

马斯克控告OpenAI违约、要求恢复开源；OpenAI否认三连

2024年3月1日，特斯拉CEO埃隆·马斯克 (Elon Musk) 向美国旧金山高等法院提起诉讼，起诉OpenAI和该公司CEO山姆·阿尔特曼 (Sam Altman) ，OpenAI联合创始人

发表于 03-04 13:59 •766次阅读

马斯克:AI发展速度前所未见但马斯克起诉OpenAI及其创始人

马斯克：AI发展速度前所未见现在市场上对于任何OpenAI的消息都非常敏感，我们分享一下马斯克对OpenAI起诉的一些事项。

发表于 03-02 15:29 •1279次阅读

OpenAI 在 AI 生成视频领域扔出一枚“王炸”，视频生成模型“Sora”

ABSTRACT摘要2月16日凌晨，也就是中国大年初七，OpenAI在AI生成视频领域扔出一枚“王炸

发表于 02-22 08:25 •442次阅读

马斯克称特斯拉视频生成技术超过Sora

特斯拉CEO埃隆·马斯克在社交媒体平台上发表言论，声称特斯拉所掌握的视频生成技术超越了OpenAI最新发布的Sora模型。马斯克自信地表示，特斯拉在这

发表于 02-20 14:16 •663次阅读

Sora助推OpenAI估值飙升275%

近日，人工智能领域的领军企业OpenAI发布了其首个文生视频模型——Sora。这款模型具备令人惊叹的能力：用户只需通过一句话，便能生成长达1分钟的高清

发表于 02-20 14:12 •632次阅读

OpenAI新年开出王炸，视频生成模型Sora问世

近日，OpenAI在AI生成视频领域取得重大突破，发布了全新的生成式人工智能模型“Sora”。该模型在视频生成方面展现出了惊人的能力，通过文

发表于 02-20 11:46 •848次阅读

马斯克赞赏特斯拉真实世界模拟与视频生成技术

OpenAI在本周四的官方网站上公布了Sora模型，并陈列了该系统所生成的部分视频。紧接着，马斯克在社交媒体上分享了特斯拉在去年所发布的部分新型视频

发表于 02-19 10:06 •482次阅读

奥特曼发布王炸模型Sora OpenAI首个文生视频模型Sora正式亮相

奥特曼发布王炸模型Sora OpenAI首个文生视频模型Sora正式亮相 2月16日凌晨OpenAI的首个文生

发表于 02-18 17:41 •1034次阅读