0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Sora还在PPT阶段,“中国版Sora”已经开放使用了!

Hobby观察 来源:电子发烧友 作者:梁浩斌 2024-06-17 09:07 次阅读

电子发烧友网报道(文/梁浩斌)今年春节期间,OpenAI的AI文字生成视频模型Sora惊艳全世界,极高的视频生成效果、长达60秒的视频生成长度,让过去Pika Labs推出的Pika 1.0、去年Runway推出的Gen-1、谷歌团队发布的VideoPoet等各种文生视频模型都黯然失色。

然而,Sora在发布近4个月的时间里,依然没有开放普通用户使用,同时也没有更多的视频案例流出,目前只有官方发布的演示视频。

最近,快手旗下的名为“可灵”的文生视频大模型上线,与Sora不同的是,可灵发布即开放申请使用,目前已经有大量用户获得使用名额,社交平台上已经有不少用户上传了可灵生成的视频,甚至在海外AI圈迅速爆火。

对比Sora,可灵的效果如何?

快手在推出可灵时,很明确地表示可灵是“首个效果对标Sora且面向用户开放的文生视频大模型”。既然对标Sora,那么就要看下双方的实际表现如何了。

首先从生成视频的指标上看,Sora宣称能够输出1080p分辨率,最长60秒的视频,从OpenAI展示出的Demo来看,Sora的强大之处更在于物体模型的稳定,不仅是在单镜头运动中物体建模能够保持一致性,即使是多镜头的画面切换中,依然能够保持色彩、画面风格的一致。

可灵官方宣称的指标是,支持长达2分钟的电影级画面输出,支持720p和1080p视频输出,帧率30fps,同时支持多种宽高比。可灵采用3D时空联合注意力机制,能够更好地建模复杂时空运动,生成较大幅度运动的视频内容,同时能够符合运动规律。

f2995ac7b0584a00af00995fcbc7dab8~tplv-tt-shrink:640:0.image?lk3s=06827d14&traceid=20240617091711EBF48DEC4FE63F87A0A1&x-expires=2147483647&x-signature=E8pc3thbmfHkHatUiux2GjkkaRU%3D

提示词:小男孩在花园里骑自行车经历秋冬春夏四季变换

在一些演示视频中,也可以看到可灵的物理建模比较稳定,在一分多钟的长镜头画面中,整体画面一致性表现较为理想。

7a9605de5a65453b8af6284b93f6204e~tplv-tt-shrink:640:0.image?lk3s=06827d14&traceid=20240617091711EBF48DEC4FE63F87A0A1&x-expires=2147483647&x-signature=MjQ1FFHJra1ZBGSZcPOngB70Ejg%3D

提示词:微距镜头,火山在一个咖啡杯中喷发

文生视频的一个重要应用就是生成现实中不存在的画面,能够充分将人的想象力转化成视频。Sora发布之初在咖啡杯中的海盗船令人印象深刻,可灵官方演示视频中也有类似的案例。

af5f4fcea2374eecba97160d26e6ecd3~tplv-tt-shrink:640:0.image?lk3s=06827d14&traceid=20240617091711EBF48DEC4FE63F87A0A1&x-expires=2147483647&x-signature=PfB671WcgzCU92GiwDBZHY%2BrM3E%3D

提示词:一个戴眼镜的中国男孩在快餐店内闭眼享受美味的芝士汉堡

在“吃汉堡”的场景中,Sora此前的演示视频已经较为真实地展示了汉堡的咬痕,但可灵添加了更多细节,不仅是汉堡在被咬后的缺口,同时小男孩咬下汉堡后嘴边残留的碎屑也展现出来了,更加符合物理规律。

不过,目前可灵内测的版本只支持5秒、720p分辨率的视频,有博主测试同样提示词,可灵有时候理解相对Sora会较弱。

比如提示词:动画场景特写了一个跪在融化的红烛旁的毛茸茸的小怪物。艺术风格是3D和现实主义的,重点是照明和纹理。这幅画的基调是惊奇和好奇,因为怪物睁大眼睛张着嘴凝视着火焰。它的姿势和表情传达出一种天真和顽皮的感觉,就好像它是第一次探索周围的世界。暖色和戏剧性灯光的使用进一步增强了图像的舒适氛围。

这串细节描写丰富的提示词,Sora官网展示的效果是这样的:

399ac79eaeae48f79a0ef5aa7cd4f8dc~tplv-tt-shrink:640:0.image?lk3s=06827d14&traceid=20240617091711EBF48DEC4FE63F87A0A1&x-expires=2147483647&x-signature=4W2ULy%2BlAa0Hi0CeUAA0uaBKq%2BY%3D

而可灵是这样的:

a5444151ab6b48e0af8bc57d193c5451~tplv-tt-shrink:640:0.image?lk3s=06827d14&traceid=20240617091711EBF48DEC4FE63F87A0A1&x-expires=2147483647&x-signature=n3jPrQTCNDxnuhwgUMNZBlv%2FxlY%3D

当然,由于模型的不同,可能可灵的提示词优化方向会与Sora有所区别。

但从效果来看,可灵与Sora已经十分接近,更重要的是,可灵已经开放公众测试,Sora目前依然处于PPT阶段。

文生视频模型即将迎来大爆发?

尽管Sora表现依然有所领先,但此前Sora火爆出圈的短片《气球人》被爆经过大量后期调整,三个人的团队花了1.5至2周的时间才做出来,团队自曝Sora生成的视频素材最终用到影片里的只有1/300。

所以,Sora一直未开放使用或许也有实际效果不如预期的考虑。因此,可灵的强大之处在于,实打实地开放给创作者使用,目前在快手旗下的快影APP中就能申请使用资格,截至6月14日,已经有8万人在排队审核中。

同时,快手上已经出现大量采用可灵制作的短片,通过多个5秒的短镜头拼接而成,实际效果可见即可得。

而近期除了可灵之外,Luma AI也对外开放了其文生视频模型Dream Machine,更是宣称可以输出120秒120帧的高质量视频。

目前文生视频模型,包括可灵、Sora等都采用了Diffusion Transformer作为整体架构,有观点认为,Sora并不是技术性的突破,而是产品性的突破。即文生视频实际上也是大模型应用的一个方向,而Sora就是其中一个突破性产品。

可灵领衔的文生视频模型大规模应用,更是代表着这类产品的新高度。从产品上看,可以预见,未来半年里,国内外可能将会陆续涌现更多高质量的文生视频大模型产品,并大大加快迭代的进度。

文生视频大模型的爆发,将会有很大可能,彻底改变未来短视频创作的生态。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Sora
    +关注

    关注

    0

    文章

    76

    浏览量

    188
收藏 人收藏

    评论

    相关推荐

    Sora的功能优势及用户评价

    在数字化时代,个人助理软件已经成为我们日常生活中不可或缺的一部分。Sora,作为一款新兴的智能个人助理,以其独特的功能优势和卓越的用户体验,迅速在市场上占据了一席之地。 一、Sora的功能优势
    的头像 发表于 10-31 14:38 160次阅读

    Sora的最强竞争对手,来自中国

    今年2月发布的Sora,先是引得业界“哇声一片”,马斯克直接表态「人类愿赌服输」;周鸿祎说借助Sora人类实现AGI将缩减至一两年。大佬的彩虹屁不是白吹的。利用
    的头像 发表于 05-13 17:11 171次阅读
    <b class='flag-5'>Sora</b>的最强竞争对手,来自<b class='flag-5'>中国</b>

    Sora短期不会向公众开放 还处于反馈获取阶段

    Sora短期不会向公众开放 还处于反馈获取阶段 据外媒报道Sora核心团队在一次采访中透露,Sora短期不会向公众
    的头像 发表于 03-14 14:55 638次阅读

    面对Sora中国AI可以不急不躁不焦虑

    AISora
    脑极体
    发布于 :2024年02月23日 00:51:52

    sora模型是什么意思 sora模型引发行业变革

    约为290亿美元),且文生视频大模型将会大幅推动人工智能基础设施的需求,英伟达、OpenAI、软银等巨头公司都被曝正在进行AI芯片的制造布局,英伟达也因大模型训练需要GPU算力支持而股价大涨 。与此同时,受Sora发布的影响,美国图片供应商Shutterstock的股价大跌。 在
    的头像 发表于 02-22 17:00 1768次阅读

    sora模型中国可以使用吗 sora模型是哪个公司

    Sora是一种扩散模型,具备从噪声中生成完整视频的能力,它生成的视频一开始看起来像静态噪音,通过多个步骤逐渐去除噪声后,视频也从最初的随机像素转化为清晰的图像场景 ,其能够一次生成多帧预测,确保画面主体在暂时离开视野时仍保持一致。 sora模型
    的头像 发表于 02-22 16:52 3133次阅读

    sora模型上市公司 sora模型对现实的影响

    sora模型的上市公司目前没有相关官方的报道,因此无法给出准确的回答。 Sora能够获取现有视频并对其进行扩展或填充缺失的帧,这一功能在视频编辑、电影特效等领域具有应用前景,可以帮助用户快速完成视频
    的头像 发表于 02-22 16:46 1074次阅读

    sora模型怎么使用 sora模型对现实的影响

    美国当地时间2024年2月15日 ,OpenAI正式发布文生视频模型Sora ,并发布了48个文生视频案例和技术报告 ,正式入局视频生成领域 。Sora能够根据提示词生成60s的连贯视频,“碾压”了
    的头像 发表于 02-22 16:42 1119次阅读

    Sora来了,会砸掉谁的饭碗?反观第一拨靠Sora赚钱的人已经出现

    Sora来了,会砸掉谁的饭碗?第一拨靠Sora赚钱的人已经出现 人工智能的快速演进使得大家的紧迫感再次加大,特别是Sora来了,Sora文生
    的头像 发表于 02-22 14:11 1033次阅读

    sora如何使用 sora是什么软件

    Sora是一种扩散模型,具备从噪声中生成完整视频的能力,它生成的视频一开始看起来像静态噪音,通过多个步骤逐渐去除噪声后,视频也从最初的随机像素转化为清晰的图像场景,其能够一次生成多帧预测,确保画面
    的头像 发表于 02-21 17:20 2186次阅读

    sora最新消息 sora是什么意思

    Sora,是美国人工智能研究公司OpenAI发布的人工智能文生视频大模型(但OpenAI并未单纯将其视为视频模型,而是作为“世界模拟器”,于2024年2月15日(美国当地时间)正式对外发布
    的头像 发表于 02-21 16:38 1833次阅读

    sora系列是哪个公司的 sora视频怎么用

    sora系列是哪个公司的 Sora,美国人工智能研究公司OpenAI发布的人工智能文生视频大模型(但OpenAI并未单纯将其视为视频模型,而是作为“世界模拟器”,于2024年2月15日(美国当地时间
    的头像 发表于 02-21 16:35 4311次阅读

    openai sora如何使用?Sora 使用指南:快速上手

    内容。 快速启动指南 步骤一:设置账户 登录OpenAI账户 :访问OpenAI官网并登录您的账户。 访问Sora界面 :在仪表板中找到Sora服务并点击进入。 但是现处于内测阶段需要申请内测资格的账号才可以使用,内测资格账号申
    的头像 发表于 02-20 11:19 4113次阅读

    Sora到底懂不懂物理世界? Sora开启更多可能

    ,但是视频效果已经足以震撼人心,而且OpenAI自己也认为确实还是有很多问题,比如Sora可能会混淆左右,比如Sora难以准确体现随时间推移而发生的事件,但是这些问题似乎都不会是Sora
    的头像 发表于 02-20 11:08 649次阅读

    奥特曼发布王炸模型Sora OpenAI首个文生视频模型Sora正式亮相

    ;可以说是王炸级的文生视频大模型。目前Sora模型正面向部分成员开放,以评估关键领域的潜在危害或风险。 Sora是一种扩散模型,相较其他模型,看起来似乎是已经具备了“理解”和“思考”能
    的头像 发表于 02-18 17:41 934次阅读