0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

深度剖析Sora技术的核心原理与应用

架构师技术联盟 来源:架构师技术联盟 2024-04-08 09:56 次阅读

文生视频大模型Sora横空出世,能够根据文本指令或静态图像生成1分钟的视频。其中,视频生成包含精细复杂的场景、生动的角色表情以及复杂的镜头运动,同时也接受现有视频扩展或填补缺失的帧。

总体而言,不管是在视频的保真度、长度、稳定性、一致性、分辨率、文字理解等方面,Sora都做到了业内领先水平,引领多模态产业革命。此外,当Sora训练的数据量足够大时,它也展现出了一种类似于涌现的能力,从而使得视频生成模型具备了类似于物理世界通用模拟器的潜力。 Sora借鉴LLM中将文本信息转化为token的思路,针对视频训练视觉patch,实现视觉数据模型的统一表达,实现对多样化视频和图像内容的有效处理和生成,之后通过视频压缩网络分解为时空patches,允许模型在时间和空间范围内进行信息交换和操作。

从Sora技术报告来看,时空patches或借鉴谷歌ViViT操作。ViViT借鉴ViT在图片分割上的思路,把输入的视频划分成若干个tuplet,每个tuplet会变成一个token,经过spatial temperal attention进行空间和时间建模获得有效的视频表征token。 传统方法可能将视频简单分解为一系列连续的帧,因而忽略了视频中的空间信息,也就是在每一帧中物体的位置和运动。我们认为,由于连续帧存在时空连续性,Sora的时空patches可同时考虑视频中时间和空间关系,能够更加精准生成视频,捕捉到视频中细微的动作和变化,在保证视频内容连贯性和长度的同时,创造出丰富多样的视觉效果,灵活满足用户的各种需求。

7829b7dc-f543-11ee-a297-92fbcf53809c.png

78360a3c-f543-11ee-a297-92fbcf53809c.jpg

7853effc-f543-11ee-a297-92fbcf53809c.jpg

78689452-f543-11ee-a297-92fbcf53809c.jpg

787c4d8a-f543-11ee-a297-92fbcf53809c.jpg

788d876c-f543-11ee-a297-92fbcf53809c.jpg

7916d1d4-f543-11ee-a297-92fbcf53809c.jpg

wKgZomYTTvyAQaj8AAMMNH4iytA812.png

793222ea-f543-11ee-a297-92fbcf53809c.jpg

wKgaomYTTymAc_0EAAf3LKBuO-A083.png

wKgZomYTTziAPQEMAAPVJ3v4vP4589.png

wKgaomYTT1uAc6-KAAXj8AOcytA673.png

审核编辑:黄飞

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • LLM
    LLM
    +关注

    关注

    0

    文章

    247

    浏览量

    277
  • Sora
    +关注

    关注

    0

    文章

    75

    浏览量

    173

原文标题:分享:Sora技术深度解析

文章出处:【微信号:架构师技术联盟,微信公众号:架构师技术联盟】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    《C语言深度剖析》【超经典书籍】

    本帖最后由 zgzzlt 于 2012-8-16 14:23 编辑 《C语言深度剖析》【超经典书籍】
    发表于 08-02 08:59

    C语言深度剖析

    C语言深度剖析——一本关于C语言学习的教程,里面包含C语言编写规范,各种变量指针用法等。以含金量勇敢挑战国内外同类书籍
    发表于 08-14 11:36

    c语言深度剖析

    c语言深度剖析
    发表于 04-02 09:12

    陈正冲《C语言深度剖析

    陈正冲编写的《C语言深度剖析》,挺经典,刚来论坛,多多指教~~
    发表于 08-17 12:06

    linux内核深度剖析,另附有光盘资料

    linux内核深度剖析,对于想学linux内核的人来说,绝对值得一看,另附有光盘资料。
    发表于 01-15 21:25

    【资料分享】C语言深度剖析

    C语言深度剖析
    发表于 10-16 15:16

    C语言深度剖析

    C语言深度剖析
    发表于 08-25 09:08

    C语言深度剖析

    C语言深度剖析[完整版].pdfC语言深度剖析[完整版].pdf (919.58 KB )
    发表于 03-19 05:11

    C语言深度剖析

    C语言深度剖析
    发表于 05-05 17:40 7次下载

    C语言深度剖析

    C语言深度剖析
    发表于 12-20 22:50 0次下载

    C语言深度剖析.zip

    C语言深度剖析
    发表于 12-30 09:20 5次下载

    探索OpenAI Sora视频AI生成技术及其应用如何使用指南

    OpenAI的Sora现已扩展其能力范围,进入视频生成领域,标志着人工智能技术在多媒体内容创作上的一个重大突破。Sora的视频AI功能使得用户能够根据文本描述自动生成高质量的视频内容,这项技术
    的头像 发表于 02-20 12:01 1281次阅读

    sora最新消息 sora是什么意思

    Sora可以根据用户的文本提示创建最长60秒的逼真视频,该模型了解这些物体在物理世界中的存在方式,可以深度模拟真实物理世界,能生成具有多个角色、包含特定运动的复杂场景。继承了DALL-E 3的画质和遵循指令能力,能理解用户在提示中提出的要求。
    的头像 发表于 02-21 16:38 1654次阅读

    sora系列是哪个公司的 sora视频怎么用

    )正式对外发布。 sora视频怎么用 Sora可以根据用户的文本提示创建最长60秒的逼真视频,该模型了解这些物体在物理世界中的存在方式,可以深度模拟真实物理世界,能生成具有多个角色、包含特定运动的复杂场景。继承了DALL-E 3
    的头像 发表于 02-21 16:35 3995次阅读

    sora模型怎么使用 sora模型对现实的影响

    美国当地时间2024年2月15日 ,OpenAI正式发布文生视频模型Sora ,并发布了48个文生视频案例和技术报告 ,正式入局视频生成领域 。Sora能够根据提示词生成60s的连贯视频,“碾压”了
    的头像 发表于 02-22 16:42 1015次阅读