近日,南开大学和字节跳动联合开发的 StoryDiffusion 模型解决了扩散模型生成连贯图像与视频的难题。其核心在于“一致自注意力”机制,强化图像间一致性,无需额外训练即可提升现有文本到图像模型的表现。加之“语义运动预测器”,利用语义空间预测图像序列间的流畅变换,尤其在长视频生成中展现了前所未有的稳定性与主体一致性。此框架使基于文本的复杂故事视觉化成为可能,不仅在角色与场景细节一致性上超越 IP-Adapter 等工具,还能精准匹配文本描述。
南开大学和字节跳动联合开发的StoryDiffusion模型是一种新的机器学习技术,主要用于生成具有长距离相关性的图像和视频。以下是该模型的一些主要特点:
1.一致性自注意力(Consistent Self-Attention):该模型通过一种新的自注意力计算方法,在生成图像时建立批内图像之间的联系,以保持人物的一致性。这种机制无需训练即可生成主题一致的图像,解决了在一系列生成的图像中保持内容一致性的挑战,尤其是对于包含复杂主题和细节的图像。
2.语义运动预测器(Semantic Motion Predictor):为了将这种方法扩展到长视频生成,StoryDiffusion引入了语义运动预测器,将图像编码到语义空间,并预测语义空间中的运动,以生成视频。这种基于语义空间的运动预测比仅基于潜在空间的预测更加稳定。
3.两阶段长视频生成方法:通过Consistent self-attention机制生成的图像可以顺利过渡为视频,实现两阶段长视频生成方法。结合这两个部分,可以生成常长且高质量的AIGC视频。
4.用户交互性:用户可以通过提供一系列用户输入的条件图像,使用Image-to-Video模型生成视频。此外,用户还可以通过Jupyter notebook或本地adio demo来生成漫画。
5.应用范围:StoryDiffusion的应用范围广泛,包括漫画生成、图像转视频等多种场景。
StoryDiffusion模型利用了一种称为StoryGAN的生成模型,该模型可以根据输入的故事情节和场景描述生成相关的图像和视频。这项技术有助于解决传统图像和视频生成技术中的局限性,使得生成的图像和视频更加自然和连贯。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
相关推荐
近日,字节跳动旗下的AI内容平台即梦AI传来新消息,宣布自研的视频生成模型Seaweed即日起正式面向平台用户开放使用。这一举措标志着字节
发表于 11-11 14:31
•178次阅读
字节跳动正积极布局欧洲市场,计划在该地区设立AI研发中心。据知情人士透露,字节跳动已开始在欧洲寻找LLM(Large Language Model,大语言
发表于 10-28 11:04
•473次阅读
近日,清华大学智能产业研究院(AIR)与字节跳动共同宣布成立“可扩展大模型智能技术联合研究中心”(SIA Lab),并在清华
发表于 10-12 15:24
•327次阅读
TINA-TI-9中的电路图及AC仿真结果如下:
TINA-8中的电路图及仿真结果如下:
电路图源自《模拟电路基础》P419页码, PID放大器 ,作者:秦世才、贾香鸾;南开大学出版社。
发表于 09-25 06:03
在数字时代的浪潮中,编程已成为推动科技进步和创新的核心动力。为了助力国内开发者更高效、智能地进行编程工作,字节跳动公司近日发布了全新的智能开发工具——豆包 MarsCode。这款工具基
发表于 07-01 15:03
•641次阅读
在科技领域,芯片作为“现代工业的粮食”,其重要性不言而喻。近日,据路透社报道,全球知名的互联网公司字节跳动正在与美国芯片巨头博通公司合作,共同开发一款5纳米制程的AI处理器。这
发表于 06-24 16:16
•890次阅读
为进一步推动人工智能与教育的深度融合,促进教育变革创新,培养智能时代公能兼备的高层次创新型人才,南开大学依托自身优势,紧紧围绕立德树人根本任务,制定推出涵盖教育教学、技术设施、管理服务三个篇章的“人工智能赋能人才培养行动计划”(以下简称“行动计划”)。
发表于 05-22 11:51
•618次阅读
近日,在2024春季火山引擎FORCE原动力大会实体产业及教科研专场上,南开大学与火山引擎成功举办了深度合作签约仪式。此次合作标志着双方将携手共筑“AI+教育”的新篇章,共同推动教育行业数字化转型。
发表于 05-20 11:16
•572次阅读
在近日举行的火山引擎原动力大会上,字节跳动公司正式发布了其强大的豆包大模型。据火山引擎总裁谭待透露,这款大模型展现了惊人的数据处理能力,目前日均处理文本量高达1200亿Tokens,并
发表于 05-15 11:26
•700次阅读
3月7日,由OpenAtom OpenHarmony(以下简称“OpenHarmony”)项目群技术指导委员会与南开大学共同举办的“南开大学OpenHarmony技术俱乐部成立大会”在津南校区综合
发表于 03-08 08:37
•369次阅读
字节跳动辟谣推出中文版Sora 期待国产Sora大模型 “文成视频大模型”的热度持续火爆,大家都在期待国产的大模型面世。科技巨头
发表于 02-21 17:29
•825次阅读
近日,有传闻称字节跳动在Sora文生视频模型发布之前,已经推出了一款名为Boximator的颠覆性视频模型。传闻还指出,这款
发表于 02-20 13:58
•638次阅读
在 Sora 引爆文生视频赛道之前,国内的字节跳动也推出了一款颠覆性视频模型——Boximator。
发表于 02-20 13:44
•1040次阅读
据悉,有媒体曝光,字节跳动可能涉足未公开地使用OpenAI技术来开发自家的大规模语言模型,这与OpenAI的服务条款相悖。因此,该公司的账户现已经被OpenAI暂时禁用。
发表于 12-18 10:39
•499次阅读
回顾过去,字节跳动早在 4月份就明文规定,严禁将 GPT 模型生成的数据添加到大模型的训练数据集中,并且指导工程师们在使用 GPT 时遵循服务条款。更值得关注是,9 月时,
发表于 12-18 09:53
•527次阅读
评论