近日,南开大学和字节跳动联合开发的 StoryDiffusion 模型解决了扩散模型生成连贯图像与视频的难题。其核心在于“一致自注意力”机制,强化图像间一致性,无需额外训练即可提升现有文本到图像模型的表现。加之“语义运动预测器”,利用语义空间预测图像序列间的流畅变换,尤其在长视频生成中展现了前所未有的稳定性与主体一致性。此框架使基于文本的复杂故事视觉化成为可能,不仅在角色与场景细节一致性上超越 IP-Adapter 等工具,还能精准匹配文本描述。
南开大学和字节跳动联合开发的StoryDiffusion模型是一种新的机器学习技术,主要用于生成具有长距离相关性的图像和视频。以下是该模型的一些主要特点:
1.一致性自注意力(Consistent Self-Attention):该模型通过一种新的自注意力计算方法,在生成图像时建立批内图像之间的联系,以保持人物的一致性。这种机制无需训练即可生成主题一致的图像,解决了在一系列生成的图像中保持内容一致性的挑战,尤其是对于包含复杂主题和细节的图像。
2.语义运动预测器(Semantic Motion Predictor):为了将这种方法扩展到长视频生成,StoryDiffusion引入了语义运动预测器,将图像编码到语义空间,并预测语义空间中的运动,以生成视频。这种基于语义空间的运动预测比仅基于潜在空间的预测更加稳定。
3.两阶段长视频生成方法:通过Consistent self-attention机制生成的图像可以顺利过渡为视频,实现两阶段长视频生成方法。结合这两个部分,可以生成常长且高质量的AIGC视频。
4.用户交互性:用户可以通过提供一系列用户输入的条件图像,使用Image-to-Video模型生成视频。此外,用户还可以通过Jupyter notebook或本地adio demo来生成漫画。
5.应用范围:StoryDiffusion的应用范围广泛,包括漫画生成、图像转视频等多种场景。
StoryDiffusion模型利用了一种称为StoryGAN的生成模型,该模型可以根据输入的故事情节和场景描述生成相关的图像和视频。这项技术有助于解决传统图像和视频生成技术中的局限性,使得生成的图像和视频更加自然和连贯。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
相关推荐
自2024年4月22日山东大学起,5月7日山东商业职业技术学院,5月9日兰州交通大学,5月10日华东交通大学,5月17日贵州大学至5月22日南开大学
发表于 05-31 11:15
•276次阅读
为进一步推动人工智能与教育的深度融合,促进教育变革创新,培养智能时代公能兼备的高层次创新型人才,南开大学依托自身优势,紧紧围绕立德树人根本任务,制定推出涵盖教育教学、技术设施、管理服务三个篇章的“人工智能赋能人才培养行动计划”(以下简称“行动计划”)。
发表于 05-22 11:51
•434次阅读
近日,在2024春季火山引擎FORCE原动力大会实体产业及教科研专场上,南开大学与火山引擎成功举办了深度合作签约仪式。此次合作标志着双方将携手共筑“AI+教育”的新篇章,共同推动教育行业数字化转型。
发表于 05-20 11:16
•368次阅读
近日,字节跳动在2024年春季火山引擎Force原动力大会上宣布,其自主研发的豆包大模型正式开启对外服务。这一大模型家族涵盖了多个细分领域,为用户提供了丰富的智能应用选择。
发表于 05-16 09:29
•218次阅读
在近日举行的火山引擎原动力大会上,字节跳动公司正式发布了其强大的豆包大模型。据火山引擎总裁谭待透露,这款大模型展现了惊人的数据处理能力,目前日均处理文本量高达1200亿Tokens,并
发表于 05-15 11:26
•470次阅读
值得注意的是,字节跳动CEO梁汝波在2024年度全体会议上指出,尽管字节跳动在2023年才初步涉足GPT领域,然而同期众多先进的大模型创业
发表于 03-25 16:40
•696次阅读
3月7日,由OpenAtom OpenHarmony(以下简称“OpenHarmony”)项目群技术指导委员会与南开大学共同举办的“南开大学OpenHarmony技术俱乐部成立大会”在津南校区综合
发表于 03-08 08:37
•227次阅读
据多位知情人士透露,科技巨头字节跳动正在人工智能(AI)大模型领域秘密研发多个创新产品。其中,多模态数字人产品备受瞩目,该产品将结合先进的AI技术与虚拟形象,为用户提供全新的交互体验。此外,字
发表于 03-05 11:22
•610次阅读
1 字节跳动被曝研发多个AI产品 2月28日,从多个知情人士处获悉,字节跳动正在AI大模型领域秘密研发多个产品,其中包括多模态数字人产品以及
发表于 02-29 10:57
•351次阅读
字节跳动辟谣推出中文版Sora 期待国产Sora大模型 “文成视频大模型”的热度持续火爆,大家都在期待国产的大模型面世。科技巨头
发表于 02-21 17:29
•574次阅读
近日,有传闻称字节跳动在Sora文生视频模型发布之前,已经推出了一款名为Boximator的颠覆性视频模型。传闻还指出,这款
发表于 02-20 13:58
•419次阅读
在 Sora 引爆文生视频赛道之前,国内的字节跳动也推出了一款颠覆性视频模型——Boximator。
发表于 02-20 13:44
•645次阅读
回顾过去,字节跳动早在 4月份就明文规定,严禁将 GPT 模型生成的数据添加到大模型的训练数据集中,并且指导工程师们在使用 GPT 时遵循服务条款。更值得关注是,9 月时,
发表于 12-18 09:53
•321次阅读
,字节跳动也会长期投入XR(扩展现实)业务。 PICO成立于2015年3月,致力于“成为领先的世界级XR平台,成就开发者与创作者,共同为全球消费者创造更美好的生活体验”。于2021年9月并入字
发表于 10-24 17:38
•1436次阅读
在接受 InfoQ 采访时,字节跳动算法专家张树波表示,大语言模型是一项人工智能基础技术的突破,必然会带来多个行业的变革。2023 年初,字节跳动
发表于 08-16 14:48
•647次阅读
评论