0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

南开大学和字节跳动联合开发一款StoryDiffusion模型

冬至配饺子 来源:网络整理 作者:网络整理 2024-05-07 14:46 次阅读

近日,南开大学和字节跳动联合开发的 StoryDiffusion 模型解决了扩散模型生成连贯图像与视频的难题。其核心在于“一致自注意力”机制,强化图像间一致性,无需额外训练即可提升现有文本到图像模型的表现。加之“语义运动预测器”,利用语义空间预测图像序列间的流畅变换,尤其在长视频生成中展现了前所未有的稳定性与主体一致性。此框架使基于文本的复杂故事视觉化成为可能,不仅在角色与场景细节一致性上超越 IP-Adapter 等工具,还能精准匹配文本描述。

南开大学和字节跳动联合开发的StoryDiffusion模型是一种新的机器学习技术,主要用于生成具有长距离相关性的图像和视频。以下是该模型的一些主要特点:

1.一致性自注意力(Consistent Self-Attention):该模型通过一种新的自注意力计算方法,在生成图像时建立批内图像之间的联系,以保持人物的一致性。这种机制无需训练即可生成主题一致的图像,解决了在一系列生成的图像中保持内容一致性的挑战,尤其是对于包含复杂主题和细节的图像。

2.语义运动预测器(Semantic Motion Predictor):为了将这种方法扩展到长视频生成,StoryDiffusion引入了语义运动预测器,将图像编码到语义空间,并预测语义空间中的运动,以生成视频。这种基于语义空间的运动预测比仅基于潜在空间的预测更加稳定。

3.两阶段长视频生成方法:通过Consistent self-attention机制生成的图像可以顺利过渡为视频,实现两阶段长视频生成方法。结合这两个部分,可以生成常长且高质量的AIGC视频。

4.用户交互性:用户可以通过提供一系列用户输入的条件图像,使用Image-to-Video模型生成视频。此外,用户还可以通过Jupyter notebook或本地adio demo来生成漫画。

5.应用范围:StoryDiffusion的应用范围广泛,包括漫画生成、图像转视频等多种场景。

StoryDiffusion模型利用了一种称为StoryGAN的生成模型,该模型可以根据输入的故事情节和场景描述生成相关的图像和视频。这项技术有助于解决传统图像和视频生成技术中的局限性,使得生成的图像和视频更加自然和连贯。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8190

    浏览量

    131242
  • 字节跳动
    +关注

    关注

    0

    文章

    290

    浏览量

    8766
收藏 人收藏

    评论

    相关推荐

    安芯助力2024全国大学生物联网设计竞赛走进高校技术讲座

    自2024年4月22日山东大学起,5月7日山东商业职业技术学院,5月9日兰州交通大学,5月10日华东交通大学,5月17日贵州大学至5月22日南开大学
    的头像 发表于 05-31 11:15 276次阅读
    安芯助力2024全国<b class='flag-5'>大学</b>生物联网设计竞赛走进高校技术讲座

    南开大学携手华为发布“人工智能赋能人才培养行动计划”

    为进一步推动人工智能与教育的深度融合,促进教育变革创新,培养智能时代公能兼备的高层次创新型人才,南开大学依托自身优势,紧紧围绕立德树人根本任务,制定推出涵盖教育教学、技术设施、管理服务三个篇章的“人工智能赋能人才培养行动计划”(以下简称“行动计划”)。
    的头像 发表于 05-22 11:51 434次阅读
    <b class='flag-5'>南开大学</b>携手华为发布“人工智能赋能人才培养行动计划”

    火山引擎与南开大学深化合作签约,携手共建“AI+教育”新生态

    近日,在2024春季火山引擎FORCE原动力大会实体产业及教科研专场上,南开大学与火山引擎成功举办了深度合作签约仪式。此次合作标志着双方将携手共筑“AI+教育”的新篇章,共同推动教育行业数字化转型。
    的头像 发表于 05-20 11:16 368次阅读

    字节跳动豆包大模型全面开启对外服务

    近日,字节跳动在2024年春季火山引擎Force原动力大会上宣布,其自主研发的豆包大模型正式开启对外服务。这一大模型家族涵盖了多个细分领域,为用户提供了丰富的智能应用选择。
    的头像 发表于 05-16 09:29 218次阅读

    字节跳动发布豆包大模型

    在近日举行的火山引擎原动力大会上,字节跳动公司正式发布了其强大的豆包大模型。据火山引擎总裁谭待透露,这款大模型展现了惊人的数据处理能力,目前日均处理文本量高达1200亿Tokens,并
    的头像 发表于 05-15 11:26 470次阅读

    字节跳动发布AI角色互动应用“话炉”,涉足AI社交赛道

     值得注意的是,字节跳动CEO梁汝波在2024年度全体会议上指出,尽管字节跳动在2023年才初步涉足GPT领域,然而同期众多先进的大模型创业
    的头像 发表于 03-25 16:40 696次阅读

    南开大学OpenHarmony技术俱乐部揭牌成立

    3月7日,由OpenAtom OpenHarmony(以下简称“OpenHarmony”)项目群技术指导委员会与南开大学共同举办的“南开大学OpenHarmony技术俱乐部成立大会”在津南校区综合
    的头像 发表于 03-08 08:37 227次阅读
    <b class='flag-5'>南开大学</b>OpenHarmony技术俱乐部揭牌成立

    字节跳动被曝正秘密研发多个AI产品

    据多位知情人士透露,科技巨头字节跳动正在人工智能(AI)大模型领域秘密研发多个创新产品。其中,多模态数字人产品备受瞩目,该产品将结合先进的AI技术与虚拟形象,为用户提供全新的交互体验。此外,
    的头像 发表于 03-05 11:22 610次阅读

    【机器视觉】欢创播报 | 字节跳动被曝研发多个AI产品

    1 字节跳动被曝研发多个AI产品 2月28日,从多个知情人士处获悉,字节跳动正在AI大模型领域秘密研发多个产品,其中包括多模态数字人产品以及
    的头像 发表于 02-29 10:57 351次阅读
    【机器视觉】欢创播报 | <b class='flag-5'>字节</b><b class='flag-5'>跳动</b>被曝研发多个AI产品

    字节跳动辟谣推出中文版Sora 期待国产Sora大模型

    字节跳动辟谣推出中文版Sora 期待国产Sora大模型 “文成视频大模型”的热度持续火爆,大家都在期待国产的大模型面世。科技巨头
    的头像 发表于 02-21 17:29 574次阅读

    字节跳动澄清未推出中文版Sora

    近日,有传闻称字节跳动在Sora文生视频模型发布之前,已经推出了一款名为Boximator的颠覆性视频模型。传闻还指出,这款
    的头像 发表于 02-20 13:58 419次阅读

    字节跳动推出一款颠覆性视频模型—Boximator

    在 Sora 引爆文生视频赛道之前,国内的字节跳动也推出了一款颠覆性视频模型——Boximator。
    的头像 发表于 02-20 13:44 645次阅读
    <b class='flag-5'>字节</b><b class='flag-5'>跳动</b>推出<b class='flag-5'>一款</b>颠覆性视频<b class='flag-5'>模型</b>—Boximator

    字节跳动否认使用OpenAI技术开发大语言模型,并正与后者进行沟通 

    回顾过去,字节跳动早在 4月份就明文规定,严禁将 GPT 模型生成的数据添加到大模型的训练数据集中,并且指导工程师们在使用 GPT 时遵循服务条款。更值得关注是,9 月时,
    的头像 发表于 12-18 09:53 321次阅读

    字节跳动旗下PICO近半员工离职 但字节跳动表示会长期投入XR

    字节跳动也会长期投入XR(扩展现实)业务。 PICO成立于2015年3月,致力于“成为领先的世界级XR平台,成就开发者与创作者,共同为全球消费者创造更美好的生活体验”。于2021年9月并入
    的头像 发表于 10-24 17:38 1436次阅读

    模型颠覆研发模式:字节跳动是如何在单元测试中落地大模型的?

    在接受 InfoQ 采访时,字节跳动算法专家张树波表示,大语言模型是一项人工智能基础技术的突破,必然会带来多个行业的变革。2023 年初,字节跳动
    的头像 发表于 08-16 14:48 647次阅读