0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

南开大学和字节跳动联合开发一款StoryDiffusion模型

冬至配饺子 来源:网络整理 作者:网络整理 2024-05-07 14:46 次阅读

近日,南开大学和字节跳动联合开发的 StoryDiffusion 模型解决了扩散模型生成连贯图像与视频的难题。其核心在于“一致自注意力”机制,强化图像间一致性,无需额外训练即可提升现有文本到图像模型的表现。加之“语义运动预测器”,利用语义空间预测图像序列间的流畅变换,尤其在长视频生成中展现了前所未有的稳定性与主体一致性。此框架使基于文本的复杂故事视觉化成为可能,不仅在角色与场景细节一致性上超越 IP-Adapter 等工具,还能精准匹配文本描述。

南开大学和字节跳动联合开发的StoryDiffusion模型是一种新的机器学习技术,主要用于生成具有长距离相关性的图像和视频。以下是该模型的一些主要特点:

1.一致性自注意力(Consistent Self-Attention):该模型通过一种新的自注意力计算方法,在生成图像时建立批内图像之间的联系,以保持人物的一致性。这种机制无需训练即可生成主题一致的图像,解决了在一系列生成的图像中保持内容一致性的挑战,尤其是对于包含复杂主题和细节的图像。

2.语义运动预测器(Semantic Motion Predictor):为了将这种方法扩展到长视频生成,StoryDiffusion引入了语义运动预测器,将图像编码到语义空间,并预测语义空间中的运动,以生成视频。这种基于语义空间的运动预测比仅基于潜在空间的预测更加稳定。

3.两阶段长视频生成方法:通过Consistent self-attention机制生成的图像可以顺利过渡为视频,实现两阶段长视频生成方法。结合这两个部分,可以生成常长且高质量的AIGC视频。

4.用户交互性:用户可以通过提供一系列用户输入的条件图像,使用Image-to-Video模型生成视频。此外,用户还可以通过Jupyter notebook或本地adio demo来生成漫画。

5.应用范围:StoryDiffusion的应用范围广泛,包括漫画生成、图像转视频等多种场景。

StoryDiffusion模型利用了一种称为StoryGAN的生成模型,该模型可以根据输入的故事情节和场景描述生成相关的图像和视频。这项技术有助于解决传统图像和视频生成技术中的局限性,使得生成的图像和视频更加自然和连贯。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8373

    浏览量

    132390
  • 字节跳动
    +关注

    关注

    0

    文章

    311

    浏览量

    8903
收藏 人收藏

    评论

    相关推荐

    字节跳动自研视频生成模型Seaweed开放

    近日,字节跳动旗下的AI内容平台即梦AI传来新消息,宣布自研的视频生成模型Seaweed即日起正式面向平台用户开放使用。这举措标志着字节
    的头像 发表于 11-11 14:31 178次阅读

    字节跳动计划在欧洲设立AI研发中心

    字节跳动正积极布局欧洲市场,计划在该地区设立AI研发中心。据知情人士透露,字节跳动已开始在欧洲寻找LLM(Large Language Model,大语言
    的头像 发表于 10-28 11:04 473次阅读

    字节跳动与清华AIR成立联合研究中心

    近日,清华大学智能产业研究院(AIR)与字节跳动共同宣布成立“可扩展大模型智能技术联合研究中心”(SIA Lab),并在清华
    的头像 发表于 10-12 15:24 327次阅读

    TINA-TI 9与TINA8对同个电路图仿真结果不同是怎么回事?

    TINA-TI-9中的电路图及AC仿真结果如下: TINA-8中的电路图及仿真结果如下: 电路图源自《模拟电路基础》P419页码, PID放大器 ,作者:秦世才、贾香鸾;南开大学出版社。
    发表于 09-25 06:03

    字节跳动发布豆包MarsCo智能开发工具

    在数字时代的浪潮中,编程已成为推动科技进步和创新的核心动力。为了助力国内开发者更高效、智能地进行编程工作,字节跳动公司近日发布了全新的智能开发工具——豆包 MarsCode。这款工具基
    的头像 发表于 07-01 15:03 641次阅读

    字节跳动携手博通开发5nm AI处理器,保障高端芯片供应

    在科技领域,芯片作为“现代工业的粮食”,其重要性不言而喻。近日,据路透社报道,全球知名的互联网公司字节跳动正在与美国芯片巨头博通公司合作,共同开发一款5纳米制程的AI处理器。这
    的头像 发表于 06-24 16:16 890次阅读

    南开大学携手华为发布“人工智能赋能人才培养行动计划”

    为进步推动人工智能与教育的深度融合,促进教育变革创新,培养智能时代公能兼备的高层次创新型人才,南开大学依托自身优势,紧紧围绕立德树人根本任务,制定推出涵盖教育教学、技术设施、管理服务三个篇章的“人工智能赋能人才培养行动计划”(以下简称“行动计划”)。
    的头像 发表于 05-22 11:51 618次阅读
    <b class='flag-5'>南开大学</b>携手华为发布“人工智能赋能人才培养行动计划”

    火山引擎与南开大学深化合作签约,携手共建“AI+教育”新生态

    近日,在2024春季火山引擎FORCE原动力大会实体产业及教科研专场上,南开大学与火山引擎成功举办了深度合作签约仪式。此次合作标志着双方将携手共筑“AI+教育”的新篇章,共同推动教育行业数字化转型。
    的头像 发表于 05-20 11:16 572次阅读

    字节跳动发布豆包大模型

    在近日举行的火山引擎原动力大会上,字节跳动公司正式发布了其强大的豆包大模型。据火山引擎总裁谭待透露,这款大模型展现了惊人的数据处理能力,目前日均处理文本量高达1200亿Tokens,并
    的头像 发表于 05-15 11:26 700次阅读

    南开大学OpenHarmony技术俱乐部揭牌成立

    3月7日,由OpenAtom OpenHarmony(以下简称“OpenHarmony”)项目群技术指导委员会与南开大学共同举办的“南开大学OpenHarmony技术俱乐部成立大会”在津南校区综合
    的头像 发表于 03-08 08:37 369次阅读
    <b class='flag-5'>南开大学</b>OpenHarmony技术俱乐部揭牌成立

    字节跳动辟谣推出中文版Sora 期待国产Sora大模型

    字节跳动辟谣推出中文版Sora 期待国产Sora大模型 “文成视频大模型”的热度持续火爆,大家都在期待国产的大模型面世。科技巨头
    的头像 发表于 02-21 17:29 825次阅读

    字节跳动澄清未推出中文版Sora

    近日,有传闻称字节跳动在Sora文生视频模型发布之前,已经推出了一款名为Boximator的颠覆性视频模型。传闻还指出,这款
    的头像 发表于 02-20 13:58 638次阅读

    字节跳动推出一款颠覆性视频模型—Boximator

    在 Sora 引爆文生视频赛道之前,国内的字节跳动也推出了一款颠覆性视频模型——Boximator。
    的头像 发表于 02-20 13:44 1040次阅读
    <b class='flag-5'>字节</b><b class='flag-5'>跳动</b>推出<b class='flag-5'>一款</b>颠覆性视频<b class='flag-5'>模型</b>—Boximator

    字节跳动否认借助OpenAI技术研发大模型,已删除GPT生成数据

    据悉,有媒体曝光,字节跳动可能涉足未公开地使用OpenAI技术来开发自家的大规模语言模型,这与OpenAI的服务条款相悖。因此,该公司的账户现已经被OpenAI暂时禁用。
    的头像 发表于 12-18 10:39 499次阅读

    字节跳动否认使用OpenAI技术开发大语言模型,并正与后者进行沟通 

    回顾过去,字节跳动早在 4月份就明文规定,严禁将 GPT 模型生成的数据添加到大模型的训练数据集中,并且指导工程师们在使用 GPT 时遵循服务条款。更值得关注是,9 月时,
    的头像 发表于 12-18 09:53 527次阅读