0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

生成式 AI 研究通过引导式图像结构控制为创作者赋能

NVIDIA英伟达 来源:未知 2023-07-24 19:30 次阅读

新的研究正在通过一个文本引导的图像编辑工具来提升生成式 AI 的创造性潜能。这项创新性的研究提出了一个使用即插即用扩散特征(PnP DFs)的框架,可引导实现逼真而精确的图像生成。通过这项研究,视觉内容创作者只需一张提示图片和几个描述性词语,就能将图像转化为视觉内容。

可靠轻松编辑并生成内容的能力有助于艺术家、设计师和创作者不断扩展创意的可能性。这也将为那些依赖动画、视觉设计和图像编辑的行业赋能。

这项研究的首席作者、魏兹曼科学研究院博士研究生 Narek Tumanyan 表示:“最新的文本到图像生成模型标志着数字内容创作进入了一个新时代。然而,将它们应用于现实世界的主要挑战在于缺乏用户可控性,这在很大程度上局限于‘仅通过输入文本来引导图像生成’。我们的工作是最早为用户提供图像布局控制权的方法之一。”

生成式 AI 的最新突破为开发强大的文本到图像模型提供了新方法。然而,复杂性、模糊性以及对定制内容的需求限制了当前渲染技术的发展。

这项研究引入了一种新方法,使用 PnP DFs 来改进图像编辑和生成过程,使创作者对最终产物有更大的控制权。

研究人员从一个简单的问题入手:扩散模型如何表现并捕捉图像的形状或轮廓?研究探索了图像在生成过程中不断演变的内部表征,并研究了这些表征如何对形状和语义信息进行编码。

这种新方法通过理解如何在预训练的文本到图像模型中编码空间信息来控制生成的图像布局,而无需训练新的扩散模型或对其进行微调。在生成过程中,模型从引导图像中提取扩散特征,并将其注入到整个过程中的每一个步骤,从而对新图像的结构进行精细控制。

通过融合这些空间特征,扩散模型可以完善新图像,使其与引导结构相匹配。它会反复进行此过程,更新图像特征,直到生成一张既保留引导图像布局、又与文本提示相匹配的最终图像。

作者写道:“这就产生了一种简单而有效的方法,即从引导图像中提取的特征直接注入到转化图像的生成过程中,无需进行训练或微调。”

这种方法为更先进的可控生成和操作方法铺平了道路。

视频. 在 2023 年国际计算机视觉与模式识别会议(CVPR)上展示的“文本驱动的图像到图像翻译的即插即用扩散特征”研究概述

研究人员使用 cuDNN 加速的 PyTorch 框架在单个 NVIDIA A100 GPU 上开发并测试了这个 PNP 模型。该团队表示,GPU 的大容量使他们能够专注于开发方法。作为 NVIDIA 应用研究加速器计划的参与者,这些研究人员获得了一块 A100 GPU。

该框架部署在 A100 上,能够在大约 50 秒内从引导图像和文本转换为一个新图像。

该过程不仅有高效,而且可靠,能准确地生成令人惊叹的图像。除图像外,它还适用于转化草图、绘图和动画,并能修改照明、色彩和背景。

图 1.该方法的示例结果,保留了引导折纸图像的结构,同时与目标提示的描述相匹配(来源:Tumanyan, Narek 等人/CVPR 2023)

他们的方法还优于现有的文本到图像模型,在保留引导布局和偏离其外观之间实现了卓越的平衡。

图 2.示例结果,将该模型与 P2P、DiffuseIT、SDedit 和 VQ+CLIP 模型进行三种不同噪声水平的比较(来源:Tumanyan, Narek 等人/CVPR 2023)

然而,该模型确实存在一些局限性。当编辑任意颜色的图像区域时,它的表现并不理想,因为该模型无法从输入图像中提取语义信息。

目前,研究人员正在致力于将这种方法扩展到文本引导的视频编辑中。同时,该研究还证明对于其他利用扩散模型分析图像内部表征的研究也具有重要价值。

例如,有一项研究正在利用该团队的研究成果来改进计算机视觉任务,例如语义点对应。另一项研究则专注于扩展文本到图像生成的控制,包括物体的形状、位置和外观。

这项研究已在 GitHub 上开源。

点击“阅读原文”,或扫描下方海报二维码,在 8 月 8日聆听NVIDIA 创始人兼 CEO 黄仁勋在 SIGGRAPH 现场发表的 NVIDIA 主题演讲,了解 NVIDIA 的新技术,包括屡获殊荣的研究,OpenUSD 开发,以及最新的 AI 内容创作解决方案。


原文标题:生成式 AI 研究通过引导式图像结构控制为创作者赋能

文章出处:【微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英伟达
    +关注

    关注

    22

    文章

    3775

    浏览量

    91034

原文标题:生成式 AI 研究通过引导式图像结构控制为创作者赋能

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    生成AI工具作用

    生成AI工具是指那些能够自动生成文本、图像、音频、视频等多种类型数据的人工智能技术。在此,petacloud.
    的头像 发表于 10-28 11:19 235次阅读

    商汤日日新大模型体系持续升级,为全行业创作者提供新质生产力

    AIGC带来的可能性不仅为创作者提供了广阔的创作空间,也带来了崭新的艺术形式和语言。
    的头像 发表于 09-26 10:18 450次阅读

    Freepik携手Magnific AI推出AI图像生成

    近日,设计资源巨头Freepik携手Magnific AI,共同推出了革命性的AI图像生成器——Freepik Mystic,这一里程碑
    的头像 发表于 08-30 16:23 1135次阅读

    索尼电影摄影机助力创作者实现影像梦想

    索尼一直致力于通过创新技术,忠实还原创作者的意图,凭借在广播电视及专业影像业务中深厚的技术积累,助力创作者实现影像梦想,用创意和科技的力量感动世界。
    的头像 发表于 08-16 10:54 692次阅读

    如何用C++创建简单的生成AI模型

    生成AI(Generative AI)是一种人工智能技术,它通过机器学习模型和深度学习技术,从大量历史数据中学习对象的特征和规律,从而能够
    的头像 发表于 07-05 17:53 858次阅读

    商汤发布《2024生成AI教育未来》白皮书

    生成AI正在各个行业中展现出巨大的应用前景。在关系国计民生的教育行业,生成AI能够催生哪些创
    的头像 发表于 06-29 09:48 841次阅读

    Runway发布Gen-3 Alpha视频生成模型

    专为电影和图像内容创作者提供生成AI工具的Runway公司近日宣布,其最新的Gen-3 Alpha视频
    的头像 发表于 06-19 09:25 577次阅读

    创作者变身知识智能体,AI时代的“超级个体”

    无Agent不创作:为什么知识智能体是创作者的人生杠杆?
    的头像 发表于 04-23 09:26 1339次阅读
    <b class='flag-5'>创作者</b>变身知识智能体,<b class='flag-5'>AI</b>时代的“超级个体”

    生成AI手机出货量或将飞速增长,市场份额提升显著

    同时,反转点还预期,至2027年,生成AI智慧型手机的市场保有量将超过10亿部。按照其定义,生成AI
    的头像 发表于 04-16 16:55 620次阅读

    京东十亿现金及十亿流量鼓励原创作者和优质内容机构入驻

    首先,针对涵盖数码3C、家电家居、母婴、宠物、时尚、运动、美妆个护、健康、车品等20余个创作领域的达人们,京东将给予现金补贴。达到招募标准的创作者,单个周期内单个账户最高可领取3万元现金创作补贴,且同时享受视频播放补贴和带货佣金
    的头像 发表于 04-10 14:19 486次阅读

    NVIDIA Edify多模态架构升级,引领视觉生成AI新纪元

    NVIDIA近日宣布,其用于视觉生成AI的多模态架构Edify迎来重大更新,为开发者和视觉内容提供商带来前所未有的新功能。其中,3D资产生成功能的引入,极大地提升了
    的头像 发表于 03-27 10:22 458次阅读

    微软收购Inflection AI,将其技术授给创作者

    Inflection AI 随后发表声明,称他们将在 Microsoft Azure 上部署 Inflection-2.5 工具套件,这将助力广大创作者使用这项技术。同时,他们也承诺在可预见的未来,将在其他各大云计算平台上推广其模型及服务。
    的头像 发表于 03-21 10:13 526次阅读

    亚马逊云科技助力沐瞳应用生成AI技术打造卓越游戏体验 业务决策

    北京 ——2024 年 2 月 21 日   亚马逊云科技宣布,上海沐瞳科技有限公司(以下简称“沐瞳”)应用亚马逊云科技Amazon Bedrock等生成AI服务,为玩家打造卓越的游戏体验并
    发表于 02-22 11:20 224次阅读
    亚马逊云科技助力沐瞳应用<b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b>技术打造卓越游戏体验 <b class='flag-5'>赋</b><b class='flag-5'>能</b>业务决策

    亚马逊云科技助力沐瞳应用生成AI技术打造卓越游戏体验 业务决策

    北京2024年2月21日 /美通社/ -- 亚马逊云科技宣布,上海沐瞳科技有限公司(以下简称"沐瞳")应用亚马逊云科技Amazon Bedrock等生成AI服务,为玩家打造卓越的游戏体验并
    的头像 发表于 02-22 09:25 419次阅读

    NVIDIA 在 CES 2024 上展示游戏、创作生成 AI 和机器人领域的创新成果

    席卷 CES,为游戏玩家和内容创作者带来各种性能强大的新工具。   在 CES 展会开始之前,NVIDIA 发表了一场重磅演讲,重点介绍了将为游戏和应用带来逼真角色的生成 AI 模型
    发表于 01-09 09:17 394次阅读
    NVIDIA 在 CES 2024 上展示游戏、<b class='flag-5'>创作</b>、<b class='flag-5'>生成</b><b class='flag-5'>式</b> <b class='flag-5'>AI</b> 和机器人领域的创新成果