生成式 AI 研究通过引导式图像结构控制为创作者赋能-电子发烧友网

新的研究正在通过一个文本引导的图像编辑工具来提升生成式 AI 的创造性潜能。这项创新性的研究提出了一个使用即插即用扩散特征（PnP DFs）的框架，可引导实现逼真而精确的图像生成。通过这项研究，视觉内容创作者只需一张提示图片和几个描述性词语，就能将图像转化为视觉内容。

可靠轻松编辑并生成内容的能力有助于艺术家、设计师和创作者不断扩展创意的可能性。这也将为那些依赖动画、视觉设计和图像编辑的行业赋能。

这项研究的首席作者、魏兹曼科学研究院博士研究生 Narek Tumanyan 表示：“最新的文本到图像生成模型标志着数字内容创作进入了一个新时代。然而，将它们应用于现实世界的主要挑战在于缺乏用户可控性，这在很大程度上局限于‘仅通过输入文本来引导图像生成’。我们的工作是最早为用户提供图像布局控制权的方法之一。”

生成式 AI 的最新突破为开发强大的文本到图像模型提供了新方法。然而，复杂性、模糊性以及对定制内容的需求限制了当前渲染技术的发展。

这项研究引入了一种新方法，使用 PnP DFs 来改进图像编辑和生成过程，使创作者对最终产物有更大的控制权。

研究人员从一个简单的问题入手：扩散模型如何表现并捕捉图像的形状或轮廓？研究探索了图像在生成过程中不断演变的内部表征，并研究了这些表征如何对形状和语义信息进行编码。

这种新方法通过理解如何在预训练的文本到图像模型中编码空间信息来控制生成的图像布局，而无需训练新的扩散模型或对其进行微调。在生成过程中，模型从引导图像中提取扩散特征，并将其注入到整个过程中的每一个步骤，从而对新图像的结构进行精细控制。

通过融合这些空间特征，扩散模型可以完善新图像，使其与引导结构相匹配。它会反复进行此过程，更新图像特征，直到生成一张既保留引导图像布局、又与文本提示相匹配的最终图像。

作者写道：“这就产生了一种简单而有效的方法，即从引导图像中提取的特征直接注入到转化图像的生成过程中，无需进行训练或微调。”

这种方法为更先进的可控生成和操作方法铺平了道路。

视频. 在 2023 年国际计算机视觉与模式识别会议（CVPR）上展示的“文本驱动的图像到图像翻译的即插即用扩散特征”研究概述

研究人员使用 cuDNN 加速的 PyTorch 框架在单个 NVIDIA A100 GPU 上开发并测试了这个 PNP 模型。该团队表示，GPU 的大容量使他们能够专注于开发方法。作为 NVIDIA 应用研究加速器计划的参与者，这些研究人员获得了一块 A100 GPU。

该框架部署在 A100 上，能够在大约 50 秒内从引导图像和文本转换为一个新图像。

该过程不仅有高效，而且可靠，能准确地生成令人惊叹的图像。除图像外，它还适用于转化草图、绘图和动画，并能修改照明、色彩和背景。

图 1.该方法的示例结果，保留了引导折纸图像的结构，同时与目标提示的描述相匹配（来源：Tumanyan, Narek 等人/CVPR 2023）

他们的方法还优于现有的文本到图像模型，在保留引导布局和偏离其外观之间实现了卓越的平衡。

图 2.示例结果，将该模型与 P2P、DiffuseIT、SDedit 和 VQ+CLIP 模型进行三种不同噪声水平的比较（来源：Tumanyan, Narek 等人/CVPR 2023）

然而，该模型确实存在一些局限性。当编辑任意颜色的图像区域时，它的表现并不理想，因为该模型无法从输入图像中提取语义信息。

目前，研究人员正在致力于将这种方法扩展到文本引导的视频编辑中。同时，该研究还证明对于其他利用扩散模型分析图像内部表征的研究也具有重要价值。

例如，有一项研究正在利用该团队的研究成果来改进计算机视觉任务，例如语义点对应。另一项研究则专注于扩展文本到图像生成的控制，包括物体的形状、位置和外观。

这项研究已在 GitHub 上开源。

点击“阅读原文”，或扫描下方海报二维码，在 8 月 8日聆听NVIDIA 创始人兼 CEO 黄仁勋在 SIGGRAPH 现场发表的 NVIDIA 主题演讲，了解 NVIDIA 的新技术，包括屡获殊荣的研究，OpenUSD 开发，以及最新的 AI 内容创作解决方案。

原文标题：生成式 AI 研究通过引导式图像结构控制为创作者赋能

文章出处：【微信公众号：NVIDIA英伟达】欢迎添加关注！文章转载请注明出处。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

英伟达

英伟达

+关注

关注
22

文章
3872

浏览量
92403

原文标题：生成式 AI 研究通过引导式图像结构控制为创作者赋能

文章出处：【微信号：NVIDIA_China，微信公众号：NVIDIA英伟达】欢迎添加关注！文章转载请注明出处。

生成式AI工具作用

生成式AI工具是指那些能够自动生成文本、图像、音频、视频等多种类型数据的人工智能技术。在此，petacloud.

发表于 10-28 11:19 •392次阅读

商汤日日新大模型体系持续升级，为全行业创作者提供新质生产力

AIGC带来的可能性不仅为创作者提供了广阔的创作空间，也带来了崭新的艺术形式和语言。

发表于 09-26 10:18 •544次阅读

Freepik携手Magnific AI推出AI图像生成器

近日，设计资源巨头Freepik携手Magnific AI，共同推出了革命性的AI图像生成器——Freepik Mystic，这一里程碑式的

发表于 08-30 16:23 •1266次阅读

索尼电影摄影机助力创作者实现影像梦想

索尼一直致力于通过创新技术，忠实还原创作者的意图，凭借在广播电视及专业影像业务中深厚的技术积累，助力创作者实现影像梦想，用创意和科技的力量感动世界。

发表于 08-16 10:54 •784次阅读

如何用C++创建简单的生成式AI模型

生成式AI（Generative AI）是一种人工智能技术，它通过机器学习模型和深度学习技术，从大量历史数据中学习对象的特征和规律，从而能够

发表于 07-05 17:53 •1222次阅读

生成式AI的基本原理和应用领域

生成式人工智能（Generative Artificial Intelligence，简称Generative AI）是一种利用机器学习算法和深度学习技术，通过模拟人类的创造性思维过程

发表于 07-04 11:50 •2192次阅读

商汤发布《2024生成式AI赋能教育未来》白皮书

生成式AI正在各个行业中展现出巨大的应用前景。在关系国计民生的教育行业，生成式AI能够催生哪些创

发表于 06-29 09:48 •1016次阅读

Runway发布Gen-3 Alpha视频生成模型

专为电影和图像内容创作者提供生成式AI工具的Runway公司近日宣布，其最新的Gen-3 Alpha视频

发表于 06-19 09:25 •658次阅读

原来这才是【生成式AI】！！

人工智能按照用途进行简单分类的话，AI其实要被划分为两类：决策式AI和生成式AI。决策

发表于 06-05 08:04 •290次阅读

创作者变身知识智能体，AI时代的“超级个体”

无Agent不创作：为什么知识智能体是创作者的人生杠杆？

发表于 04-23 09:26 •1557次阅读

生成式AI手机出货量或将飞速增长，市场份额提升显著

同时，反转点还预期，至2027年，生成式AI智慧型手机的市场保有量将超过10亿部。按照其定义，生成式AI

发表于 04-16 16:55 •719次阅读

京东十亿现金及十亿流量鼓励原创作者和优质内容机构入驻

首先，针对涵盖数码3C、家电家居、母婴、宠物、时尚、运动、美妆个护、健康、车品等20余个创作领域的达人们，京东将给予现金补贴。达到招募标准的创作者，单个周期内单个账户最高可领取3万元现金创作补贴，且同时享受视频播放补贴和带货佣金

发表于 04-10 14:19 •574次阅读

NVIDIA Edify多模态架构升级，引领视觉生成式AI新纪元

NVIDIA近日宣布，其用于视觉生成式AI的多模态架构Edify迎来重大更新，为开发者和视觉内容提供商带来前所未有的新功能。其中，3D资产生成功能的引入，极大地提升了

发表于 03-27 10:22 •551次阅读

微软收购Inflection AI，将其技术授给创作者

Inflection AI 随后发表声明，称他们将在 Microsoft Azure 上部署 Inflection-2.5 工具套件，这将助力广大创作者使用这项技术。同时，他们也承诺在可预见的未来，将在其他各大云计算平台上推广其模型及服务。

发表于 03-21 10:13 •615次阅读

NPU是什么？为何它是开启终端侧生成式AI的关键？

)，同时要利用异构处理器组合，比如中央处理器(CPU)和图形处理器(GPU)。通过结合NPU使用合适的处理器，异构计算能够实现最佳应用性能、能效和电池续航，赋能全新增强的

发表于 03-07 11:25 •2200次阅读

搜索历史

生成式 AI 研究通过引导式图像结构控制为创作者赋能

评论

生成式AI工具作用

商汤日日新大模型体系持续升级，为全行业创作者提供新质生产力

Freepik携手Magnific AI推出AI图像生成器

索尼电影摄影机助力创作者实现影像梦想

如何用C++创建简单的生成式AI模型

生成式AI的基本原理和应用领域

商汤发布《2024生成式AI赋能教育未来》白皮书

Runway发布Gen-3 Alpha视频生成模型

原来这才是【生成式AI】！！

创作者变身知识智能体，AI时代的“超级个体”

生成式AI手机出货量或将飞速增长，市场份额提升显著

京东十亿现金及十亿流量鼓励原创作者和优质内容机构入驻

NVIDIA Edify多模态架构升级，引领视觉生成式AI新纪元

微软收购Inflection AI，将其技术授给创作者

NPU是什么？为何它是开启终端侧生成式AI的关键？