AIGC可编辑的图像生成方案-电子发烧友网

ControlNet给出的实验结果实在是过于惊艳了，近期视觉领域最让人兴奋的工作。可编辑图像生成领域异常火热，看了一些相关文章，选出几篇感兴趣的文章记录一下。

从CLIP模型开始，OpenAI走通了大规模图文对预训练模型的技术路径，这代表着文字域和图片域是可以很好的对齐；紧随其后，OpenAI在CLIP的技术基础上，发布了DALLE文字生成图片的模型，生成图片的质量远超之前的模型，这主要得益于大规模图文对预训练的CLIP模型；

与此同时，Diffusion Models的图像生成方法的图像生成质量也超越了以往的GAN、VAE等模型，并且随着算法的精进，推理速度不断加快，预示着Diffusion Models即将全面替代GAN、VAE等生成模型；果不其然，OpenAI将DALLE模型和Diffusion Models结合发布了DALLE2模型，生成图片的质量进一步提高。

在DALLE2这个阶段，虽然图像生成质量相比以往有了质变，但是图像生成的过程是不可控，这导致各种绘画设计行业无法在工作中使用，况且DALLE2还没有开源。随着Stable Diffusion模型的发布和开源，可编辑图像生成领域变得空前火热，出现了各种各样DIY的产物，Stable Diffusion模型算是一个关键的时间节点。

而在2023年2月份大概1周之内同时涌现出了ControlNet、T2I-Adapter和Composer三个基于Stable Diffusion的可编辑图像生成模型，其中ControlNet再一次带热了AI绘画设计。

下面主要介绍一下Stable Diffusion、ControlNet、T2I-Adapter和Composer四篇文章，最后谈谈图像结构化和图像生成之间的关系。

Stable Diffusion

Stable Diffusion模型在Diffusion Models(DM)的基础上，增加了conditioning机制。

通过conditioning机制，可以将semantic map、text、representations和images等信息传递到DM模型中，通过cross-attention机制进行信息的融合，通过多个step进行扩散生成图片。

如上面两个结果图所示，Stable Diffusion可以通过版面结构图或者语义分割图来控制图像的生成。

ControlNet

ControlNet在Stable Diffusion(SD)的基础上，锁住SD的参数，并且增加了一个可学习的分支，该分支的开头和结尾都增加zero convolution(初始化参数为0)，保证训练的稳定性，并且Condition的特征会叠加回SD的Decoder特征上，进而达到控制图像生成的目的。

相比于SD模型，ControlNet有两点区别：

ControlNet相比于SD，丰富了Condition的种类，总共9大类，包括Canny Edge、Canny Edge(Alter)、Hough Line、HED Boundary、User Sketching、Human Pose(Openpifpaf)、Human Pose(Openpose)、Semantic Segmentation(COCO)、Semantic Segmentation(ADE20K)、Depth(large-scale)、Depth(small-scale)、Normal Maps、Normal Maps(extended)和Cartoon Line Drawing。

ControlNet不需要重新训练SD模型，这极大的降低了可编辑图像生成领域的门槛，减少二次开发的成本。

从上图可以看到，ControlNet可以先提取出动物的Canny edge，然后再在Canny edge的基础上渲染出不同风格环境色彩的动物图片，amazing！

上图是一些ControlNet图像生成的例子，更多的例子可以阅读原文。

T2I-Adapter

T2I-Adapter跟ControlNet非常类似，主要不同有以下几点区别：

T2I-Adapter可以同时组合输入多种类型的Condition

T2I-Adapter是从SD的Encoder部分传入Condition的

可以看到T2I-Adapter生成的图像有着类似ControlNe的可编辑效果。

Composer

Composer跟ControlNet和T2I-Adapter的思路也是类似的，但是Composer提出了一个有意思的点，就是可编辑图像生成其实就是对图像各种元素的组合，Composer先用各种不同的模型将各种不同的图片分解成各种元素，然后将不同图片的元素进行重组。比如上图的戴珍珠耳环的少女，可以分解成shape、semantics、sketch、masking、style、content、intensity、palette、文字等等元素，然后跟其他不同图片的元素进行想要的重组。

Composer将各种元素区分成两类，一类是Global Conditions，另一类是Localized Conditions。其中Global Conditions包括sentence embeddings, image embeddings, and color histograms，并且需要添加到Timestep中；Localized Conditions包括segmentation maps, depthmaps, sketches, grayscale images, and masked images，并且需要添加到Noisy Image中。

上面图像生成的结果，充分表现出了Composer模型可编辑的多样性和丰富性。

图像结构化和图像生成

我在这里将图像检测、图像分割、深度估计等任务统称为图像结构化。从某种意义上来说，图像结构化其实可以认为是一种特殊的图像生成，只不过生成的图片是某个单一维度的特征，比如是深度图、mask图、关键点图等等。ControlNet和Composer某种意义上就是将结构化图片通过文字控制来丰富细节进而生成想要的图片；而图像结构化其实就是把维度复杂、细节丰富的图片生成维度单一、细节简单的结构化图片。

图像结构化和图像生成其实也就是对应着Composer文章里面提到的分解和合成两个过程。我对于可编辑图像生成领域未来的想法是，尽可能准确丰富的提取图像中各个维度的结构化信息(包括文字信息)，然后通过Stable Diffusion模型组合融入想要的结构化信息，进而达到完全自主可控的图像生成。

总结

可编辑的图像生成其实蕴含着人机交互的思想，人的意志通过输入的文字提示和图片提示传递给模型，而模型(或者说是机器)生成的图片恰好反映出了人的思想。可编辑图像生成会改变绘画设计等领域的创作模式(比如公仔服装周边等等，可以无限压缩设计绘画的时间)，进而孕育出新的更有活力的创业公司，互联网行业可能会迎来第二增长曲线。

审核编辑：刘清

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

Clip

Clip

+关注

关注
0

文章
32

浏览量
6792
GaN器件

GaN器件

+关注

关注
1

文章
43

浏览量
7965
OpenAI

OpenAI

+关注

关注
9

文章
1184

浏览量
6915
AIGC

AIGC

+关注

关注
1

文章
372

浏览量
1737

原文标题：AIGC—可编辑的图像生成

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

基于扩散模型的图像生成过程

近年来，扩散模型在文本到图像生成方面取得了巨大的成功，实现了更高图像生成质量，提高了推理性能，也可以激发扩展创作灵感。不过仅凭文本来控制图像

发表于 07-17 11:00 •3017次阅读

AIGC入门及鸿蒙入门

Generated Content，即人工智能生成内容。它利用人工智能技术自动生成或辅助生成文本、图像、音频、视频等内容。 AIGC的核心

发表于 01-13 10:32

#新年新气象，大家新年快乐！#AIGC入门及鸿蒙入门

Generated Content，即人工智能生成内容。它利用人工智能技术自动生成或辅助生成文本、图像、音频、视频等内容。 AIGC的核心

发表于 01-13 10:46

RTthread移植代码自动生成方案

RTthread再学习记录前言一、RTthread移植代码自动生成方案二、使用CUBEMX在STM32F4上移植RTT1.官方提供的教程2.解决RTT移植的一些细节问题总结提示：文章写完后，目录可以

发表于 02-11 06:29

一种全新的遥感图像描述生成方法

遥感图像描述生成是同时涉及计算机视觉和自然语言处理领域的热门研究话题，其主要工作是对于给定的图像自动地生成一个对该图像的描述语句。文中提岀了

发表于 04-20 11:21 •2次下载

基于模板、检索和深度学习的图像描述生成方法

描述技术的发展历程为主线，对图像描述任务的方法、评价指标和常用数据集进行了详细的综述。针对图像描述任务的技术方法，总结了基于模板、检索和深度学习的图像描述生成方法，重点介绍了基于深度学

发表于 04-23 14:07 •12次下载

GAN图像对抗样本生成方法研究综述

为了提高生成对抗网络模型对抗样本的多样性和攻击成功率，提出了一种GAN图像对抗样本生成方法。首先，利用原始样本集整体训练一个深度卷积对抗生成网络G1，模拟原始样本集分布;其次，在黑盒攻

发表于 04-28 16:39 •72次下载

基于图像驱动的三维人脸自动生成与编辑算法

基于图像驱动的三维人脸自动生成与编辑算法

发表于 06-25 17:09 •27次下载

AIGC最新综述：从GAN到ChatGPT的AI生成历史

本调查全面回顾了生成模型的历史、基本组件、AIGC 从单模态交互和多模态交互的最新进展。我们从单峰性的角度介绍了文本和图像的生成任务和相关模型。我们从多模态的角度来介绍上述模态之间的交

发表于 03-13 10:13 •2956次阅读

伯克利AI实验室开源图像编辑模型InstructPix2Pix，简化生成图像编辑并提供一致结果

之前的 AI 图像编辑能力通常是进行风格转换，流行的文本到图像生成模型（如 DALL-E 和 Stable Diffusion）也支持图像到图像

发表于 08-28 15:45 •968次阅读

微软AI新成果：将不可编辑PDF转化为可编辑文档

市面现有相关软件虽能将PDF转为可编辑版，但易丧失原始布局。微软研究论文名为《从不可编辑文档生成可编辑文档的方法和系统》，其独特之处在于运用AI技术保持了字体、色彩、布局及

发表于 05-30 10:11 •919次阅读

AIGC与传统内容生成的区别

AIGC ：主要面向非结构化数据的生成，如自然语言文本、图像、音频、视频等。这类数据规模更大，内在结构更复杂，对处理技术提出了更高要求。传统内容生成：主要处理结构化数据，如

发表于 10-25 15:13 •725次阅读

AIGC生成内容的优势与挑战

人工智能生成内容（AIGC，Artificial Intelligence Generated Content）是指利用人工智能技术自动生成文本、图像、音频和视频等内容的过程。随着深度

发表于 10-25 15:36 •969次阅读

AIGC是什么及其应用 AIGC的定义和工作原理

AIGC的定义 AIGC是一种新兴的技术领域，它结合了机器学习、自然语言处理（NLP）、计算机视觉和音频处理等多个子领域。AIGC的目标是使计算机能够理解、生成和

发表于 11-22 16:00 •2378次阅读

AIGC与传统内容生成的区别 AIGC的优势和挑战

、AIGC与传统内容生成的区别数据类型与处理： AIGC主要面向非结构化数据的生成，如自然语言文本、图像、音频、视频等。这类数据规模更大

发表于 11-22 16:04 •658次阅读