0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AIGC可编辑的图像生成方案

深度学习自然语言处理 来源:Smarter 2023-03-03 09:25 次阅读

ControlNet给出的实验结果实在是过于惊艳了,近期视觉领域最让人兴奋的工作。可编辑图像生成领域异常火热,看了一些相关文章,选出几篇感兴趣的文章记录一下。

9740c672-b91e-11ed-bfe3-dac502259ad0.png

从CLIP模型开始,OpenAI走通了大规模图文对预训练模型的技术路径,这代表着文字域和图片域是可以很好的对齐;紧随其后,OpenAI在CLIP的技术基础上,发布了DALLE文字生成图片的模型,生成图片的质量远超之前的模型,这主要得益于大规模图文对预训练的CLIP模型;

与此同时,Diffusion Models的图像生成方法的图像生成质量也超越了以往的GAN、VAE等模型,并且随着算法的精进,推理速度不断加快,预示着Diffusion Models即将全面替代GAN、VAE等生成模型;果不其然,OpenAI将DALLE模型和Diffusion Models结合发布了DALLE2模型,生成图片的质量进一步提高。

在DALLE2这个阶段,虽然图像生成质量相比以往有了质变,但是图像生成的过程是不可控,这导致各种绘画设计行业无法在工作中使用,况且DALLE2还没有开源。随着Stable Diffusion模型的发布和开源,可编辑图像生成领域变得空前火热,出现了各种各样DIY的产物,Stable Diffusion模型算是一个关键的时间节点。

而在2023年2月份大概1周之内同时涌现出了ControlNet、T2I-Adapter和Composer三个基于Stable Diffusion的可编辑图像生成模型,其中ControlNet再一次带热了AI绘画设计。

下面主要介绍一下Stable Diffusion、ControlNet、T2I-Adapter和Composer四篇文章,最后谈谈图像结构化和图像生成之间的关系。

Stable Diffusion

975d2344-b91e-11ed-bfe3-dac502259ad0.png

Stable Diffusion模型在Diffusion Models(DM)的基础上,增加了conditioning机制。

通过conditioning机制,可以将semantic map、text、representations和images等信息传递到DM模型中,通过cross-attention机制进行信息的融合,通过多个step进行扩散生成图片。

978088fc-b91e-11ed-bfe3-dac502259ad0.png

981dbdac-b91e-11ed-bfe3-dac502259ad0.png

如上面两个结果图所示,Stable Diffusion可以通过版面结构图或者语义分割图来控制图像的生成。

ControlNet

985ae10a-b91e-11ed-bfe3-dac502259ad0.png

ControlNet在Stable Diffusion(SD)的基础上,锁住SD的参数,并且增加了一个可学习的分支,该分支的开头和结尾都增加zero convolution(初始化参数为0),保证训练的稳定性,并且Condition的特征会叠加回SD的Decoder特征上,进而达到控制图像生成的目的。

相比于SD模型,ControlNet有两点区别:

ControlNet相比于SD,丰富了Condition的种类,总共9大类,包括Canny Edge、Canny Edge(Alter)、Hough Line、HED Boundary、User Sketching、Human Pose(Openpifpaf)、Human Pose(Openpose)、Semantic Segmentation(COCO)、Semantic Segmentation(ADE20K)、Depth(large-scale)、Depth(small-scale)、Normal Maps、Normal Maps(extended)和Cartoon Line Drawing。

ControlNet不需要重新训练SD模型,这极大的降低了可编辑图像生成领域的门槛,减少二次开发的成本。

9885a78c-b91e-11ed-bfe3-dac502259ad0.png

从上图可以看到,ControlNet可以先提取出动物的Canny edge,然后再在Canny edge的基础上渲染出不同风格环境色彩的动物图片,amazing!

98a90326-b91e-11ed-bfe3-dac502259ad0.png

98cfac56-b91e-11ed-bfe3-dac502259ad0.png

990130f0-b91e-11ed-bfe3-dac502259ad0.png

9928ce3a-b91e-11ed-bfe3-dac502259ad0.png

9956bc96-b91e-11ed-bfe3-dac502259ad0.png

上图是一些ControlNet图像生成的例子,更多的例子可以阅读原文。

T2I-Adapter

9973ea00-b91e-11ed-bfe3-dac502259ad0.png

T2I-Adapter跟ControlNet非常类似,主要不同有以下几点区别:

T2I-Adapter可以同时组合输入多种类型的Condition

T2I-Adapter是从SD的Encoder部分传入Condition的

9988388e-b91e-11ed-bfe3-dac502259ad0.png

可以看到T2I-Adapter生成的图像有着类似ControlNe的可编辑效果。

Composer

9a4ee7f4-b91e-11ed-bfe3-dac502259ad0.png

Composer跟ControlNet和T2I-Adapter的思路也是类似的,但是Composer提出了一个有意思的点,就是可编辑图像生成其实就是对图像各种元素的组合,Composer先用各种不同的模型将各种不同的图片分解成各种元素,然后将不同图片的元素进行重组。比如上图的戴珍珠耳环的少女,可以分解成shape、semantics、sketch、masking、style、content、intensity、palette、文字等等元素,然后跟其他不同图片的元素进行想要的重组。

9a75adee-b91e-11ed-bfe3-dac502259ad0.png

Composer将各种元素区分成两类,一类是Global Conditions,另一类是Localized Conditions。其中Global Conditions包括sentence embeddings, image embeddings, and color histograms,并且需要添加到Timestep中;Localized Conditions包括segmentation maps, depthmaps, sketches, grayscale images, and masked images,并且需要添加到Noisy Image中。

9a909b4a-b91e-11ed-bfe3-dac502259ad0.png

9b23f462-b91e-11ed-bfe3-dac502259ad0.png

上面图像生成的结果,充分表现出了Composer模型可编辑的多样性和丰富性。

图像结构化和图像生成

我在这里将图像检测、图像分割、深度估计等任务统称为图像结构化。从某种意义上来说,图像结构化其实可以认为是一种特殊的图像生成,只不过生成的图片是某个单一维度的特征,比如是深度图、mask图、关键点图等等。ControlNet和Composer某种意义上就是将结构化图片通过文字控制来丰富细节进而生成想要的图片;而图像结构化其实就是把维度复杂、细节丰富的图片生成维度单一、细节简单的结构化图片。

图像结构化和图像生成其实也就是对应着Composer文章里面提到的分解和合成两个过程。我对于可编辑图像生成领域未来的想法是,尽可能准确丰富的提取图像中各个维度的结构化信息(包括文字信息),然后通过Stable Diffusion模型组合融入想要的结构化信息,进而达到完全自主可控的图像生成。

总结

可编辑的图像生成其实蕴含着人机交互的思想,人的意志通过输入的文字提示和图片提示传递给模型,而模型(或者说是机器)生成的图片恰好反映出了人的思想。可编辑图像生成会改变绘画设计等领域的创作模式(比如公仔服装周边等等,可以无限压缩设计绘画的时间),进而孕育出新的更有活力的创业公司,互联网行业可能会迎来第二增长曲线。






审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Clip
    +关注

    关注

    0

    文章

    30

    浏览量

    6623
  • GaN器件
    +关注

    关注

    1

    文章

    35

    浏览量

    7858
  • OpenAI
    +关注

    关注

    9

    文章

    999

    浏览量

    6308
  • AIGC
    +关注

    关注

    1

    文章

    335

    浏览量

    1393

原文标题:AIGC—可编辑的图像生成

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    基于扩散模型的图像生成过程

    近年来,扩散模型在文本到图像生成方面取得了巨大的成功,实现了更高图像生成质量,提高了推理性能,也可以激发扩展创作灵感。 不过仅凭文本来控制图像
    的头像 发表于 07-17 11:00 2505次阅读
    基于扩散模型的<b class='flag-5'>图像</b><b class='flag-5'>生成</b>过程

    请问如何生成方波?

    我是VHDL编程和FPGA的新手。我的任务是使用xilinx FPGA顶点4来生成方波。问题是我将不得不以模拟格式生成方波。我知道以数字形式生成数字方波。但我必须将数字波转换为模拟形式并驱动电机
    发表于 06-01 16:58

    四种主要的负电源轨生成方案如何选择

    四种主要的负电源轨生成方案如何选择
    发表于 03-11 06:00

    RTthread移植代码自动生成方案

    RTthread再学习记录前言一、RTthread移植代码自动生成方案二、使用CUBEMX在STM32F4上移植RTT1.官方提供的教程2.解决RTT移植的一些细节问题总结提示:文章写完后,目录可以
    发表于 02-11 06:29

    一种全新的遥感图像描述生成方

    遥感图像描述生成是同时涉及计算机视觉和自然语言处理领域的热门研究话题,其主要工作是对于给定的图像自动地生成一个对该图像的描述语句。文中提岀了
    发表于 04-20 11:21 2次下载
    一种全新的遥感<b class='flag-5'>图像</b>描述<b class='flag-5'>生成方</b>法

    基于模板、检索和深度学习的图像描述生成方

    描述技术的发展历程为主线,对图像描述任务的方法、评价指标和常用数据集进行了详细的综述。针对图像描述任务的技术方法,总结了基于模板、检索和深度学习的图像描述生成方法,重点介绍了基于深度学
    发表于 04-23 14:07 12次下载
    基于模板、检索和深度学习的<b class='flag-5'>图像</b>描述<b class='flag-5'>生成方</b>法

    GAN图像对抗样本生成方法研究综述

    为了提高生成对抗网络模型对抗样本的多样性和攻击成功率,提出了一种GAN图像对抗样本生成方法。首先,利用原始样本集整体训练一个深度卷积对抗生成网络G1,模拟原始样本集分布;其次,在黑盒攻
    发表于 04-28 16:39 72次下载
    GAN<b class='flag-5'>图像</b>对抗样本<b class='flag-5'>生成方</b>法研究综述

    基于卷积神经网络的图像描述生成方

    short-term memory,LSTM)的组合框架在生成图像描述方面解决了梯度消失和梯度爆炸问題,但是基于LSTM的模型依赖序列化的生成描述,无法在训练时并行处理,且容易在生成
    发表于 06-03 14:45 41次下载

    基于图像驱动的三维人脸自动生成编辑算法

    基于图像驱动的三维人脸自动生成编辑算法
    发表于 06-25 17:09 27次下载

    AIGC最新综述:从GAN到ChatGPT的AI生成历史

    本调查全面回顾了生成模型的历史、基本组件、AIGC 从单模态交互和多模态交互的最新进展。我们从单峰性的角度介绍了文本和图像生成任务和相关模型。我们从多模态的角度来介绍上述模态之间的交
    的头像 发表于 03-13 10:13 2598次阅读

    终于有本书讲清了ChatGPT和AIGC的前世今生!

    AIGC通过精准地输入生成你所需要的高质量信息,真正实现了个性化需求的针对性处理。针对你的喜好和习惯,AI会生成娱乐、教育、音乐、新闻甚至是游戏等各种形式的内容,这种跨模态、可随机调用的内容
    的头像 发表于 05-22 09:29 806次阅读
    终于有本书讲清了ChatGPT和<b class='flag-5'>AIGC</b>的前世今生!

    伯克利AI实验室开源图像编辑模型InstructPix2Pix,简化生成图像编辑并提供一致结果

    之前的 AI 图像编辑能力通常是进行风格转换,流行的文本到图像生成模型(如 DALL-E 和 Stable Diffusion)也支持图像图像
    的头像 发表于 08-28 15:45 744次阅读
    伯克利AI实验室开源<b class='flag-5'>图像编辑</b>模型InstructPix2Pix,简化<b class='flag-5'>生成</b><b class='flag-5'>图像编辑</b>并提供一致结果

    文生图大型实践:揭秘百度搜索AIGC绘画工具的背后故事!

    AIGC 从去年 9 月到现在,我们能看到各种各样的模型和公司不断涌现。从最初大家使用 Stable Diffusion 来生成简单的图像,到后来用一些其它方法进行生成
    的头像 发表于 11-21 16:04 658次阅读
    文生图大型实践:揭秘百度搜索<b class='flag-5'>AIGC</b>绘画工具的背后故事!

    华为云 FunctionGraph 函数工作流:打破 AIGC 部署困局,释放企业无限潜能

    Content)这一新兴领域,借助先进的机器学习技术,内容生成已经取得了显著的突破,特别是在图像生成方面,其应用已经变得日益广泛。AIGC 技术的快速发展,极大地提升了信息处理、
    的头像 发表于 03-19 22:56 404次阅读
    华为云 FunctionGraph 函数工作流:打破 <b class='flag-5'>AIGC</b> 部署困局,释放企业无限潜能

    微软AI新成果:将不可编辑PDF转化为可编辑文档

    市面现有相关软件虽能将PDF转为可编辑版,但易丧失原始布局。微软研究论文名为《从不可编辑文档生成可编辑文档的方法和系统》,其独特之处在于运用AI技术保持了字体、色彩、布局及
    的头像 发表于 05-30 10:11 503次阅读