0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Imagen的工作原理解读

OpenCV学堂 来源:机器之心 作者:机器之心 2022-07-12 14:18 次阅读

本文详细解读了 Imagen 的工作原理,分析并理解其高级组件以及它们之间的关联。

近年来,多模态学习受到重视,特别是文本 - 图像合成和图像 - 文本对比学习两个方向。一些 AI 模型因在创意图像生成、编辑方面的应用引起了公众的广泛关注,例如 OpenAI 先后推出的文本图像模型 DALL・E 和 DALL-E 2,以及英伟达的 GauGAN 和 GauGAN2。 谷歌也不甘落后,在 5 月底发布了自己的文本到图像模型 Imagen,看起来进一步拓展了字幕条件(caption-conditional)图像生成的边界。

b32d0fee-01a9-11ed-ba43-dac502259ad0.jpg

仅仅给出一个场景的描述,Imagen 就能生成高质量、高分辨率的图像,无论这种场景在现实世界中是否合乎逻辑。下图为 Imagen 文本生成图像的几个示例,在图像下方显示出了相应的字幕。

b3464a5e-01a9-11ed-ba43-dac502259ad0.png

这些令人印象深刻的生成图像不禁让人想了解:Imagen 到底是如何工作的呢? 近期,开发者讲师 Ryan O'Connor 在 AssemblyAI 博客撰写了一篇长文《How Imagen Actually Works》,详细解读了 Imagen 的工作原理,对 Imagen 进行了概览介绍,分析并理解其高级组件以及它们之间的关联。 Imagen 工作原理概览 在这部分,作者展示了 Imagen 的整体架构,并对其它的工作原理做了高级解读;然后依次更透彻地剖析了 Imagen 的每个组件。如下动图为 Imagen 的工作流程。

b39185c8-01a9-11ed-ba43-dac502259ad0.gif

首先,将字幕输入到文本编码器。该编码器将文本字幕转换成数值表示,后者将语义信息封装在文本中。Imagen 中的文本编码器是一个 Transformer 编码器,其确保文本编码能够理解字幕中的单词如何彼此关联,这里使用自注意力方法。 如果 Imagen 只关注单个单词而不是它们之间的关联,虽然可以获得能够捕获字幕各个元素的高质量图像,但描述这些图像时无法以恰当的方式反映字幕语义。如下图示例所示,如果不考虑单词之间的关联,就会产生截然不同的生成效果。

b4331db6-01a9-11ed-ba43-dac502259ad0.png

虽然文本编码器为 Imagen 的字幕输入生成了有用的表示,但仍需要设计一种方法生成使用这一表示的图像,也即图像生成器。为此,Imagen 使用了扩散模型,它是一种生成模型,近年来得益于其在多项任务上的 SOTA 性能而广受欢迎。 扩散模型通过添加噪声来破坏训练数据以实现训练,然后通过反转这个噪声过程来学习恢复数据。给定输入图像,扩散模型将在一系列时间步中迭代地利用高斯噪声破坏图像,最终留下高斯噪声或电视噪音静态(TV static)。下图为扩散模型的迭代噪声过程:

b4574542-01a9-11ed-ba43-dac502259ad0.png

然后,扩散模型将向后 work,学习如何在每个时间步上隔离和消除噪声,抵消刚刚发生的破坏过程。训练完成后,模型可以一分为二。这样可以从随机采样高斯噪声开始,使用扩散模型逐渐去噪以生成图像,具体如下图所示:

b475e02e-01a9-11ed-ba43-dac502259ad0.png

总之,经过训练的扩散模型从高斯噪声开始,然后迭代地生成与训练图像类似的图像。很明显的是,无法控制图像的实际输出,仅仅是将高斯噪声输入到模型中,并且它会输出一张看起来属于训练数据集的随机图像。 但是,目标是创建能够将输入到 Imagen 的字幕的语义信息封装起来的图像,因此需要一种将字幕合并到扩散过程中的方法。如何做到这一点呢? 上文提到文本编码器产生了有代表性的字幕编码,这种编码实际上是向量序列。为了将这一编码信息注入到扩散模型中,这些向量被聚合在一起,并在它们的基础上调整扩散模型。通过调整这一向量,扩散模型学习如何调整其去噪过程以生成与字幕匹配良好的图像。过程可视化图如下所示:

b4941b7a-01a9-11ed-ba43-dac502259ad0.gif

由于图像生成器或基础模型输出一个小的 64x64 图像,为了将这一模型上采样到最终的 1024x1024 版本,使用超分辨率模型智能地对图像进行上采样。 对于超分辨率模型,Imagen 再次使用了扩散模型。整体流程与基础模型基本相同,除了仅仅基于字幕编码调整外,还以正在上采样的更小图像来调整。整个过程的可视化图如下所示:

b4e6ab6a-01a9-11ed-ba43-dac502259ad0.gif

这个超分辨率模型的输出实际上并不是最终输出,而是一个中等大小的图像。为了将该图像放大到最终的 1024x1024 分辨率,又使用了另一个超分辨率模型。两个超分辨率架构大致相同,因此不再赘述。而第二个超分辨率模型的输出才是 Imagen 的最终输出。 为什么 Imagen 比 DALL-E 2 更好? 确切地回答为什么 Imagen 比 DALL-E 2 更好是困难的。然而,性能差距中不可忽视的一部分源于字幕以及提示差异。DALL-E 2 使用对比目标来确定文本编码与图像(本质上是 CLIP)的相关程度。文本和图像编码器调整它们的参数,使得相似的字幕 - 图像对的余弦相似度最大化,而不同的字幕 - 图像对的余弦相似度最小化。 性能差距的一个显著部分源于 Imagen 的文本编码器比 DALL-E 2 的文本编码器大得多,并且接受了更多数据的训练。作为这一假设的证据,我们可以在文本编码器扩展时检查 Imagen 的性能。下面为 Imagen 性能的帕累托曲线:

b5257a98-01a9-11ed-ba43-dac502259ad0.png

放大文本编码器的效果高得惊人,而放大 U-Net 的效果却低得惊人。这一结果表明,相对简单的扩散模型只要以强大的编码为条件,就可以产生高质量的结果。 鉴于 T5 文本编码器比 CLIP 文本编码器大得多,再加上自然语言训练数据必然比图像 - 字幕对更丰富这一事实,大部分性能差距可能归因于这种差异。 除此以外,作者还列出了 Imagen 的几个关键要点,包括以下内容:

扩展文本编码器是非常有效的;

扩展文本编码器比扩展 U-Net 大小更重要;

动态阈值至关重要;

噪声条件增强在超分辨率模型中至关重要;

将交叉注意用于文本条件反射至关重要;

高效的 U-Net 至关重要。

这些见解为正在研究扩散模型的研究人员提供了有价值的方向,而不是只在文本到图像的子领域有用。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    45

    文章

    3651

    浏览量

    134783
  • 图像
    +关注

    关注

    2

    文章

    1087

    浏览量

    40505
  • 生成器
    +关注

    关注

    7

    文章

    317

    浏览量

    21058

原文标题:扩散+超分辨率模型强强联合,谷歌图像生成器Imagen背后的技术

文章出处:【微信号:CVSCHOOL,微信公众号:OpenCV学堂】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    液位变送器工作原理解

    液位变送器的类型 液位变送器有多种类型,包括浮球式、电容式、超声波式、雷达式等。每种类型的工作原理和应用场景有所不同,但它们的基本功能都是将液位变化转换为电信号。 1. 浮球式液位变送器 浮球式液位
    的头像 发表于 01-06 15:24 178次阅读

    借助谷歌Gemini和Imagen模型生成高质量图像

    以获得卓越的视觉效果。这个过程并不止于此;一旦图像生成,Imagen 2 可以进一步优化以满足特定需求,从而创建一个强大的工作流程,用于制作顶级视觉内容。
    的头像 发表于 01-03 10:38 359次阅读
    借助谷歌Gemini和<b class='flag-5'>Imagen</b>模型生成高质量图像

    反射内存交换机工作原理

    天津拓航科技自研生产的反射内存交换机工作原理解
    的头像 发表于 11-14 10:45 243次阅读
    反射内存交换机<b class='flag-5'>工作原理</b>

    数据光端机的工作原理解

    在现代通信技术中,光纤通信因其高速、大容量、抗干扰能力强等优点,已成为长距离通信的主要方式。数据光端机作为光纤通信系统中的关键设备,其工作原理对于理解整个通信系统的运作至关重要。 数据光端机的基本组
    的头像 发表于 10-28 10:09 209次阅读

    TTL逆变器的定义和工作原理

    TTL逆变器,作为数字电路中的一个重要组成部分,其定义和工作原理对于理解数字信号处理和转换过程至关重要。
    的头像 发表于 09-12 11:30 589次阅读

    NFC天线的工作原理和结构

    NFC(Near Field Communication)天线作为实现近距离无线通讯技术的关键组件,其工作原理和结构对于理解NFC技术的运作至关重要。
    的头像 发表于 08-27 10:52 2279次阅读

    CAN总线收发器的工作原理和应用

    CAN(Controller Area Network)总线收发器是CAN总线通信中的关键组件,其工作原理和应用对于理解现代汽车电子、工业自动化等领域的通信系统至关重要。以下将详细阐述CAN总线收发器的主要工作原理及其应用。
    的头像 发表于 08-26 15:23 2352次阅读

    串行接口的工作原理和结构

    串行接口(Serial Interface)的工作原理和结构是理解其在计算机与外部设备之间数据传输方式的重要基础。以下将详细阐述串行接口的工作原理及其典型结构。
    的头像 发表于 08-25 17:01 1839次阅读

    前馈神经网络的工作原理和应用

    前馈神经网络(Feedforward Neural Network, FNN),作为最基本且应用广泛的一种人工神经网络模型,其工作原理和结构对于理解深度学习及人工智能领域至关重要。本文将从前馈神经网络的基本原理出发,详细阐述其结构特点、
    的头像 发表于 07-08 11:28 1790次阅读

    什么是LLM?LLM的工作原理和结构

    生成、机器翻译、智能问答等多个领域展现出巨大的应用潜力。本文将从LLM的定义、发展历程、工作原理、结构以及未来趋势等方面进行深入解读,以期为读者提供一个全面而清晰的认识。
    的头像 发表于 07-02 11:45 8106次阅读

    伺服控制器的工作原理和基本结构

    伺服控制器,作为工业自动化和精密控制领域的核心部件,其工作原理和基本结构对于理解和应用伺服系统至关重要。本文将详细阐述伺服控制器的工作原理,并通过分析其基本结构,进一步揭示其工作机制和
    的头像 发表于 06-13 16:31 1689次阅读

    谷歌发布AI文生图大模型Imagen

    近日,谷歌在人工智能领域取得新突破,正式推出了Imagen文生图模型。这款模型以其卓越的细节调整功能、逼真的光线效果以及从草图快速生成高分辨率图像的能力,引起了业界的广泛关注。
    的头像 发表于 05-16 09:30 547次阅读

    锂电池保护电路工作原理解读

    锂离子电池是一种二次电池(充电电池),它主要依靠锂离子在正极和负极之间移动来工作。在充放电过程中,Li+在两个电极之间往返嵌入和脱嵌,充电时,Li+从正极脱嵌,经过电解质嵌入负极,负极处于富锂状态;放电时则相反。
    发表于 04-22 15:10 3038次阅读
    锂电池保护电路<b class='flag-5'>工作原理解读</b>

    集成芯片的工作原理 集成芯片的作用有哪些

    集成芯片(Integrated Circuit,简称IC)的工作原理和作用可以从以下几个方面来理解
    的头像 发表于 03-25 13:53 1257次阅读

    小白,问下这个电路图工作原理

    自学中,图中电路的工作原理大概可以看懂,就是不理解怎么启动这个电路,求指点,谢谢!
    发表于 02-03 14:01