将自注意力机制引入GAN，革新图像合成方式-电子发烧友网

图像合成是计算机视觉中的一个重要问题。谷歌大脑的Ian Goodfellow等人在他们的最新研究中提出“自注意力生成对抗网络”（SAGAN），将自注意力机制引入到卷积GAN中，作为卷积的补充，在ImageNet多类别图像合成任务中取得了最优的结果。

图像合成（Image synthesis）是计算机视觉中的一个重要问题。随着生成对抗网络（GAN）的出现，这个方向取得了显著进展。基于深度卷积网络的GAN尤其成功。但是，通过仔细检查这些模型生成的样本，可以观察到，在ImageNet这类的有许多图像类别的数据集上训练时，卷积GAN合成的图像不尽如人意。

针对这个问题，谷歌大脑的Ian Goodfellow和Augustus Odena，以及罗格斯大学的Han Zhang和Dimitris Metaxas等人在他们的最新研究中提出“自注意力生成对抗网络”（SAGAN），将自注意力机制（self-attention mechanism）引入到卷积GAN中，作为卷积的补充，取得了最优的结果。

摘要

在这篇论文中，我们提出自注意力生成对抗网络（ Self-Attention Generative Adversarial Network ，SAGAN）。SAGAN允许对图像生成任务进行注意力驱动、长相关性的建模。传统的卷积GAN生成的高分辨率细节仅作为在低分辨率特征图上的空间局部点的函数。在SAGAN中，可以使用来自所有特征位置的线索来生成细节。此外，鉴别器可以检查图像的远端部分的高度详细的特征彼此一致。此外，最近的研究表明，生成器条件会影响GAN的性能。利用这些发现，我们将谱归一化到GAN生成器中，并发现这改进了训练动态。我们提出的SAGAN达到了state-of-the-art的结果，将Inception score从当前最高的36.8提高到52.52，并且在具有挑战性的ImageNet数据集上将Frechet Inception distance从27.62降低到18.65。注意力层的可视化表明，生成器利用与对象形状相对应的邻域，而不是固定形状的局部区域。

SAGAN：将自注意力机制引入GAN

尽管最先进的ImageNet GAN模型 [17] 擅长合成几乎没有结构性限制的图像类别（例如，海洋、天空和景观类，它们的区别更多在于纹理而不是几何结构），但它无法捕获在某些类别中经常出现的几何模式或结构模式（例如，狗通常有逼真的皮毛纹理，但没有明确区分的脚）。

一种可能的解释是，以前的模型严重依赖于卷积来建模不同图像区域之间的依赖关系。由于卷积运算符具有一个局部感受域，所以在经过几个卷积层之后，只能处理长距离的相关性。

由于各种原因，这可能会阻止学习长相关性（long-term dependencies）：小的模型可能无法表示它们，优化算法可能无法发现参数值，这些参数值仔细协调多个层，以捕获这些相关性，并且这些参数化在统计学上可能相当脆弱，当应用于以前未见过的输入时容易失败。增加卷积核的大小可以提高网络的表征能力，但这样做也会失去利用局部卷积结构获得的计算和统计效率。

另一方面，自注意力（Self-attention）可以更好地平衡模型的长相关性和计算与统计效率。self-attention模块以所有位置的特征加权和来计算响应，其中权重（或attention vectors）只以很小的计算成本来计算。

图 1：我们提出的SAGAN通过利用图像远端部分的互补特征来生成图像，而不是固定形状的局部区域，从而可以生成一致的对象/场景。图中每一行的第一个图像显示了带颜色编码点的五个代表性查询位置。其他五个图像是针对这些查询位置的 attention maps，其中对应的颜色编码的箭头概括了最受关注的区域。

在这项工作中，我们提出了自注意力生成对抗网络（SAGAN），它将自注意力机制（self-attention mechanism）引入到卷积GAN中。自注意力模块（self-attention module）是对卷积的补充，有助于模拟跨越图像区域的长距离、多层的依赖关系。通过self-attention，生成器可以绘制图像，所绘制图像中每个位置的精细细节都与图像远端的精细细节充分协调。此外，鉴别器还可以更准确地对全局图像结构执行复杂的几何约束。

图2：所提出的self-attention机制。⊗表示矩阵乘法，在每一行上执行softmax操作。

除了self-attention之外，我们还将最近关于网络调节（network conditioning）的见解与GAN的性能结合起来。A.Odena等人的研究[18]表明，调节良好的生成器往往表现更好。我们建议使用以前仅应用于鉴别器的谱归一化技术（spectral normalization）来加强GAN生成器器的调节。

我们在ImageNet数据集上进行了大量的实验，以验证所提出的self-attention机制和稳定技术的有效性。SAGAN在图像合成方面的表现远远超过了state-of-the-art的表现，将此前报告的最高Inception score从36.8提高到52.52，将Fréchet初始距离（Fréchet Inception distance，FID）从27.62降低到18.65。attention层的可视化显示，生成器利用与对象形状相对应的区域，而不是固定形状的局部区域。

ImageNet上的图像合成实验

为了评价所提出的方法，我们在LSVRC 2012 （ImageNet）上数据集进行了大量的实验。首先，我们对评估所提出的两种稳定GAN训练的技术进行有效性实验。其次，对所提出的self-attention mechanism进行了研究。最后，将SAGAN与其他state-of-the-art的图像生成方法进行了比较。

评估指标

我们使用Inception score（IS）和Fréchet初始距离（FID）进行定量评估。Inception score越高，表示图像质量越好。 FID是一个更加基于规则和综合性的指标，并且在评估生成的样本的真实性和变异性方面已被证明与人类的评估更加一致。越低的FID值意味着合成数据分布与真实数据分布之间的距离更近。

图3：基线模型与我们的模型的训练曲线，利用了我们提出的稳定技术

表1：GAN的Self-Attention与Residual块的比较。这些块被添加到网络的不同层。所有模型都经过100万次迭代的训练，并报告最佳的Inception score（IS）和Fréchet初始距离（FID）。

图4：基线模型和我们的模型随机生成的128×128图像样本

图5：attention maps的可视化。这些图像都由SAGAN生成。

与state-of-the-art模型的比较

在ImageNet上，SAGAN与最先进的GAN模型[19,17]进行了比较。如表2所示，我们提出的SAGAN得到了Inception score和FID。Inception score方面，SAGAN将此前0最高的36.8提高到52.52；FID（18.65）也表明，SAGAN可以通过使用self-attention模块对图像区域之间的全局依赖关系进行建模，从而更好地模拟原始图像的分布。图6展示了由SAGAN生成的一些示例图像。

表2: 将所提出的SAGAN与最先进GAN模型进行比较，任务是ImageNet上的类别条件图像生成。

图6：SAGAN 生成的不同类别的128×128分辨率示例图像。每行展示一个类别的示例。

总结

在本研究中，我们提出自注意力生成对抗网络（SAGAN），它将self-attention机制引入到GAN的框架。 self-attention 模块在建模长相关性（ long-range dependencies）方面很有效。另外，我们证明了应用于生成器的谱归一化可以稳定GAN的训练，并且TTUR加速了正则化鉴别器的训练。SAGAN在ImageNet的分类条件图像生成任务上达到最先进的性能。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

图像

图像

+关注

关注
2

文章
1084

浏览量
40459
GaN

GaN

+关注

关注
19

文章
1935

浏览量
73381

原文标题：Ian Goodfellow等提出自注意力GAN，ImageNet图像合成获最优结果！

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

浅谈自然语言处理中的注意力机制

本文深入浅出地介绍了近些年的自然语言中的注意力机制包括从起源、变体到评价指标方面。

发表于 01-25 16:51 •6375次阅读

浅谈自然语言处理中的<b class='flag-5'>注意力</b><b class='flag-5'>机制</b>

深度分析NLP中的注意力机制

注意力机制越发频繁的出现在文献中，因此对注意力机制的学习、掌握与应用显得十分重要。本文便对注意力机制

发表于 02-17 09:18 •3859次阅读

注意力机制的诞生、方法及几种常见模型

简而言之，深度学习中的注意力机制可以被广义地定义为一个描述重要性的权重向量：通过这个权重向量为了预测或者推断一个元素，比如图像中的某个像素或句子中的某个单词，我们使用注意力向量定量地估

发表于 03-12 09:49 •4.1w次阅读

注意力机制或将是未来机器学习的核心要素

目前注意力机制已是深度学习里的大杀器，无论是图像处理、语音识别还是自然语言处理的各种不同类型的任务中，都很容易遇到注意力模型的身影。

发表于 05-07 09:37 •1310次阅读

基于注意力机制的深度学习模型AT-DPCNN

情感分析是自然语言处理领域的一个重要分支，卷积神经网络（CNN）在文本情感分析方面取得了较好的效果，但其未充分提取文本信息中的关键情感信息。为此，建立一种基于注意力机制的深度学习模型AT-

发表于 03-17 09:53 •12次下载

基于空间/通道注意力机制的化学结构图像识别方法

基于传统图像处理技术与流水线方式的化学结构图像识别方法通常依赖于人工设计的特征，导致识别准确率较低。针对该问题，提岀一种基于空间注意力机制与

发表于 03-22 15:20 •7次下载

基于通道注意力机制的SSD目标检测算法

为提升原始SSD算法的小目标检测精度及鲁棒性，提出一种基于通道注意力机制的SSD目标检测算法。在原始SSD算法的基础上对高层特征图进行全局池化操作，结合通道注意力机制增强高层特征图的语

发表于 03-25 11:04 •20次下载

结合注意力机制的跨域服装检索方法

深度卷积神经网络为基础，引入注意力机制重新分配不同特征所占比重，增强表述服装图像的重要特征，抑制不重要特征：加入短连接模块融合局部重要特征和整幅图像

发表于 05-12 14:19 •2次下载

基于注意力机制等的社交网络热度预测模型

基于注意力机制等的社交网络热度预测模型

发表于 06-07 15:12 •14次下载

基于多通道自注意力机制的电子病历架构

基于多通道自注意力机制的电子病历架构

发表于 06-24 16:19 •75次下载

基于注意力机制的跨域服装检索方法综述

基于注意力机制的跨域服装检索方法综述

发表于 06-27 10:33 •2次下载

基于注意力机制的新闻文本分类模型

基于注意力机制的新闻文本分类模型

发表于 06-27 15:32 •30次下载

基于非对称注意力机制残差网络的图像检测

基于非对称注意力机制残差网络的图像检测

发表于 07-05 15:29 •9次下载

计算机视觉中的注意力机制

在自然语言处理、图像识别及语音识别等各种不同类型的机器学习任务中。注意力机制本质上与人类对外界事物的观察机制相似。通常来说，人们在观察外界事物的时候，首先会比较关注比较倾向于观察事物

发表于 05-22 09:46 •0次下载

PyTorch教程11.4之Bahdanau注意力机制

电子发烧友网站提供《PyTorch教程11.4之Bahdanau注意力机制.pdf》资料免费下载

发表于 06-05 15:11 •0次下载

搜索历史

将自注意力机制引入GAN，革新图像合成方式

评论

浅谈自然语言处理中的注意力机制

深度分析NLP中的注意力机制

注意力机制的诞生、方法及几种常见模型

注意力机制或将是未来机器学习的核心要素

基于注意力机制的深度学习模型AT-DPCNN

基于空间/通道注意力机制的化学结构图像识别方法

基于通道注意力机制的SSD目标检测算法

结合注意力机制的跨域服装检索方法

基于注意力机制等的社交网络热度预测模型

基于多通道自注意力机制的电子病历架构

基于注意力机制的跨域服装检索方法综述

基于注意力机制的新闻文本分类模型

基于非对称注意力机制残差网络的图像检测

计算机视觉中的注意力机制

PyTorch教程11.4之Bahdanau注意力机制