0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

BigBiGAN问世,“GAN父”都说酷的无监督表示学习模型有多优秀?

WpOh_rgznai100 来源:YXQ 2019-07-11 15:48 次阅读

众所周知,对抗训练生成模型(GAN)在图像生成领域获得了不凡的效果。尽管基于GAN的无监督学习方法取得了初步成果,但很快被自监督学习方法所取代。

DeepMind近日发布了一篇论文《Large Scale Adversarial Representation Learning》(大规模对抗性表示学习),提出了无监督表示学习新模型BigBiGAN。

致力于将图像生成质量的提升转化为表征学习性能的提高,基于BigGAN模型的基础上提出了BigBiGAN,通过添加编码器和修改鉴别器将其扩展到图像学习。作者评估了BigBiGAN模型的表征学习能力和图像生成功能,证明在ImageNet上的无监督表征学习以及无条件图像生成,该模型达到了目前的最佳性能。

论文发布后,诸多AI大牛转发并给出了评价。

“GAN之父”Ian Goodfellow表示这很酷,在他读博士期间,就把样本生成双产物的表示学习感兴趣,而不是样本生成本身。

特斯拉AI负责人Andrej Karpathy则表示,自我监督的学习是一个非常丰富的领域(但需要比ImageNet提供更高的密度和结构),这将避免大规模数据集的当前必要性(或在RL中推出)。

1、介绍

近年来,图像生成模型快速发展。虽然这些模型以前仅限于具有单模或多模的结构域,生成的图像结构简单,分辨率低,但随着模型和硬件的发展,已有生成复杂、多模态,高分辨率图像的能力。

图1 BigBiGAN框架框图

联合鉴别器,输入是数据潜在对,

,从数据分布Px和编码器输出中采样,或

从生成器输出和潜在分布Pz中采样。损失包括一元数据项和一元潜在项,以及将数据和潜在分布联系起来的联合项

通过BiGAN或ALI框架学习的编码器,是ImageNet上用于下游任务的可视化表示学习的有效手段。然而,该方法使用了DCGAN样式生成器,无法在该数据集上生成高质量图像,因此编码器可以建模的语义非常有限。作者基于该方法,使用BigGAN作为生成器,能够捕获ImageNet图像中存在的多模态和出现的大部分结构。总体而言,本文的贡献如下:

(1)在ImageNet上,BigBiGAN(带BigGAN的BiGAN生成器)匹配无监督表征学习的最新技术水平

(2)为BigBiGAN提出了一个稳定版本的联合鉴别器

(3)对模型设计选择进行了全面的实证分析和消融实验

(4)表征学习目标还有助于无条件图像生成,并展示无条件ImageNet生成的最新结果

2、BigBiGAN

BiGAN、ALI方法作为GAN框架的扩展,能够学习可以用作推理模型或特征表示的编码器。给定数据项x的分布Px(例如,图像)和潜在项z的分布Pz(通常是像各向同性高斯N(0;I)的简单连续分布),生成器模拟条件概率分布

,给定潜在项z后数据项x的概率值,如标准GAN生成器。编码器对逆条件分布

进行建模,预测给定数据项x的情况下,潜在项z的概率值。

除了添加之外,BiGAN框架中对GAN的另一种修改是联合鉴别器 - 潜在项对(x,z)(而不仅仅是标准GAN中的数据项x),并且学习区分数据分布和编码器对,生成器和潜在分布。具体地说,它的输入对是

的目标是“欺骗”鉴别器,使得被采样的两个联合概率分布难以区分。GAN框架的目标,定义如下:

在这个目标下,在最优最小化联合分布之间的Jensen-Shannon散度,因此在全局最优时,两个联合分布

匹配。此外,在是确定性函数的情况下(即,学习条件分布

是Dirac δ函数),这两个函数是全局最优的逆:例如

,最佳联合鉴别器有效地对x和z施加重建成本。

具体地,鉴别器损失值

其中

优化参数

3、评估

作者在未标记的ImageNet上训练BigBiGAN,固定其表征学习结果,然后在其输出上训练线性分类器,使用所有训练集标签进行全面监督学习。 作者还测量图像生成性能,其中

IS)和

FID)作为标准指标。

3.1 消融

作者先评估了多种模型,见表1。作者使用不同的种子对每个变体进行三次运行并记录每个度量的平均值和标准差。

潜在分布随机值

,其中在给定和线性输出的情况下,预测

一元损失:

评估删除损失函数的一元项影响。只有z一元项和没有一元项的IS和FID性能要比只有x一元项和两者都有的性能差,结果表明x一元项对生成性能有很大的正面影响。

生成器容量:

为了证明生成器在表征学习中的重要性,作者改变生成器的容量观察对结果的影响。实验结果表明,好的图像生成器模型能提高表征学习能力。

带有不同分辨率的的高分辨率

使用更高的分辨率,尽管的分辨率相同,但是生成结果显着改善(尤其是通过FID)。

结构:

使用不同结构的评估性能,结果表明网络宽度增加,性能会得到提升

解耦优化:

优化器与的优化器分离,并发现简单地使用10倍的E学习速率可以显着加速训练并改善最终表征学习结果。

3.2与已有方法比较

表征学习

表1:BigBiGAN变体的结果

在生成图像的IS和FID中,以及ImageNet top-1分类准确率,根据从训练集中随机抽样的10K图像的分割计算,称为Train分裂。每行中基本设置的更改用蓝色突出显示。具有误差范围的结果(写为“μ±σ”)是具有不同随机种子的三次运行的平均值和标准偏差。

表2:使用监督逻辑回归分类器对官方ImageNet验证集上的BigBiGAN模型与最近竞争方法的比较

基于10K训练集图像的trainval子集的最高精度,选择BigBiGAN结果并提前停止。ResNet-50结果对应于表1中的行ResNet(“ELR”),RevNet-50×4对应于RevNet×4(“ELR”)

表3:无监督(无条件)生成的BigBiGAN与已有的无监督BigGAN的比较结果

作者将“伪标签”方法指定为SL(单标签)或聚类。为了进行比较,训练BigBiGAN的步数(500K)与基于BigGAN的方法相同,但也可以在最后一行中对1M步骤进行额外训练,并观察其变化。上述所有结果均包括中值m以及三次运行的平均μ和标准偏差σ,表示为“m(μ±σ)”。BigBiGAN的结果由最佳FID与Train的停止决定的。

无监督图像生成

图2:从无监督的BigBiGAN模型中选择的重建

上图2中第一行表示真实数据x~Px;第二行表示由

3.3 重建

BiGAN E和G通过计算编码器预测的潜在表示E(x),然后将预测的潜在表示传回生成器,得到重建的G(E(x)),从而重构数据实例x。我们在图2中展示了BigBiGAN重构。这些重构远非有像素级的完美度,部分原因可能是目标并没有明确强制执行重构成本,甚至在训练时也没有计算重构。然而,它们可能为编码器学习建模的特性提供一些直观的认识。例如,当输入图像包含一条狗、一个人或一种食物时,重建通常是相同“类别”的不同实例,具有相似的姿势、位置和纹理。这些重构倾向于保留输入的高级语义,而不是低级细节,这表明BigBiGAN训练鼓励编码器对前者建模,而不是后者。

4、相关研究

基于自我监督图像中的无监督表示学习的许多方法被证明是非常成功的。自我监督通常涉及从以某种方式设计成类似于监督学习的任务中学习,但是其中“标签”可以自动地从数据本身创建而无需人工操作。早期的例子是相对位置预测,其中模型在输入的图像块对上进行训练并预测它们的相对位置。

对比预测编码(CPC)是最近的相关方法,其中,给定图像补丁,模型预测哪些补丁出现在其他图像位置中。其他方法包括着色、运动分割、旋转预测和样本匹配。

对这些方法进行了严格的实证比较。相对于大多数自我监督的方法,BigBiGAN和基于生成模型的其他方法的关键优势是它们的输入可能是全分辨率图像或其他信号,不需要裁剪或修改所需的数据。这意味着结果表示通常可以直接应用于下游任务中的完整数据,而不会发生域移位(domain shift)。

还提出了许多相关的自动编码器和GAN变体。关联压缩网络(ACN)学会通过调节其他先前在代码空间中相似的传输数据的数据来压缩数据集级别,从而产生可以“模糊”语义相似样本的模型,类似于BigBiGAN重建。VQ-VAE 将离散(矢量量化)编码器与自回归解码器配对,以产生具有高压缩因子的忠实重建,并在强化学习设置中展示表示学习结果。在对抗性空间中,对抗性自动编码器提出了一种自动编码器式编码器 - 解码器对,用像素级重建成本训练,用鉴别器代替VAE中使用的先验的KL-发散正则化。

在另一个提出的VAE-GAN混合中,在大多数VAE中使用的像素空间重建误差被替换为距GAN鉴别器的中间层的特征空间距离。AGE和α-GAN等其他混合方法增加了编码器来稳定GAN训练。这些方法与BiGAN框架间的一个区别是,BiGAN不会以明确的重建成本训练编码器,虽然可以证明BiGAN隐含地使重建成本最小化,但定性重建结果表明这种重建成本具有不同的风格,强调了像素级细节上的高级语义。

5.探讨

我们已经证明,BigBiGAN是一种纯粹基于生成模型的无监督学习方法,它在ImageNet上实现了图像表示学习的最好的结果。我们的消融实验进一步证实强大的生成模型可以有利于表征学习,反过来,学习推理模型可以改善大规模的生成模型。在未来,我们希望表示学习可以继续受益于生成模型和推理模型的进一步发展,同时扩展到更大的图像数据库。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • GaN
    GaN
    +关注

    关注

    19

    文章

    1905

    浏览量

    72523
  • 无监督学习
    +关注

    关注

    1

    文章

    16

    浏览量

    2750

原文标题:BigBiGAN问世,“GAN父”都说酷的无监督表示学习模型有多优秀?

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    java子类可以继承类的什么

    Java是一种面向对象的编程语言,它支持继承的概念。继承是面向对象编程的三大特性之一,它允许一个类(称为子类或派生类)继承另一个类(称为类或基类)的属性和方法。在Java中,子类可以继承
    的头像 发表于 08-20 11:02 712次阅读

    【《大语言模型应用指南》阅读体验】+ 基础知识学习

    收集海量的文本数据作为训练材料。这些数据集不仅包括语法结构的学习,还包括对语言的深层次理解,如文化背景、语境含义和情感色彩等。 自监督学习模型采用自监督学习策略,在大量
    发表于 08-02 11:03

    【《大语言模型应用指南》阅读体验】+ 基础篇

    章节最后总结了机器学习的分类:监督学习监督学习、半监督学习、自
    发表于 07-25 14:33

    神经网络如何用监督算法训练

    神经网络作为深度学习的重要组成部分,其训练方式多样,其中监督学习是一种重要的训练策略。监督学习旨在从未标记的数据中发现数据内在的结构、模
    的头像 发表于 07-09 18:06 654次阅读

    深度学习中的监督学习方法综述

    深度学习作为机器学习领域的一个重要分支,近年来在多个领域取得了显著的成果,特别是在图像识别、语音识别、自然语言处理等领域。然而,深度学习模型的强大性能往往依赖于大量
    的头像 发表于 07-09 10:50 349次阅读

    基于FPGA的类脑计算平台 —PYNQ 集群的监督图像识别类脑计算系统

    STDP 监督学习算法,可运用于图像的 监督分类。 从平台设计角度: (1)本设计搭建的基于 PYNQ 集群的通用低功耗的大规模类脑计算平台,搭载 PYNN,NEST 等
    发表于 06-25 18:35

    大语言模型:原理与工程时间+小白初识大语言模型

    开拓深度学习的思路。对于新涌现的大语言模型的能力,主要是表现在学习能力的提升、语言理解和生成能力、创新和探索的能力。 基础技术 词表示技术 词表示
    发表于 05-12 23:57

    这个是不是表示没有仿真模型

    先上图 这个是不是表示没有仿真模型啊? 哪个版本ds12c887的仿真模型啊?谢谢!
    发表于 05-12 22:17

    【大语言模型:原理与工程实践】揭开大语言模型的面纱

    Transformer架构,利用自注意力机制对文本进行编码,通过预训练、监督微调和强化学习等阶段,不断提升性能,展现出强大的语言理解和生成能力。 大语言模型的涌现能力,是指随着
    发表于 05-04 23:55

    优秀的人,学习记笔记!文末看海的点评

    放秘籍》-仪表放大器专项的优秀学习笔记,说实话,我看了后感觉非常惊艳,简约美观,一目了然,部分笔记截图如下,作者: 冰朔 咱们看上面的学习笔记,他几个非常赞的优点: 对于一些概念,没
    的头像 发表于 03-22 18:19 1112次阅读
    跟<b class='flag-5'>优秀</b>的人,<b class='flag-5'>学习</b>记笔记!文末<b class='flag-5'>有</b>看海的点评

    名单公布!【书籍评测活动NO.30】大规模语言模型:从理论到实践

    个文本质量对比模型,用于对监督微调模型对于同一个提示词给出的多个不同输出结果进行质量排序。这一阶段的难点在于如何限定奖励模型的应用范围及如
    发表于 03-11 15:16

    Meta发布新型监督视频预测模型“V-JEPA”

    Meta,这家社交媒体和科技巨头,近日宣布推出一种新型的监督视频预测模型,名为“V-JEPA”。这一模型在视频处理领域引起了广泛关注,因为它通过抽象性预测生成视频中缺失或模糊的部分来
    的头像 发表于 02-19 11:19 886次阅读

    2024年AI领域将会有哪些新突破呢?

    传统的机器学习需要大量的标记数据进行训练,但自监督学习可以通过监督的方式从大规模未标记的数据中学习到更有用的
    的头像 发表于 01-24 09:58 1913次阅读

    监督域自适应场景:基于检索增强的情境学习实现知识迁移

    本文对比了多种基线方法,包括监督域自适应的传统方法(如Pseudo-labeling和对抗训练)、基于检索的LM方法(如REALM和RAG)和情境学习方法(如In-context learning)。
    发表于 12-05 14:14 523次阅读
    <b class='flag-5'>无</b><b class='flag-5'>监督</b>域自适应场景:基于检索增强的情境<b class='flag-5'>学习</b>实现知识迁移

    北大&amp;华为提出:模态基础大模型的高效微调

    深度学习的大模型时代已经来临,越来越多的大规模预训练模型在文本、视觉和模态领域展示出杰出的生成和推理能力。然而大模型巨大的参数量
    的头像 发表于 11-08 16:20 764次阅读
    北大&amp;华为提出:<b class='flag-5'>多</b>模态基础大<b class='flag-5'>模型</b>的高效微调