0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

利用基本分类框架来执行广泛的图像合成任务

jf_pmFSk4VX 来源:GiantPandaCV 作者:GiantPandaCV 2022-10-24 09:56 次阅读

2. 引言

介绍一篇关于概率生成模型非常有意思的工作,保持了Aleksander Madry一如既往的风格。众所周知,深度学习彻底改变了计算机视觉问题的的研究范式,提供了很多原来大家想完成但没有机遇完成的工作。而这场演化确是从判别模型开始的,像Alexnet、VGG、ResNet这些工作取得的非凡进展,引发了深度学习范式的扩展。

而慢慢地,大家的注意力也从包括更复杂的任务,如图像生成和图像到图像的转换这种生成式的任务。但这种生成模型在很大程度上都是基于非常复杂的,而且基于特定任务的技术,例如GAN和VAE。所以可能就目前的进展来看,生成任务的范式是比较复杂的,但是果真所有的生成任务都这么复杂么?本文提供了一个比较新颖的角度。

本文提供了一种方法,仅凭基本分类工具就足以解决各种图像合成任务,包括generation、inpainting、image-to-image translation、super-resolution、interactive image manipulation。论文提出的整个框架都是基于每个数据集的单个分类器,而且仅仅只涉及执行一个简单的输入操作:使用梯度最大化地下降使预测的类分数。

因此,这一较为通用的方法比较易于实现和训练。其实论文提出方法最关键的成分是adversarially robust classifiers。此前,其实就有模型观察到观察到,将鲁棒模型在输入上的损失最大化,将导致其他类的状态更接近真实的分布(maximizing the loss of robust models over the input leads to realistic instances of other classes)。

因此,基于这种结论,论文的研究结果建立了健壮的分类器作为语义图像操作的强大manipulation。为了突出核心方法本身的潜力,论文的实验中有意采用一种通用的分类设置,而没有任何额外的优化。

1227d0bc-52ed-11ed-a3b6-dac502259ad0.png

2. 方法

论文首先介绍了作为Input Manipulation的Robust Models,

其实从这个视角来看,我们可以将鲁棒优化看作是将先验编码到模型中,防止它依赖于输入的难以察觉的特征。的确,也就是说,这种训练方式可以通过鼓励模型对小扰动不铭感,从而使得Robust training的预测变化与输入变化的显著性相对应。事实上,当我们最大化一个Robust Models的特定类面对目标攻击的敏感概率时,这种现象也会出现——参见图2中的说明。

这表明,稳健的模型表现出更多与人类一致的梯度,更重要的是,我们可以通过对模型输出执行梯度下降来精确控制输入中的特征。在接下来的工作中,论文阐释了鲁棒模型的这一特性足以在不同的图像合成任务集上获得良好的性能。论文还是反复强调,要获取和自然数据domain相近质量的质量其实只需要充分利用分类模型就行了,GAN和VAE这些模型虽然取得了不错的效果,但是还是对分类模型的潜力有所忽略。

3.1 Realistic Image Generation

讲了这么多绕来绕去的,那论文优化目标是什么呢(中文解释起来太复杂也可能不准确,还是看原文):

其实就是做了一个非常简单的假设,使得模型能够利用class-conditional distribution的混合高斯的多元模型中,重建出相应的图像,优化目标就是使得符合最小的期望。那么效果如何呢,作者随机选取了异步的的可视化:

12a4ad8a-52ed-11ed-a3b6-dac502259ad0.png

3.2 Inpainting

对于inpainting,是指恢复具有大区域被mask掉的图像。也就是说给定一个图像x,在一个对应于二值掩码m的区域中的内容进行补充,inpainting的目标是以一种相对于图像其余部分感知上合理的方式恢复丢失的像素。作者发现,简单的feed分类器,当经过robust的训练时,可以成为这类图像重建任务的强大工具。

其实根据上一部分我们的描述,其实可以发现我们的目标也是使用鲁棒的模型来恢复图像中缺失的特征。为此,我们将优化图像,使底层真实类的分数最大化,同时也迫使其在未损坏的区域与原始一致。具体来说,给定一个训练在未损坏数据上的鲁棒分类器,和一个带有标签y的损坏图像z,然后对优化目标进行求解:

13141f62-52ed-11ed-a3b6-dac502259ad0.png

可以发现效果确实还不错:

131cd616-52ed-11ed-a3b6-dac502259ad0.png

3.3 Image-to-Image Translation

这个其实就跟3.1非常类似了。在本节中,我们将演示鲁棒分类器为执行这种图像到图像转换提供了一种新的方法。关键是(robustly)训练分类器来区分源域和目标域。从概念上讲,这样的分类器将提取每个领域的显著特征,以便做出准确的预测。然后,我们可以通过直接最大化目标域的预测得分来翻译来自源域的输入。

136c7ed2-52ed-11ed-a3b6-dac502259ad0.png

3.4 Interactive Image Manipulation

13b7432c-52ed-11ed-a3b6-dac502259ad0.png

这个的优化目标和3.2类似。

4. 结论

在这项工作中,我们利用基本分类框架来执行广泛的图像合成任务。特别是,我们发现基本分类器学习到的特征足以完成所有这些任务,前提是该分类器具有adversarially robust。然后,论文非常生动地展示这种insight如何产生一个简单、可靠、直接可扩展到其他大型数据集的toolkit。

事实上,与GAN这些方法不同的是,我论文的方法实际上受益于扩展到更复杂的数据集——只要底层分类任务丰富且具有挑战性,分类器就可能学习更细粒度的特征。实际上,鲁棒性可能为构建一个与人类更加一致的机器学习工具包提供了一条道路。

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3254

    浏览量

    48878
  • 机器学习
    +关注

    关注

    66

    文章

    8422

    浏览量

    132713
  • 数据集
    +关注

    关注

    4

    文章

    1208

    浏览量

    24719

原文标题:NeurIPS19 用分类模型完成生成任务

文章出处:【微信号:GiantPandaCV,微信公众号:GiantPandaCV】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    华为云ModelArts入门开发(完成物体分类、物体检测)

    利用ModelArts框架可以完成图像分类、物体检测、预测分析、声音分类、文本分类等功能。介绍如
    的头像 发表于 07-10 16:26 1715次阅读
    华为云ModelArts入门开发(完成物体<b class='flag-5'>分类</b>、物体检测)

    基于多通道分类合成的SAR图像分类研究

    。目前,SAR图像分类多是基于单通道图像数据。多通道SAR数据极大地丰富了地物目标信息量,利用多通道数据进行分类,是SAR
    发表于 04-23 11:52

    pyhanlp文本分类与情感分析

    关系如下:训练训练指的是,利用给定训练集寻找一个能描述这种语言现象的模型的过程。开发者只需调用train接口即可,但在实现中,有许多细节。分词目前,本系统中的分词器接口一共有两种实现: 但文本分类是否
    发表于 02-20 15:37

    NLPIR平台在文本分类方面的技术解析

    本分类问题就是将一篇文档归入预先定义的几个类别中的一个或几个,而文本的自动分类则是使用计算机程序实现这种文本分类,即根据事先指定的规则和示例样本,自动从海量文档中识别并训练
    发表于 11-18 17:46

    基于文章标题信息的汉语自动文本分类

    本分类是文本挖掘的一个重要组成部分,是信息搜索领域的一项重要研究课题。该文提出一种基于文章标题信息的汉语自动文本分类方法,在HNC理论的领域概念框架下,通过标题
    发表于 04-13 08:31 10次下载

    如何使用Spark计算框架进行分布式文本分类方法的研究

    针对传统文本分类算法在面对日益增多的海量文本数据时效率低下的问题,论文在Spark计算框架上设计并实现了一种并行化朴素贝叶斯文本分类器,并着重介绍了基于Spark计算框架的文
    发表于 12-18 14:19 3次下载
    如何使用Spark计算<b class='flag-5'>框架</b>进行分布式文<b class='flag-5'>本分类</b>方法的研究

    本分类的一个大型“真香现场”来了

    任何标注数据啦!哇,真香! 当前的文本分类任务需要利用众多标注数据,标注成本是昂贵的。而半监督文本分类虽然减少了对标注数据的依赖,但还是需要领域专家手动进行标注,特别是在类别数目很大的
    的头像 发表于 02-05 11:02 1868次阅读
    文<b class='flag-5'>本分类</b>的一个大型“真香现场”来了

    基于深度神经网络的文本分类分析

      随着深度学习技术的快速发展,许多研究者尝试利用深度学习解决文本分类问题,特别是在卷积神经网络和循环神经网络方面,出现了许多新颖且有效的分类方法。对基于深度神经网络的文
    发表于 03-10 16:56 37次下载
    基于深度神经网络的文<b class='flag-5'>本分类</b>分析

    融合文本分类和摘要的多任务学习摘要模型

    文本摘要应包含源文本中所有重要信息,传统基于编码器-解码器架构的摘要模型生成的摘要准确性较低。根据文本分类和文本摘要的相关性,提出一种多任务学习摘要模型。从文本分类辅助任务中学习抽象信
    发表于 04-27 16:18 11次下载
    融合文<b class='flag-5'>本分类</b>和摘要的多<b class='flag-5'>任务</b>学习摘要模型

    基于不同神经网络的文本分类方法研究对比

    海量文本分析是实现大数据理解和价值发现的重要手段,其中文本分类作为自然语言处理的经典问题受到研究者广泛关注,而人工神经网络在文本分析方面的优异表现使其成为目前的主要研究方向。在此背景下
    发表于 05-13 16:34 49次下载

    基于LSTM的表示学习-文本分类模型

    的关键。为了获得妤的文本表示,提高文本分类性能,构建了基于LSTM的表示学习-文本分类模型,其中表示学习模型利用语言模型为文本分类模型提供初始化的文本表示和网络参数。文中主要采用对抗训
    发表于 06-15 16:17 18次下载

    带你从头构建文本分类

    本分类是 NLP 中最常见的任务之一, 它可用于广泛的应用或者开发成程序,例如将用户反馈文本标记为某种类别,或者根据客户文本语言自动归类。另外向我们平时见到的邮件垃圾过滤器也是文本分类
    的头像 发表于 03-22 10:49 3601次阅读

    图像分类任务的各种tricks

    计算机视觉主要问题有图像分类、目标检测和图像分割等。针对图像分类任务,提升准确率的方法路线有两条
    的头像 发表于 09-14 16:42 1178次阅读

    PyTorch文本分类任务的基本流程

    本分类是NLP领域的较为容易的入门问题,本文记录文本分类任务的基本流程,大部分操作使用了**torch**和**torchtext**两个库。 ## 1. 文本数据预处理
    的头像 发表于 02-22 14:23 1114次阅读

    卷积神经网络在文本分类领域的应用

    在自然语言处理(NLP)领域,文本分类一直是一个重要的研究方向。随着深度学习技术的飞速发展,卷积神经网络(Convolutional Neural Network,简称CNN)在图像识别领域取得了
    的头像 发表于 07-01 16:25 739次阅读