通过简单的「图像旋转」预测便可为图像特征学习提供强大监督信号-电子发烧友网

在过去的几年中，深度卷积神经网络（ConvNets）已经改变了计算机视觉的领域，这是由于它们具有学习高级语义图像特征的无与伦比的能力。然而，为了成功地学习这些特征，它们通常需要大量手动标记的数据，这既昂贵又不可实行。因此，无监督语义特征学习，即在不需要手动注释工作的情况下进行学习，对于现今成功获取大量可用的可视数据至关重要。

在我们的研究中，我们打算通过这种方式学习图像特征：训练卷积神经网络来识别被应用到作为输入的图像上的二维旋转。我们从定性和定量两方面证明，这个看似简单的任务实际上为语义特征学习提供了非常强大的监督信号。我们在各种无监督的特征学习基准中，对我们的方法进行了详尽的评估，并在所有这些基准中展示出了最先进的性能。

具体来说，我们在这些基准中的结果展现了在无监督的表征学习中，较之先前最先进的方法，我们的方法取得了巨大改进，从而显著缩小了与监督特征学习之间的差距。例如，在PASCAL VOC 2007检测任务中，我们的无监督预训练的AlexNet模型达到了54.4%的最先进的性能表现（在无监督的方法中），比监督学习的情况下仅少了2.4个百分点。当我们将无监督的学习特征迁移到其他任务上时，我们得到了同样的惊人结果，例如ImageNet分类、PASCAL分类、PASCAL分割和CIFAR-10分类。我们论文的代码和模型将会发布在这里。

近年来，在计算机视觉中广泛采用的深度卷积神经网络（LeCun等人于1998年提出），在这一领域取得了巨大的进步。具体来说，通过在具有大量手动标记数据的目标识别（Russakovsky等人于2015年提出）或场景分类（Zhou等人于2014年提出）任务上对卷积神经网络进行训练，它们成功学习到了适合于图像理解任务的强大视觉表征。

例如，在这种监督的方式下，卷积神经网络所学习的图像特征在它们被迁移到其他视觉任务时取得了很好的效果，比如目标检测（Girshick于2015年提出）、语义分割（Long等人于2015年提出），或者图像描述（Karpathy 和 Fei-Fei于2015年提出）。然而，监督特征学习有一个主要的限制，那就是需要大量的手动标记工作。在如今拥有大量可用的可视数据的情况下，这既昂贵又不可实行。

以90°的随机倍数（例如，0°、90°、180°、270°）旋转的图像。我们自监督特征学习方法的核心观念是，如果一个人对图像中描述的对象没有概念，那么他就不能识别应用于它们的旋转。

因此，最近人们对以无监督的方式学习高级的基于卷积神经网络的表征越来越感兴趣，这种方式避免了对视觉数据的手动注释。其中，一个突出的范例就是所谓的自监督学习，它界定了一个注解不受约束的借口任务，只使用图像或视频上的视觉信息，从而给特征学习提供一个代理监督信号。

例如，为了学习特征，Zhang等人和Larsson等人训练了卷积神经网络以对灰度图像进行着色，Doersch等人（于2015年）、Noroozi 和 Favaro（于2016年）预测了图像块的相对位置，以及Agrawal等人（于2015年）预测了在两个连续帧之间正在移动的车辆的运动（即自动）。

这种自监督任务背后的基本原理是，解决这些问题将迫使卷积神经网络学习语义图像特征，这对其他视觉任务是有用的。事实上，通过上述自监督任务所学习的图像表征，尽管它们没能做到与监督学习表征的性能相当，但它们已经被证明在迁移到其他视觉任务上时是个好选择，诸如目标识别、目标检测和语义分割。其他成功的无监督特征学习案例是基于聚类的方法、基于重构的方法，和学习生成概率模型的方法。

我们所提出的用于语义特征学习的自监督任务的说明图

我们的研究遵循自监督范例，并提出，通过训练卷积神经网络（ConvNets）识别应用于其作为输入的图像的几何变换，从而学习图像表示。更具体地说，首先，我们定义了一组离散的几何变换，然后将这些几何变换中的每一个应用于数据集上的每个图像，并且将生成的变换图像馈送到经过训练以识别每个图像的变换的卷积神经网络模型中。在这个方法中，它是一组几何变换，实际上定义了卷积神经网络模型所必须学习的分类接口任务（classification pretext task）。

因此，为了实现无监督的语义特征学习，正确地选择这些几何变换是至关重要的。我们提出的是将几何变换定义为0°、90°、180°和270°的图像旋转。因此，卷积神经网络模型在识别四个图像旋转之一（见图2）的4种图像分类任务上进行了训练。我们认为，为了让一个ConvNet模型能够识别应用于图像中的旋转变换，它需要理解图像中所描述的对象的概念（参见图1），例如它们在图像中的位置、类型和、姿势。在整篇论文中，我们从定性和定量的论证上支持这一理论。

此外，我们经过实验证明，尽管我们的自监督方法很简单，但预测旋转变换的任务为特征学习提供了一个强大的替代监督信号。在相关基准测试上取得了显著的进步。

由AlexNet模型所生成的注意力图（attention map），对（a）进行训练以识别目标（监督），和对（b）进行训练以识别图像旋转（自监督）。为了生成一个卷积层的注意图，我们首先计算该层的特征映射，然后我们提高power p上的每个特征激活，最后我们对特征映射的每个位置处的激活进行求和。对于卷积层1,2和3，我们分别使用了p = 1、p = 2和p = 4

需要注意的是，我们的自监督任务不同于Dosovitskiy等人于2014年和Agrawal等人于2015年所提出的研究方法，尽管他们也涉及到几何变换。Dosovitskiy等人于2014年训练了卷积神经网络模型，以产生对图像的区分性表征，同时不改变几何和色度变换。相反，我们训练卷积神经网络模型来识别应用于图像的几何变换。

这与Agrawal等人于2015年提出的自运动方法（egomotion method）有根本的不同，该方法采用了一种带有孪生（siamese）结构的卷积神经网络模型，该模型将两个连续的视频帧作为输入，并进行训练以预测（通过回归）其相机转换。相反，在我们的方法中，卷积神经网络将一个单一图像作为输入，我们已经应用了一个随机几何变换（旋转），并经过训练（通过分类）识别这种几何变换，而不需要访问初始图像。

由AlexNet模型所学习第一层过滤器在（a）监督目标识别任务和（b）识别旋转图像的自监督任务上进行的训练

我们的贡献：

•我们提出了一个新的自监督任务，这个任务非常简单，与此同时，我们也在文章中进行了展示，为语义特征学习提供了强大的监督信号。

•我们在各种环境（例如半监督或迁移学习环境）和各种视觉任务（即CIFAR-10、ImageNet、Places和PASCAL分类以及检测或分割任务）中详细评估了我们的自监督方法。

•我们提出的新的自监督方法在各个方面都展现出了最先进的成果，较先前的无监督方法有了显著改善。

•我们的研究表明，对于几个重要的视觉任务而言，我们的自监督学习方法显著缩小了与无监督和监督特征学习之间的差距。

经过研究，我们提出了一种用于自监督特征学习的新方法，它通过训练卷积神经网络模型，使其能够识别已经用作输入图像的图像旋转。尽管我们的自监督任务很简单，但我们证明，它可以成功地训练卷积神经网络模型，从而学习语义特征，这些语义特征对于各种视觉感知任务非常有用，例如目标识别、目标检测和目标分割。

我们在各种无监督和半监督条件下对我们的方法进行了详尽的评估，并且在测试中实现了最先进的性能。具体而言，我们的自监督方法大幅度改进了ImageNet分类、PASCAL分类、PASCAL检测、PASCAL分割和CIFAR-10分类的无监督特征学习的最新结果，超越了以往的方法，因此大幅缩小了无监督和监督特征学习之间的差距。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4785

浏览量
101279
图像

图像

+关注

关注
2

文章
1089

浏览量
40601

原文标题：无监督学习最新研究：通过简单的「图像旋转」预测便可为图像特征学习提供强大监督信号

文章出处：【微信号：AItists，微信公众号：人工智能学家】欢迎添加关注！文章转载请注明出处。

机器学习技术在图像处理中的应用

在本章中，我们将讨论机器学习技术在图像处理中的应用。首先，定义机器学习，并学习它的两种算法——监督算法和无

发表于 10-18 16:08 •2428次阅读

50多种适合机器学习和预测应用的API，你的选择是？（2018年版本）

据分析服务。用户可以建立一个数据源，并通过标准的HTTP创建模型来处理标准的有监督和无监督学习的机器学习任务。3.Google Cloud Prediction：

发表于 05-03 16:41

如何平滑地旋转图像？

我正在尝试创建一个繁忙的圈子（例如在加载网页时显示的圈子）。我想使用自定义图像而不是圆圈。我为此使用了 TextureMapper。但是我没有得到连续平滑的图像旋转。图像

发表于 12-27 08:20

基于OpenCV的图像特征智能识别系统设计

对于图像监控而言，多数监控只是简单的捕捉图像、处理图像，最后再通过人工进行识别，缺少智能监控，特别是针对某一特定需求的

发表于 12-31 09:20 •20次下载

如何利用倍频信号滤波的非规则图像动态特征

图像的冲击脉冲信号，采集的非规则图像动态特征信号输入后作乘法运算，输出结果为两者的乘积，再经低通滤波将倍频

发表于 09-21 13:45 •2次下载

如何利用倍频<b class='flag-5'>信号</b>滤波的非规则<b class='flag-5'>图像</b>动态<b class='flag-5'>特征</b>

半监督的谱聚类图像分割

采用IRAM算法计算相似度矩阵的主导特征值，减小运算时间。为解决谱聚类敏感于尺度参数的问题，提出利用少量监督样本求取每幅图像特有的尺度参数，进行半监督

发表于 11-13 11:17 •4次下载

opencv如何实现图像旋转_原理是什么

旋转一般是指将图像围绕某一指定点旋转一定的角度，图像旋转后会有一部分图像转出显示区域，可以截图那

发表于 12-04 16:40 •2.8w次阅读

opencv如何实现<b class='flag-5'>图像</b><b class='flag-5'>旋转</b>_原理是什么

基于邻域特征学习的单幅图像超分辨重建

针对图像重建过程中待插值点灰度估计不准确的问题，提出一种基于邻域特征学习的单幅图像超分辨回归分析方法。在输入低分辨率图像后，利用

发表于 02-07 15:59 •1次下载

基于邻域<b class='flag-5'>特征</b><b class='flag-5'>学习</b>的单幅<b class='flag-5'>图像</b>超分辨重建

简单好上手的图像分类教程！

简单好上手的图像分类教程！构建图像分类模型的一个突破是发现卷积神经网络（CNN）可以用来逐步地提取图像内容的更高层的表示。CNN不是预先处理数据以获得纹理、形状等

发表于 05-31 16:36 •8298次阅读

<b class='flag-5'>简单</b>好上手的<b class='flag-5'>图像</b>分类教程！

基于SIFT特征的图像配准（图像匹配）

　SIFT图像处理代码，必须和三个文件一起下载使用：基于SIFT特征的图像配准（Matlab源代码）、基于SIFT特征的图像配准（仿真图片）

发表于 08-06 08:00 •3次下载

采用自监督CNN进行单图像深度估计的方法

为了提高利用深度神经网络预测单图像深度信息的精确度，提出了一种采用自监督卷积神经网络进行单图像深度估计的方法。首先，该方法通过在编解码结构中

发表于 04-27 16:06 •13次下载

采用自<b class='flag-5'>监督</b>CNN进行单<b class='flag-5'>图像</b>深度估计的方法

基于成对学习和图像聚类的肺癌亚型识别

基因诊断是近年来提高肺癌治愈率的一种新型且有效的方法，但这种方法存在基因检测时间长、费用高、侵入式取样损伤大的问题。文中提出了基于成对学习和图像聚类的无监督学习的肺癌亚型识别方法。首先，采用无

发表于 05-10 11:20 •4次下载

基于特征的基图像提取和重构方法

图像作为一种典型信号，理论上可由一系列基本信号构成。为寻找一组可重构图像的基本信号，提出了基于特征

发表于 06-16 16:01 •19次下载

如何缩小弱监督信号与密集预测之间的差距

导读本文围绕非完全监督下的图像分割方法最新综述，讲述用于解决“如何缩小弱监督信号与密集预测之间的差距”的四种通用的启发式先验。

发表于 07-13 10:51 •1230次阅读

简单易懂常用的 Python 图像处理库

图像处理中的常见任务包括显示图像，基本操作（如裁剪、翻转、旋转等），图像分割，分类和特征提取，图像

发表于 12-28 09:42 •839次阅读

搜索历史

通过简单的「图像旋转」预测便可为图像特征学习提供强大监督信号

评论