通过训练大型卷积网络，可以预测数十亿社交媒体图像的hashtag-电子发烧友网

为了解决视觉模型依赖有监督预训练、难以迁移的问题，Facebook何恺明等多名研究者发表了一项独特的迁移学习研究，无需数据清洗和手工标记数据，通过训练大型卷积网络可以预测数十亿社交媒体图像的hashtag，在图像分类和目标检测任务上都得到了迄今最高的精度。

用于各种任务的最先进的视觉感知模型都依赖于有监督的预训练。ImageNet分类实际上是这些模型的预训练任务。然而，ImageNet现在已有近十年的历史，并且按现代标准而言，它的规模相当“小”。

即便如此，对于要用多个数量级更大的数据集进行预训练的行为，我们所知甚少。原因很明显：这些数据集很难收集，也很难注释。

为了解决这个问题，来自Facebook的包括何恺明在内的多名研究者发表了一项独特的迁移学习研究，通过训练大型卷积网络，可以预测数十亿社交媒体图像的hashtag。

这一研究再次引起热议，吴恩达也在推特上盛赞：

“当你在前所未有的35亿张（真的很大！）有标记图像上训练，然后迁移到新的任务，神经网络的预训练能不断改进。在我看来，我们还远远没有接近预训练/迁移学习的极限。”

该研究的实验表明，对大规模 hashtag 预测进行训练可以得到很好的结果。研究展示了几项在图像分类和目标检测任务上的改进，并报告了迄今为止最高的ImageNet-1k single-crop，top-1 精度：85.4％（top-5 精度是97.6％）。大量实验还提供了关于大规模预训练和迁移学习效果之间关系的新的经验数据。

无需数据清洗和人工标记，得到优异迁移性能

几乎所有最先进的视觉感知算法都依赖于同一个方案：（1）在一个大型、手动注释的图像分类数据集上预训练卷积网络；（2）在一个较小的、特定于任务的数据集上微调网络。这个方案已经广泛使用多年，并在许多任务上取得了令人印象深刻的改进，包括物体检测、语义分割、人体姿势估计、视频识别、单目深度估计等。事实上，它是如此有效，以至于现在不使用有监督的预训练被认为是蛮干。

ImageNet数据集实际上是一个预训练数据集。虽然有研究分析了各种ImageNet预训练因素对迁移学习的影响，或使用与ImageNet规模一致的其他数据集，但对于在大几个数量级的数据集上进行预训练的了解相对较少。

原因有很多：这样大的数据集很少，因为构建新的数据集需要大量人力，并且需要大量的计算资源来进行实验。然而，鉴于预训练的核心作用，扩展在这一领域的科学了解非常重要。

本文试图通过研究一个未被探索的数据体系来解决这个复杂的问题：数十亿张带有社交媒体“标签”（hashtags）的真实图片。这个数据源的优点是：它很大，并且在不断增长，以及从注释角度来说它是“免费”的，因为不需要手动标记。但是，这个数据源也有潜在的缺点：hashtag可能噪音太多而不能用作有效的监督信号，并且图像分布可能存在偏差，从而损害迁移学习。因此，在这些数据上进行训练不一定能产生良好的迁移学习结果。

本研究的主要结果是，在没有人工数据集管理或复杂的数据清洗的情况下，使用数千个不同的hashtag作为标签，在数十亿Instagram图像上训练的模型表现出了优异的迁移学习性能。例如，我们观察到在图像分类和物体检测任务上相比state-of-the-art的技术有所改进，我们在ImageNet-1k图像分类数据集 single-crop，top-1的准确率为85.4%，相比此前最优的79.8%要高；在COCO物体检测数据集获得45.2% AP，高于此前最优的43.7%。

但是，我们的主要目标是提供关于这个先前未被探索的体系的新实验数据。为此，我们进行了大量实验，揭示出一些有趣的趋势。例如，我们发现“hashtag engineering”（即收集以特定hashtag子集标记的图像）是改善迁移学习结果的一个有前景的新方向。在大规模hashtag数据上训练对label noise意外的robust，所学的特征允许简单的线性分类器实现最优的ImageNet-1k top-1 准确率，即83.6％，没有任何微调（微调的情况下达到84.2％）。

扩大有监督预训练

在实验中，我们训练了标准的卷积网络架构来预测多达35亿张Instagram公开图像的hashtag。

Instagram 数据集

表1：用于图像分类任务的数据集

ImageNet 数据集

除了标准IN-1k数据集之外，我们还尝试了完整ImageNet 2011版本的更大子集，包含14.2M图像和22k标签。我们构建包含5k和9k标签的训练集和验证集。在所有情况下，每个类都使用50张图像进行验证。

模型

我们使用具有分组卷积层的残差网络ResNeXt[15]，实验使用ResNeXt-101 32×Cd，它有101层，32组，组宽为C。

实验和结果

在实验中，我们预训练了卷积网络来进行标签预测，然后将这些网络迁移到各种任务中。

图像分类实验

我们通过三个分类目标任务（ImageNet [30]， CUB2011 [21]， Places365[14]）的分类精度来评估Instagram预处理。我们对224×224中心裁剪的图像进行推理，并研究（1） hashtag词汇量大小,（2）训练集大小,（3） hashtag 目标中的噪声的数量，以及（4） hashtag的采样策略对结果的影响。

1、Instagram hashtag集对准确度的影响如何？

图1显示，对hashtag预测进行预训练可以显着提高目标任务的准确性：在标准的IN-1k基准测试集中，一个在约1B、具有1.5k标签的Instagram图像集上预训练的网络，最高精度达到84.2％——与仅使用IN-1k训练的相同模型架构相比，提高了4.6％；与使用优化网络架构的先前技术相比，提高了1.5％。

图1：用 IG-1B 数据集训练ResNeXt-101 的分类精度，包含不同词汇量大小的hashtag（紫色条）。灰色条表示基线模型。

Instagram预训练得到的性能改进因ImageNet任务而异。在CUB2011和Places365目标任务中，使用最大 hashtag 集训练的源模型可能表现最佳，因为17k hashtags跨越了更多对象、场景和细粒度类别。这些模式非常直观，表明源标签集和目标标签集之间的对齐是一个重要因素。

我们还使用具有17k hashtags（深紫色条）的更大的3.5B图像集，结果如图1所示。它在所有目标任务中都表现最佳。虽然IN-1M-1k模型在val-IN-1k上获得了87.5％的rectified top-1 精度，但我们的IG-3.5B-17k预训练模型精度达到了90.4％。

2、预训练图像集大小对准确度的影响如何？

图2：在IN- {1k，5k，9k}和CUB2011的分类精度。横轴表示源任务的训练图像数量。

图2显示了ImageNet验证集的分类精度（y轴），它是Instagram训练图像数量（x轴）的函数，数量范围从3.5M到3.5B。该图显示了预训练的模型的结果，用于预测具有三种不同容量（由不同颜色表示）的ResNeXt-101模型的1.5k标签（虚线）或17k标签（实线）。

3、hashtag标签的噪声对模型精度有什么影响？

图3：在IG-1B-17k上预训练的ResNeXt-101 32×16d的分类精度

图3的结果表明，网络对标签噪声具有显着的弹性：p = 10％的噪声水平导致分类精度损失小于1％，而标签噪声p = 25％，精度降低约2％。这些结果表明，如果在数十亿图像上训练网络，标签噪声可能问题不大。

4、预训练数据的采样如何影响准确性？

图4：ResInXt-101 32×4d的分类精度，在IG-1B-17k上预训练，在val-IN- {1k，5k，9k}上用三种不同的标签采样策略：自然采样，均匀采样和平方根采样。

结果表明重新采样标签分布对于获得良好的ImageNet图像分类结果非常重要：使用均匀采样或平方根采样可以提高5到6％的准确度，无论ImageNet类的数量是多少。该图还表明，随着目标类数量的增长，更大的hashtag词汇量可以提高准确度。

探索监督预训练的极限

我们试图探索监督预训练（supervised pretraining）的极限。除了在ImageNet-1k基准任务（85.4％single-crop， top-1 精度; 97.6％single-crop， top-5 精度）和其他几项视觉任务上产生最先进的结果，我们的研究还得到四个重要的观察：

1、我们的结果表明，虽然增加预训练数据集的大小是值得的，但为源任务选择标签空间以匹配目标任务的标签空间至少同等重要。我们发现，在设计用于匹配ImageNet-1k数据集中类的标签词汇表上训练的网络优于那些训练了两倍数量的图像、而没有仔细选择hashtag标签的网络（图2左上）。

这一发现为“label-space engineering”方法的设计铺平了道路，该方法旨在为特定目标任务选择最佳的（弱监督）标签集。这种标签空间工程可能比进一步增加训练模型的数据规模更有成效。

2、与先前的工作[16,17]一致，我们观察到在训练数十亿图像时，当前的网络架构是欠拟合（underfitting）的。虽然这种underfitting的确导致对hashtag的噪声具有很高的鲁棒性，但我们的结果表明，通过进一步提高网络容量可以提高目标任务准确性。例如，通过增加现有架构的层数和每层的过滤器数量，或者通过专家混合（使用跨GPU的模型并行化），可以增加容量。

3、实验结果还强调了在基准测试任务中更多地考虑视觉多样性的重要性。结果表明，如果在具有更大视觉变化的任务上评估这些特征，则视觉特征质量的差异变得更加明显。例如，我们发现使用两个不同词汇表预训练的模型之间的准确度差异随着目标类数量的增加而增加。我们相信对更多ImageNet类进行评估有助于更全面地评估视觉识别模型。

4、将模型转换为目标检测、实例分割和关键点检测任务的结果表明，大规模标签预测的训练可以改善分类，同时可能会损害定位（localization）的性能。这为改进大规模、弱监督的预训练任务，以更好地适应目标任务（如检测、姿态估计等）的定位需求开辟了新的方向。

最后，我们反思了一个值得注意的事实，即hashtag prediction的训练根本不需要额外的手动注释或数据清理。我们认为，与传统的人工设计和注释数据集的方法相比，我们的研究表明了自然数据或“wild”数据的潜力。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

图像分类

图像分类

+关注

关注
0

文章
93

浏览量
11991
数据集

数据集

+关注

关注
4

文章
1212

浏览量
24964

原文标题：何恺明等新作：用35亿社交网络图片训练AI算法，吴恩达推荐

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

【PYNQ-Z2申请】基于PYNQ的卷积神经网络加速

项目名称：基于PYNQ的卷积神经网络加速试用计划：申请理由：本人研究生在读，想要利用PYNQ深入探索卷积神经网络的硬件加速，在PYNQ上实现图像

发表于 12-19 11:37

基于赛灵思FPGA的卷积神经网络实现设计

学习已经在图像识别和语音识别等任务中取得巨大成功。深度学习技术使用大量已知数据找到一组权重和偏差值，以匹配预期结果。这个过程被称为训练，并会产生大型模式。这激励工程师倾向于利用专用硬件（例如 GPU

发表于 06-19 07:24

卷积神经网络为什么适合图像处理？

卷积神经网络为什么适合图像处理？

发表于 09-08 10:23

卷积神经网络简介：什么是机器学习？

复杂数据中提取特征的强大工具。例如，这包括音频信号或图像中的复杂模式识别。本文讨论了 CNN 相对于经典线性规划的优势。后续文章“训练卷积神经网络：什么是机器学习？——第2部分”将讨论

发表于 02-23 20:11

通过简单的「图像旋转」预测便可为图像特征学习提供强大监督信号

我们的研究遵循自监督范例，并提出，通过训练卷积神经网络（ConvNets）识别应用于其作为输入的图像的几何变换，从而学习图像表示。更具体地说

发表于 03-26 13:40 •4326次阅读

面向社交媒体的高质量文章内容识别模型

如何从海量多媒体文章中自动识别高质量内容是信息推荐、搜索引擎等系统的核心功能之一。现有的方法在训练中依赖大量的人工标注数据。针对其未考虑社交媒体中的

发表于 05-11 11:09 •11次下载

训练卷积神经网络通过绘画3D地形识别画家

的 research 通过训练卷积神经网络，根据绘画的 3D 地形来学习和识别画家。这项工作可以帮助历史学家和艺术专家区分合作作品中的艺术家，并找到伪造的作品。

发表于 04-07 17:06 •1223次阅读

python卷积神经网络cnn的训练算法

python卷积神经网络cnn的训练算法卷积神经网络（Convolutional Neural Network，CNN）一直是深度学习领

发表于 08-21 16:41 •1799次阅读

卷积神经网络模型训练步骤

模型训练是将模型结构和模型参数相结合，通过样本数据的学习训练模型，使得模型可以对新的样本数据进行准确的预测和分类。本文将详细介绍 CNN

发表于 08-21 16:42 •1900次阅读

卷积神经网络如何识别图像

多层卷积层、池化层和全连接层。CNN模型通过训练识别并学习高度复杂的图像模式，对于识别物体和进行图像分类等任务有着非常优越的表现。本文将会详细介绍卷

发表于 08-21 16:49 •2062次阅读

cnn卷积神经网络模型卷积神经网络预测模型生成卷积神经网络模型

cnn卷积神经网络模型卷积神经网络预测模型生成卷积神经网

发表于 08-21 17:11 •1362次阅读

卷积神经网络的基本原理、结构及训练过程

、训练过程以及应用场景。一、卷积神经网络的基本原理卷积运算卷积运算是卷积神经

发表于 07-02 14:21 •3329次阅读

卷积神经网络在图像识别中的应用

卷积操作卷积神经网络的核心是卷积操作。卷积操作是一种数学运算，用于提取图像中的局部特征。在

发表于 07-02 14:28 •1420次阅读

卷积神经网络训练的是什么

、训练过程以及应用场景。 1. 卷积神经网络的基本概念 1.1 卷积神经网络的定义卷积神经

发表于 07-03 09:15 •608次阅读

卷积神经网络可以通过输出反推到输入吗

卷积神经网络（Convolutional Neural Networks，简称CNN）是一种深度学习模型，广泛应用于图像识别、视频分析、自然语言处理等领域。CNN通过

发表于 07-03 09:17 •861次阅读

搜索历史

通过训练大型卷积网络，可以预测数十亿社交媒体图像的hashtag

评论

【PYNQ-Z2申请】基于PYNQ的卷积神经网络加速

基于赛灵思FPGA的卷积神经网络实现设计

卷积神经网络为什么适合图像处理？

卷积神经网络简介：什么是机器学习？

通过简单的「图像旋转」预测便可为图像特征学习提供强大监督信号

面向社交媒体的高质量文章内容识别模型

训练卷积神经网络通过绘画3D地形识别画家

python卷积神经网络cnn的训练算法

卷积神经网络模型训练步骤

卷积神经网络如何识别图像

cnn卷积神经网络模型卷积神经网络预测模型生成卷积神经网络模型

卷积神经网络的基本原理、结构及训练过程

卷积神经网络在图像识别中的应用

卷积神经网络训练的是什么

卷积神经网络可以通过输出反推到输入吗