Google AI最新研究用无监督数据增强推进半监督学习，取得令人瞩目的成果-电子发烧友网

Google AI 最新研究用无监督数据增强推进半监督学习，取得令人瞩目的成果。该方法超越了所有现有的半监督学习方法，并实现了仅使用极少量标记样本即可达到使用大量标记样本训练集的精度。

深度学习之所以能够成功的关键因素，是算法的进步，以及并行处理硬件（GPU / TPU）以及大型标记数据集（如ImageNet）。

然而，当标记数据稀缺时，深度学习就像缺了一条腿。在这种情况下，需要应用数据增强方法，例如对句子进行释义或将图像进行旋转，以有效地增加标记的训练数据的量。

如今，在诸如自然语言处理（NLP），视觉和语音等各种领域的数据增强方法的设计上，已经取得了重大进展。不幸的是，数据增加通常仅限于监督学习，需要标签从原始示例转移到增强示例。

上图：基于文本（顶部）或基于图像（底部）训练数据的示例增强操作。

在谷歌最近“用于一致性训练的无监督数据增强（UDA）”的研究中，证明还可以对未标记数据执行数据增强，以显著改善半监督学习（SSL）。

谷歌的结果促进了半监督学习的复兴，而且还发现3点有趣的现象：（1）SSL可以匹配甚至优于使用数量级更多标记数据的纯监督学习。（2）SSL在文本和视觉两个领域都能很好地工作。（3）SSL能够与迁移学习很好地结合。

此外谷歌还开放了代码在GitHub。

GitHub地址：

https://github.com/google-research/uda

无监督数据扩充

无监督数据增强同时使用标记数据和未标记数据。在标记数据方面，它使用监督学习的标准方法来计算损失函数以训练模型，如下图的左侧部分所示。

而对于未标记的数据，则应用一致性训练来强制预测未标记的示例和增强的未标记示例是否相似，如下图的右侧部分所示。

这里，相同的模型被同时应用于未标记的示例和增强的对应物，以产生两个模型预测，从中计算一致性损失（即，两个预测分布之间的距离）。

然后，UDA通过联合优化标记数据的监督损失和未标记数据的无监督一致性损失，来计算最终损失。

通过最小化一致性损失，UDA允许标签信息从标记的示例平滑地传播到未标记的示例。

直觉上，人们可以将UDA视为隐含的迭代过程：该模型依赖于少量标记的示例，来对一些未标记的示例进行正确的预测，从中通过一致性损失，并将标签信息传播到增强的对应物。随着时间的推移，越来越多未标记的示例终将被正确预测，这反映了模型的改进的泛化。

谷歌对各种其他类型的噪声进行一致性训练测试（例如高斯噪声、对抗性噪声等）后，在各种各样的噪声上实现了最先进的性能。

UDA根据任务应用不同的现有增强方法，包括反向翻译、自动增强和TF-IDF单词替换。

新的NLP和计算机视觉的基准

UDA在低数据体系中出乎意料地有效。只用20个标记示例，UDA通过50000个未标记的示例，在IMDb情绪分析任务中实现了4.20的错误率。

该结果优于先前使用25000个标记示例训练的最先进模型（错误率为4.32）。在大数据制度中，通过完整的训练集，UDA也提供了强大的收益。

IMDb的基准，是一种情绪分析任务。UDA在不同培训规模的监督学习中超越了最先进的成果，如下图。

在CIFAR-10半监督学习基准测试中，UDA的表现同样优于所有现有的SSL方法，如VAT、ICT和MixMatch。

在4k示例情况下，UDA实现了5.27的错误率，与使用50k示例的完全监督模型的性能相匹配。

此外，通过更先进的PyramidNet+ShakeDro架构p，UDA实现了2.7的新的最新错误率，与之前的最佳半监督结果相比，错误率降低了45％以上。

在SVHN上，UDA仅使用250个标记示例，就实现了2.85的错误率，与使用70k标记示例训练的完全监督模型的性能相匹配。

CIFAR-10的SSL基准测试，图像分类任务。UDA超越了所有现有的半监督学习方法，所有这些方法都使用Wide-ResNet-28-2架构。在4000个示例中，UDA将完全监督设置的性能与50000个示例相匹配。

在具有10％标记示例的ImageNet上，UDA将TOP 1精度从55.1％提高到68.7％。

在具有完全标记集和1.3M额外未标记示例的高数据体系中，UDA继续为前1精度提供78.3％至79.0％的增益。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

Google

Google

+关注

关注
5

文章
1765

浏览量
57549
函数

函数

+关注

关注
3

文章
4332

浏览量
62651
数据集

数据集

+关注

关注
4

文章
1208

浏览量
24712

原文标题：让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

适用于任意数据模态的自监督学习数据增强技术

本文提出了一种适用于任意数据模态的自监督学习数据增强技术。自监督学习算法在自然语言处理、计算机视觉等领域

发表于 09-04 10:07 •1124次阅读

适用于任意<b class='flag-5'>数据</b>模态的自<b class='flag-5'>监督学习</b><b class='flag-5'>数据</b><b class='flag-5'>增强</b>技术

基于半监督学习的跌倒检测系统设计_李仲年

基于半监督学习的跌倒检测系统设计_李仲年

发表于 03-19 19:11 •4次下载

基于半监督学习框架的识别算法

人体行为识别是计算机视觉研究的热点问题，现有的行为识别方法都是基于监督学习框架．为了取得较好的识别效果，通常需要大量的有标记样本来建模．然而，获取有标记样本是一个费时又费力的工作．为了解决这个

发表于 01-21 10:41 •1次下载

你想要的机器学习课程笔记在这：主要讨论监督学习和无监督学习

with experience E（一个程序从经验E中学习解决任务T进行某一任务量度P，通过P测量在T的表现而提高经验E（另一种定义：机器学习是用数据或以往的经验，以此优化计算机程序

发表于 12-03 17:12 •553次阅读

如何用Python进行无监督学习

无监督学习是一种用于在数据中查找模式的机器学习技术。无监督算法给出的

发表于 01-21 17:23 •4261次阅读

谷歌：半监督学习其实正在悄然的进化

上图可以看出来，最开始的时候，半监督学习训练确实有种提升监督学习效果的趋势，然而实际操作中，我们经常陷入从“可怕又不可用”的状态，到“不那么可怕但仍然完全不可用”。

发表于 05-25 09:58 •2950次阅读

谷歌：<b class='flag-5'>半</b><b class='flag-5'>监督学习</b>其实正在悄然的进化

无监督机器学习如何保护金融

无监督机器学习是近年才发展起来的反欺诈手法。目前国内反欺诈金融服务主要是应用黑白名单、有监督学习和无监督

发表于 05-01 22:11 •1013次阅读

机器学习算法中有监督和无监督学习的区别

无监督学习的好处之一是，它不需要监督学习必须经历的费力的数据标记过程。但是，要权衡的是，评估其性能的有效性也非常困难。相反，通过将监督学习算

发表于 07-07 10:18 •5776次阅读

最基础的半监督学习

标记数据训练的监督学习技术得到更好的结果。这是半监督学习系列文章的第1部分，对这个机器学习的重要子领域进行了简要的介绍。区分

发表于 11-02 16:08 •2657次阅读

半监督学习最基础的3个概念

有趣的方法，用来解决机器学习中缺少标签数据的问题。SSL利用未标记的数据和标记的数据集来学习任务。SSL的目标是得到比单独使用标记

发表于 11-02 16:14 •2972次阅读

为什么半监督学习是机器学习的未来？

揭示了添加无监督数据可以提高模型泛化和性能。事实上，在非常多的场景中，带有标签的数据并不容易获得。半监督

发表于 11-27 10:42 •3911次阅读

半监督学习：比监督学习做的更好

监督学习是人工智能领域的第一种学习类型。从它的概念开始，无数的算法，从简单的逻辑回归到大规模的神经网络，都已经被研究用来提高精...

发表于 12-08 23:32 •1415次阅读

机器学习中的无监督学习应用在哪些领域

监督学习|机器学习| 集成学习|进化计算| 非监督学习| 半监督学习| 自

发表于 01-20 10:52 •4971次阅读

半监督学习代码库存在的问题与挑战

当使用监督学习(Supervised Learning)对大量高质量的标记数据(Labeled Data)进行训练时，神经网络模型会产生有竞争力的结果。例如，根据Paperswithcode网站统计

发表于 10-18 16:28 •1306次阅读

深度学习中的无监督学习方法综述

深度学习作为机器学习领域的一个重要分支，近年来在多个领域取得了显著的成果，特别是在图像识别、语音识别、自然语言处理等领域。然而，深度学习模型

发表于 07-09 10:50 •759次阅读

搜索历史

Google AI最新研究用无监督数据增强推进半监督学习，取得令人瞩目的成果

评论

适用于任意数据模态的自监督学习数据增强技术

基于半监督学习的跌倒检测系统设计_李仲年

基于半监督学习框架的识别算法

你想要的机器学习课程笔记在这：主要讨论监督学习和无监督学习

如何用Python进行无监督学习

谷歌：半监督学习其实正在悄然的进化

无监督机器学习如何保护金融

机器学习算法中有监督和无监督学习的区别

最基础的半监督学习

半监督学习最基础的3个概念

为什么半监督学习是机器学习的未来？

半监督学习：比监督学习做的更好

机器学习中的无监督学习应用在哪些领域

半监督学习代码库存在的问题与挑战

深度学习中的无监督学习方法综述