半监督学习最基础的3个概念-电子发烧友网

导读

今天给大家介绍半监督学习中的3个最基础的概念：一致性正则化，熵最小化和伪标签，并介绍了两个经典的半监督学习方法。

没看一的点这里哈：半监督学习入门基础（一）

半监督学习 (SSL) 是一种非常有趣的方法，用来解决机器学习中缺少标签数据的问题。SSL利用未标记的数据和标记的数据集来学习任务。SSL的目标是得到比单独使用标记数据训练的监督学习模型更好的结果。这是关于半监督学习的系列文章的第2部分，详细介绍了一些基本的SSL技术。

一致性正则化，熵最小化，伪标签

SSL的流行方法是在训练期间往典型的监督学习中添加一个新的损失项。通常使用三个概念来实现半监督学习，即一致性正则化、熵最小化和伪标签。在进一步讨论之前，让我们先理解这些概念。

一致性正则化强制数据点的实际扰动不应显著改变预测器的输出。简单地说，模型应该为输入及其实际扰动变量给出一致的输出。我们人类对于小的干扰是相当鲁棒的。例如，给图像添加小的噪声(例如改变一些像素值)对我们来说是察觉不到的。机器学习模型也应该对这种扰动具有鲁棒性。这通常通过最小化对原始输入的预测与对该输入的扰动版本的预测之间的差异来实现。

模型对输入x及其扰动x^的一致性度量

d(.,.) 可以是均方误差或KL散度或任何其他距离度量。

一致性正则化是利用未标记数据找到数据集所在的平滑流形的一种方法。这种方法的例子包括π模型、Temporal Ensembling，Mean Teacher，Virtual Adversarial Training等。

熵最小化鼓励对未标记数据进行更有信心的预测，即预测应该具有低熵，而与ground truth无关(因为ground truth对于未标记数据是未知的)。让我们从数学上理解下这个。

熵的计算

这里，K是类别的数量，是模型对x预测是否属于类别k的置信度。

此外，输入示例中所有类的置信度之和应该为1。这意味着，当某个类的预测值接近1，而其他所有类的预测值接近0时，熵将最小化。因此，这个目标鼓励模型给出高可信度的预测。

理想情况下，熵的最小化将阻止决策边界通过附近的数据点，否则它将被迫产生一个低可信的预测。请参阅下图以更好地理解此概念。

由不同的半监督学习方法生成的决策边界

伪标签是实现半监督学习最简单的方法。一个模型一开始在有标记的数据集上进行训练，然后用来对没有标记的数据进行预测。它从未标记的数据集中选择那些具有高置信度(高于预定义的阈值)的样本，并将其预测视为伪标签。然后将这个伪标签数据集添加到标记数据集，然后在扩展的标记数据集上再次训练模型。这些步骤可以执行多次。这和自训练很相关。

在现实中视觉和语言上扰动的例子

视觉:

翻转，旋转，裁剪，镜像等是图像常用的扰动。

语言

反向翻译是语言中最常见的扰动方式。在这里，输入被翻译成不同的语言，然后再翻译成相同的语言。这样就获得了具有相同语义属性的新输入。

NLP中的反向翻译

半监督学习方法

π model：

这里的目标是一致性正则化。

π模型鼓励模型对两个相同的输入(即同一个输入的两个扰动变量)输出之间的一致性。

π模型有几个缺点，首先，训练计算量大，因为每个epoch中单个输入需要送到网络中两次。第二，训练目标zĩ是有噪声的。

Temporal Ensembling：

这个方法的目标也是一致性正则化，但是实现方法有点不一样。

众所周知，与单一模型相比，模型集成通常能提供更好的预测。通过在训练期间使用单个模型在不同训练时期的输出来形成集成预测，这一思想得到了扩展。

简单来说，不是比较模型的相同输入的两个扰动的预测(如π模型)，模型的预测与之前的epoch中模型对该输入的预测的加权平均进行比较。

这种方法克服了π模型的两个缺点。它在每个epoch中，单个输入只进入一次，而且训练目标zĩ 的噪声更小，因为会进行滑动平均。

这种方法的缺点是需要存储数据集中所有的zĩ 。

英文原文：https://medium.com/analytics-vidhya/a-primer-on-semi-supervised-learning-part-2-803f45edac2

责任编辑：xj

原文标题：半监督学习入门基础（二）：最基础的3个概念

文章出处：【微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

SSL

SSL

+关注

关注
0

文章
125

浏览量
25739
半监督

半监督

+关注

关注
0

文章
5

浏览量
6325
机器学习

机器学习

+关注

关注
66

文章
8416

浏览量
132616
深度学习

深度学习

+关注

关注
73

文章
5503

浏览量
121151

原文标题：半监督学习入门基础（二）：最基础的3个概念

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

自然语言处理与机器学习的关系自然语言处理的基本概念及步骤

Learning，简称ML）是人工智能的一个核心领域，它使计算机能够从数据中学习并做出预测或决策。自然语言处理与机器学习之间有着密切的关系，因为机器学习提供了一种强大的工具，用于从大

发表于 12-05 15:21 •467次阅读

时空引导下的时间序列自监督学习框架

【导读】最近，香港科技大学、上海AI Lab等多个组织联合发布了一篇时间序列无监督预训练的文章，相比原来的TS2Vec等时间序列表示学习工作，核心在于提出了将空间信息融入到预训练阶段，即在预训练阶段

发表于 11-15 11:41 •249次阅读

【《大语言模型应用指南》阅读体验】+ 基础知识学习

收集海量的文本数据作为训练材料。这些数据集不仅包括语法结构的学习，还包括对语言的深层次理解，如文化背景、语境含义和情感色彩等。自监督学习：模型采用自监督学习策略，在大量无标签文本数据上学习

发表于 08-02 11:03

【《大语言模型应用指南》阅读体验】+ 基础篇

章节最后总结了机器学习的分类：有监督学习、无监督学习、半监督学习、自监督学习和强化

发表于 07-25 14:33

三位半和四位半万用表的区别

三位半和四位半万用表是电子测量领域中常用的两种数字万用表，它们在测量精度、显示方式、应用范围等方面存在一定的差异。本文将从多个方面详细分析这两种万用表的区别。一、基本概念三位半万用

发表于 07-14 14:23 •5676次阅读

神经网络如何用无监督算法训练

神经网络作为深度学习的重要组成部分，其训练方式多样，其中无监督学习是一种重要的训练策略。无监督学习旨在从未标记的数据中发现数据内在的结构、模式或规律，从而提取有用的特征表示。这种训练方式对于大规模未

发表于 07-09 18:06 •796次阅读

深度学习中的无监督学习方法综述

应用中往往难以实现。因此，无监督学习在深度学习中扮演着越来越重要的角色。本文旨在综述深度学习中的无监督学习方法，包括自编码器、生成对抗网络、聚类算法等，并分析它们的原理、应用场景以及优

发表于 07-09 10:50 •720次阅读

迁移学习的基本概念和实现方法

迁移学习（Transfer Learning）是机器学习领域中的一个重要概念，其核心思想是利用在一个任务或领域中学到的知识来加速或改进另一

发表于 07-04 17:30 •1643次阅读

基于FPGA的类脑计算平台 —PYNQ 集群的无监督图像识别类脑计算系统

STDP 无监督学习算法，可运用于图像的无监督分类。从平台设计角度： (1)本设计搭建的基于 PYNQ 集群的通用低功耗的大规模类脑计算平台，搭载 PYNN，NEST 等通用 SNN

发表于 06-25 18:35

无监督深度学习实现单次非相干全息3D成像

论文信息背景引入数字全息术因其能够从单一视点对3D场景进行成像而备受关注。与直接成像相比，数字全息是一种间接的多步骤成像过程，包括光学记录全息图和数值计算重建，为包括深度学习在内的计算成像方法

发表于 05-13 17:38 •444次阅读

CVPR'24 Highlight！跟踪3D空间中的一切！

为了使用三维运动先验正则化估计的三维轨迹，模型另外预测了每条轨迹的刚性嵌入，这使能够软地分组表现出相同刚性体运动的像素，并为每个刚性集群强制执行ARAP正则化。作者证明了刚性嵌入可以通过自监督学习，并产生不同刚性部分的合理分割。

发表于 04-13 12:12 •1242次阅读

机器学习基础知识全攻略

有监督学习通常是利用带有专家标注的标签的训练数据，学习一个从输入变量X到输入变量Y的函数映射。Y = f (X)，训练数据通常是(n×x,y)的形式，其中n代表训练样本的大小，x和y分别是变量X和Y的样本值。

发表于 02-25 13:53 •244次阅读

OpenAI推出Sora：AI领域的革命性突破

大模型的核心技术是自然语言处理（NLP）和深度学习。具体而言，它基于Transformer架构，使用了大规模无监督学习方法，例如自回归语言建模和掩码语言建模，来训练一个庞大的神经网络模型。

发表于 02-21 16:36 •1020次阅读

2024年AI领域将会有哪些新突破呢？

传统的机器学习需要大量的标记数据进行训练，但自监督学习可以通过无监督的方式从大规模未标记的数据中学习到更有用的表示形式，从而提高模型的性能。

发表于 01-24 09:58 •2010次阅读

谷歌MIT最新研究证明：高质量数据获取不难，大模型就是归途

另一个极端是，监督学习方法（即SupCE）会将所有这些图像视为单一类（如「金毛猎犬」）。这就忽略了这些图像在语义上的细微差别，例如在一对图像中狗在骑自行车，而在另一对图像中狗坐在寿司屋内。

发表于 01-15 15:40 •541次阅读