NLP中的自监督表示学习-电子发烧友网

导读

其实在自监督学习的概念提出之前，NLP中就已经运用到了这一思想。

虽然计算机视觉在自监督学习方面取得了惊人的进展，但在很长一段时间内，自监督学习一直是NLP研究领域的一等公民。语言模型早在90年代就已经存在，甚至在“自我监督学习”这个术语出现之前。2013年的Word2Vec论文推广了这一模式，在许多问题上应用这些自监督的方法，这个领域得到了迅速的发展。

这些自监督的方法的核心是一个叫做 “pretext task” 的框架，它允许我们使用数据本身来生成标签，并使用监督的方法来解决非监督的问题。这些也被称为“auxiliary task”或“pre-training task“。通过执行此任务获得的表示可以用作我们的下游监督任务的起点。

在这篇文章中，我将概述研究人员在没有明确的数据标注的情况下从文本语料库中学习表示的各种pretext tasks。本文的重点是任务的制定，而不是实现它们的架构。

自监督的方案

1. 预测中心词

在这个公式中，我们取一定窗口大小的一小块文本，我们的目标是根据周围的单词预测中心单词。

例如，在下面的图中，我们有一个大小为1的窗口，因此我们在中间单词的两边各有一个单词。使用这些相邻的词，我们需要预测中心词。

这个方案已经在著名的Word2Vec论文的“Continuous Bag of Words”方法中使用过。

2. 预测邻居词

在这个公式中，我们取一定窗口大小的文本张成的空间，我们的目标是在给定中心词的情况下预测周围的词。

这个方案已经在著名的Word2Vec论文的“skip-gram”方法中实现。

3. 相邻句子的预测

在这个公式中，我们取三个连续的句子，设计一个任务，其中给定中心句，我们需要生成前一个句子和下一个句子。它类似于之前的skip-gram方法，但适用于句子而不是单词。

这个方案已经在Skip-Thought Vectors的论文中使用过。

4. 自回归语言建模

在这个公式中，我们取大量未标注的文本，并设置一个任务，根据前面的单词预测下一个单词。因为我们已经知道下一个来自语料库的单词是什么，所以我们不需要手工标注的标签。

例如，我们可以通过预测给定前一个单词的下一个单词来将任务设置为从左到右的语言建模。

我们也可以用这个方案来通给定未来的单词预测之前的单词，方向是从右到左。

这个方案已经使用在许多论文中，从n-gram模型到神经网络模型比如神经概率语言模型 (GPT) 。

5. 掩码语言建模

在这个方案中，文本中的单词是随机掩码的，任务是预测它们。与自回归公式相比，我们在预测掩码单词时可以同时使用前一个词和下一个词的上下文。

这个方案已经在BERT、RoBERTa和ALBERT的论文中使用过。与自回归相比，在这个任务中，我们只预测了一小部分掩码词，因此从每句话中学到的东西更少。

6. 下一个句子预测

在这个方案中，我们取文件中出现的两个连续的句子，以及同一文件或不同文件中随机出现的另一个句子。

然后，任务是区分两个句子是否是连贯的。

在BERT的论文中，它被用于提高下游任务的性能，这些任务需要理解句子之间的关系，比如自然语言推理(NLI)和问题回答。然而，后来的研究对其有效性提出了质疑。

7. 句子顺序的预测

在这个方案中，我们从文档中提取成对的连续句子。然后互换这两个句子的位置，创建出另外一对句子。

我们的目标是对一对句子进行分类，看它们的顺序是否正确。

在ALBERT的论文中，它被用来取代“下一个句子预测”任务。

8. 句子重排

在这个方案中，我们从语料库中取出一个连续的文本，并破开的句子。然后，对句子的位置进行随机打乱，任务是恢复句子的原始顺序。

它已经在BART的论文中被用作预训练的任务之一。

9. 文档旋转

在这个方案中，文档中的一个随机token被选择为旋转点。然后，对文档进行旋转，使得这个token成为开始词。任务是从这个旋转的版本中恢复原来的句子。

它已经在BART的论文中被用作预训练的任务之一。直觉上，这将训练模型开始识别文档。

10. 表情符号预测

这个方案被用在了DeepMoji的论文中，并利用了我们使用表情符号来表达我们所发推文的情感这一想法。如下所示，我们可以使用推特上的表情符号作为标签，并制定一个监督任务，在给出文本时预测表情符号。

DeepMoji的作者们使用这个概念对一个模型进行了12亿条推文的预训练，然后在情绪分析、仇恨语言检测和侮辱检测等与情绪相关的下游任务上对其进行微调。

责任编辑：lq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4765

浏览量
100585
nlp

nlp

+关注

关注
1

文章
487

浏览量
22017

原文标题：NLP中的自监督表示学习，全是动图，很过瘾的

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

时空引导下的时间序列自监督学习框架

【导读】最近，香港科技大学、上海AI Lab等多个组织联合发布了一篇时间序列无监督预训练的文章，相比原来的TS2Vec等时间序列表示学习工作，核心在于提出了将空间信息融入到预训练阶段，即在预训练阶段

发表于 11-15 11:41 •147次阅读

时空引导下的时间序列<b class='flag-5'>自</b><b class='flag-5'>监督学习</b>框架

神经网络如何用无监督算法训练

神经网络作为深度学习的重要组成部分，其训练方式多样，其中无监督学习是一种重要的训练策略。无监督学习旨在从未标记的数据中发现数据内在的结构、模式或规律，从而提取有用的特征表示。这种训练方

发表于 07-09 18:06 •714次阅读

深度学习中的无监督学习方法综述

应用中往往难以实现。因此，无监督学习在深度学习中扮演着越来越重要的角色。本文旨在综述深度学习中的

发表于 07-09 10:50 •553次阅读

nlp逻辑层次模型的特点

层次是NLP逻辑层次模型的最底层，主要关注单个词汇的意义和用法。在这个层次上，模型需要识别和理解词汇的基本属性，如词性、词义、词形变化等。词汇层次的特点包括： a. 词性标注：识别文本中每个词汇的词性，如名词、动词、形容词等。

发表于 07-09 10:39 •335次阅读

nlp神经语言和NLP自然语言的区别和联系

神经语言（Neuro-Linguistic Programming，NLP）神经语言是一种心理学方法，它研究人类思维、语言和行为之间的关系。NLP的核心理念是，我们可以通过改变我们的思维方式和语言

发表于 07-09 10:35 •720次阅读

nlp自然语言处理模型怎么做

自然语言处理（Natural Language Processing，简称NLP）是人工智能领域的一个重要分支，它涉及到计算机对人类语言的理解和生成。随着深度学习技术的发展，NLP领域取得了显著

发表于 07-05 09:59 •548次阅读

nlp自然语言处理模型有哪些

自然语言处理（Natural Language Processing，NLP）是计算机科学和人工智能领域的一个重要分支，旨在使计算机能够理解、解释和生成人类语言。以下是对NLP领域一些模型的介绍

发表于 07-05 09:57 •637次阅读

深度学习与nlp的区别在哪

深度学习和自然语言处理（NLP）是计算机科学领域中两个非常重要的研究方向。它们之间既有联系，也有区别。本文将介绍深度学习与NLP的区别。深度学习

发表于 07-05 09:47 •828次阅读

NLP技术在人工智能领域的重要性

在自然语言处理（Natural Language Processing, NLP）与人工智能（Artificial Intelligence, AI）的交织发展中，NLP技术作为连接人类语言与机器

发表于 07-04 16:03 •444次阅读

NLP模型中RNN与CNN的选择

在NLP中的应用场景、工作原理、优缺点，以及在选择时应考虑的关键因素，以期为读者提供一个全面而深入的理解。

发表于 07-03 15:59 •450次阅读

OpenAI推出Sora：AI领域的革命性突破

大模型的核心技术是自然语言处理（NLP）和深度学习。具体而言，它基于Transformer架构，使用了大规模无监督学习方法，例如自回归语言建模和掩码语言建模，来训练一个庞大的神经网络模

发表于 02-21 16:36 •996次阅读

2024年AI领域将会有哪些新突破呢？

传统的机器学习需要大量的标记数据进行训练，但自监督学习可以通过无监督的方式从大规模未标记的数据中学习到更有用的

发表于 01-24 09:58 •1964次阅读

基于神经辐射场的自监督多相机占用预测

本研究提出了一种自监督的多摄相机3D占据预测方法，名为OccNeRF。该方法旨在解决无界场景的建模问题。

发表于 01-02 14:53 •431次阅读

基于transformer和自监督学习的路面异常检测方法分享

铺设异常检测可以帮助减少数据存储、传输、标记和处理的压力。本论文描述了一种基于Transformer和自监督学习的新方法，有助于定位异常区域。

发表于 12-06 14:57 •1473次阅读

无监督域自适应场景：基于检索增强的情境学习实现知识迁移

本文对比了多种基线方法，包括无监督域自适应的传统方法（如Pseudo-labeling和对抗训练）、基于检索的LM方法（如REALM和RAG）和情境学习方法（如In-context learning）。

发表于 12-05 14:14 •577次阅读