0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

对比学习的关键技术和基本应用分析

深度学习自然语言处理 来源:RUC AI Box 作者:杨锦霞 2022-03-09 16:28 次阅读

对比学习可以应用于监督和无监督的场景下,目前在CV、NLP等领域中取得了较好的性能。本文对对比学习进行基础介绍,以及其在NLP和多模态中的应用。

引言

对比学习的主要思想是相似的样本的表示相近,而不相似的远离。对比学习可以应用于监督和无监督的场景下,并且目前在CV、NLP等领域中取得了较好的性能。本文先对对比学习进行基础介绍,之后会介绍对比学习在NLP和多模态中的应用,欢迎大家批评和交流。

对比学习基础介绍

损失函数

1. NCE[1](Noise-contrastive estimation):是估计统计模型的参数的一种方法,主要通过学习数据分布和噪声分布之间的区别。下面给出NCE的原始形式,它包含一个正负样本对。在之后的许多研究工作中,包含多个正样本或负样本也被广义的称为NCE。下式中x表示数据,y为噪声。

a98c9e70-9dca-11ec-952b-dac502259ad0.png

2. InfoNCE[2]:在CPC中提出,使用分类交叉熵损失在一组负样本中识别正样本。原论文给出的式子如下:

a9a2fdfa-9dca-11ec-952b-dac502259ad0.png

3. Triplet Loss:三元组损失,最初是由谷歌在FaceNet[3]中提出,主要用于识别在不同角度和姿势下的人脸。下式中加号在右下角表示max(x,0)。

aa52e85a-9dca-11ec-952b-dac502259ad0.png

4. N-pair Loss[4]:Multi-Class N-pair loss,是将Triplet Loss泛化到与多个负样本进行对比。

aa64db6e-9dca-11ec-952b-dac502259ad0.png

衡量标准

衡量指标由(Wang & Isola, 2020)[5]提出,文中说明了对比学习算法具有两个关键属性alignment和uniformity,很多有效的对比学习算法正是较好地满足了这两种性质。

alignment:衡量正例样本间的近似程度

uniformity:衡量特征向量在超球体上的分布的均匀性

文章同时给出了衡量两种性质的评价指标,并同时指出优化这两个指标会在下游任务上表现更好。

aa8f6da2-9dca-11ec-952b-dac502259ad0.png

关键技术

1. 正负样本的构造

数据增强:给定训练数据,需要进行数据增强来得到更多正样本。正确有效的数据增强技术对于学习好的表征至关重要。比如SimCLR[6]的实验表明,图片的随机裁剪和颜色失真是最有效的两种方式。而对于句子来说,删除或替换可能会导致语义的改变。

负样本构造:一般对比学习中使用in-batch negatives,将一个batch内的不相关数据看作负样本。

多个模态:正样本对可以是两种模态的数据,比如图片和图片对应描述。

2. 大的batch size

在训练期间使用大的batch size是许多对比学习方法成功的一个关键因素。当batch size足够大时,能够提供大量的负样本,使得模型学习更好表征来区别不同样本。

对比学习在NLP领域的应用

A Simple but Tough-to-Beat Data Augmentation Approach for Natural Language Understanding and Generation

受多视图学习的启发,这篇文章主要提出了一种Cutoff的数据增强方法,包含以下三种策略:

Token cutoff:删除选中的token信息。为了防止信息泄露,三种类型的编码都被改为0。

Feature cutoff:删除特征,将整列置为0。。

Span cutoff:删除连续的文本块。

aaac500c-9dca-11ec-952b-dac502259ad0.png

作者将Cutoff应用到自然语言理解和机器翻译任务上去,实验结果表明这种简单的数据增强方式得到了与基线相当或更好的结果。目前,Cutoff也作为一种常用的数据增强方法应用到不同的对比学习模型中去。

CERT:Contrastive Self-supervised Learning for Language Understanding

CERT主要流程图如下。可以看出,在预训练Bert的基础上,CERT增加了CSSL预训练任务来得到更好的表征。

aac2ab4a-9dca-11ec-952b-dac502259ad0.png

本文首先通过back-translation方式进行数据增强,使用不同语言的翻译模型来创建不同的正样本。

CSSL Pretraining:使用类似MoCo[7]的对比学习框架,采用一个队列去存储数据增强后的keys,并且使用一种动量更新的方法对该队列进行更新。给定句子q,设队列中存有与其互为正样本的k+,故对比损失定义如下:

aaf3bb7c-9dca-11ec-952b-dac502259ad0.png

作者测试了CERT在GLUE 数据集的上的性能。在11个任务中,CERT在7个任务上优于BERT,2个任务上效果相当,整体性能优于BERT。这进一步证明了对比自监督学习是一个学习更好的语言表征的方法。

SimCSE: Simple Contrastive Learning of Sentence Embeddings(EMNLP2021)

SimCSE有两个变体:Unsupervised SimCSE和Supervised SimCSE,主要不同在于对比学习的正负例的构造。

Unsupervised SimCSE:

ab106cc2-9dca-11ec-952b-dac502259ad0.png

正样本:一个句子通过编码器进行两次编码,两次使用不同的dropout 掩码,

ab542282-9dca-11ec-952b-dac502259ad0.png

Supervised SimCSE:

ab6acbfe-9dca-11ec-952b-dac502259ad0.png

使用NLI(Natural Language Inference)数据集,利用其标注的句子之间的关系来构造对比学习的正负样本。如上图所示,给定一个前提

ac071cd4-9dca-11ec-952b-dac502259ad0.png

本文作者在多个数据集上评估了SimCSE的性能,发现在STS(语义文本相似性)系列任务上,SimCSE在无监督和有监督的条件下均大幅超越了之前的SOTA模型。

上面提到了衡量对比学习质量的指标:alignment和uniformity,作者将其进行了可视化,可以发现所有模型的uniformity都有所改进,表明预训练BERT的语义向量分布的奇异性被逐步减弱。

ac2583c2-9dca-11ec-952b-dac502259ad0.png

ESimCSE: Enhanced Sample Building Method for Contrastive Learning of Unsupervised Sentence Embedding

ESimCSE是对上述SimCSE构建正负样本方法的改进,主要出发点如下:

句子的长度信息通常会被编码,因此无监督的SimCSE中的每个正对长度是相同的。故用这些正对训练的无监督SimCSE 往往会认为长度相同或相似的句子在语义上更相似。

Momentum Contrast(动量对比)最早是在MoCo提出,是一种能够有效的扩展负例对并同时缓解内存限制的一种方法。ESimCSE借鉴了这一思想来扩展负例。

ac3b3212-9dca-11ec-952b-dac502259ad0.png

正例:作者先探究了句子对的长度差对SimCSE的影响,当长度差大于3时无监督SimCSE模型的效果大幅度降低。为了降低句子长度差异的影响,作者尝试了随机插入、随机删除和词重复三种方法构建正例,发现前两者导致语义相似度下降明显,而词重复可以保持较高的相似度,同时缓解了句子长度带来的问题。故使用word repetition进行正例构造。

负例:① in-batch negatives ② 动量更新队列中的样本

故损失函数如下:

ac5200b4-9dca-11ec-952b-dac502259ad0.png

实验表明,ESimCSE整体效果优于无监督的SimCSE,在语义文本相似性(STS)任务上效果优于BERTbase版的SimCSE 2%。

对比学习在多模态中的应用

Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision (ICML 2021)

本文提出ALIGN模型,作者利用了超过10亿的图像文本对的噪声数据集,没有进行细致的数据清洗或处理。ALIGN使用一个简单的双编码器结构,基于对比学习损失来对齐图像和文本对的视觉和语言表示 。作者证明了,数据规模的巨大提升可以弥补数据内部存在的噪声,因此即使使用简单的对比学习方式,模型也能达到SOTA的特征表示。

ac685f1c-9dca-11ec-952b-dac502259ad0.png

在预训练中,将匹配的图像-文本对视为正样本,并将当前训练batch中的其他随机图像-文本对视为负样本。损失函数如下:

text-to-imageloss

ALIGN模型得到的对齐的图像和文本表示在跨模态匹配/检索任务中实现了SOTA效果。同时ALIGN模型也适用于zero-shot图像分类、图像分类等任务。例如,ALIGN在ImageNet中达到了88.64%的Top-1准确率 。

Align before Fuse: Vision and Language Representation Learning with Momentum Distillation (NeurIPS 2021)

作者提出了 ALign BEfore Fuse(ALBEF) ,首先用一个图像编码器和一个文本编码器独立地对图像和文本进行编码。然后利用多模态编码器,通过跨模态注意,将图像特征与文本特征进行融合。并提出动量蒸馏(Momentum Distillation)对抗数据中的噪声,得到更好的表征。

acac042e-9dca-11ec-952b-dac502259ad0.png

ALBEF预训练任务:图像-文本对比学习(ITC) 、掩蔽语言建模(MLM) 和图像-文本匹配(ITM) 。

ITC:Image-Text Contrastive Learning,目的是在融合前学习到更好的单模态表征。受MoCo的启发,作者维护了两个队列来存储最近的M个图像-文本表示,故对于每个图像和文本,作者计算图像到文本和文本到图像的相似度如下:

accc1674-9dca-11ec-952b-dac502259ad0.png

为ground truth(one-hot 编码),ITC定义为p和y之间的交叉熵:

ad39573e-9dca-11ec-952b-dac502259ad0.png

MLM:Masked Language Modeling,利用给定图像和上下文文本来预测mask词

ITM:Image-Text Matching,把图像和文本是否匹配看作二分类问题

故整个预训练的损失函数为上述三者的和。

由于用于预训练的数据集往往含有噪声,作者提出同时从动量模型生产的伪标签中去学习。将上述相似度计算公式中的

adadfc42-9dca-11ec-952b-dac502259ad0.png

同时,作者从互信息最大化的角度来证明了ALBEF实际上最大化了图像-文本对的不同views之间的互信息的下界。

与现有的方法相比,ALBEF在多个下游视觉语言任务上达到了SOTA的效果。

VLMO: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts

本文提出VLMO模型,既可以作为融合编码器去做分类任务,也可以作为双编码器去做检索任务。VLMO引入一个 Mixture-of-Modality-Experts(MoME)的Transformer,能够根据输入数据的类型选择不同的expert,如下图所示。

add054d6-9dca-11ec-952b-dac502259ad0.png

VLMO的预训练任务与前面类似,通过图像-文本对比学习、掩码语言建模和图像-文本对匹配进行联合预训练。

其中,Image-Text Contrast预训练任务具体为:给定一个batch的图像文本对,图像文本对比学习的目标是从n*n个可能的图像文本对中预测匹配的对,事实上在这一batch中有N个正样本对,之后使用交叉熵损失进行训练。下式中,h为编码,p为softmax归一化后的相似性。

ae354f62-9dca-11ec-952b-dac502259ad0.png

本文巧妙的地方在于采用了分阶段的预训练方式,得到了更泛化的表示。

ae5517b6-9dca-11ec-952b-dac502259ad0.png

VLMO模型在VQA等多模态下游任务上进行微调,效果达到了SOTA。

审核编辑:gt

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6170

    浏览量

    105460
  • nlp
    nlp
    +关注

    关注

    1

    文章

    488

    浏览量

    22049

原文标题:对比学习在NLP和多模态领域的应用

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    SOA关键技术专利分析(一)

    与 SOA 相关的研究都集中在技术讨论或市场研究上,但未能指出关键的 SOA 技术和 SOA 技术的发展趋势。因此,本研究对 SOA 专利进行了分析
    的头像 发表于 12-19 09:52 98次阅读
    SOA<b class='flag-5'>关键技术</b>专利<b class='flag-5'>分析</b>(一)

    云计算HPC软件关键技术

    云计算HPC软件关键技术涉及系统架构、处理器技术、操作系统、计算加速、网络技术以及软件优化等多个方面。下面,AI部落小编带您探讨云计算HPC软件的关键技术
    的头像 发表于 12-18 11:23 98次阅读

    机载低轨卫星通信发展及关键技术综述

    机载低轨卫星通信发展及关键技术
    发表于 07-23 12:41 0次下载

    面向手机直连的星载相控阵:关键技术与未来展望

    电子发烧友网站提供《面向手机直连的星载相控阵:关键技术与未来展望.pdf》资料免费下载
    发表于 07-23 12:39 0次下载

    深度学习在自动驾驶中的关键技术

    随着人工智能技术的飞速发展,自动驾驶技术作为其中的重要分支,正逐渐走向成熟。在自动驾驶系统中,深度学习技术发挥着至关重要的作用。它通过模拟人脑的学习
    的头像 发表于 07-01 11:40 781次阅读

    储能BMS的关键技术是什么

    组成部分,其关键技术对于提高储能系统的安全性、经济性和可靠性具有重要意义。本文将深入探讨储能BMS的关键技术,以期为相关研究和应用提供参考。
    的头像 发表于 05-17 15:28 763次阅读

    实时频谱分析仪的关键技术浅析

    仪的重要分支,以其高实时性、宽频率范围、高分辨率等特点,成为了现代电子测试与测量领域不可或缺的工具。本文将对实时频谱分析仪的关键技术进行浅析,以期为相关领域的研究和应用提供参考。
    的头像 发表于 05-16 15:39 907次阅读

    矢量网络分析仪的关键技术指标解读

    的发展提供了有力支持。而矢量网络分析仪的关键技术指标,则是衡量其性能优劣的重要标准。本文将对矢量网络分析仪的关键技术指标进行详细解读,以期为读者提供更深入的了解。
    的头像 发表于 05-13 17:26 703次阅读

    逻辑分析仪的基本原理、结构组成及关键技术

    逻辑分析仪,作为现代电子测试领域的重要工具之一,以其独特的功能和性能,在数字电路和系统测试、故障诊断等领域发挥着重要作用。本文将对逻辑分析仪的基本原理、结构组成、关键技术、应用领域以及未来发展趋势进行详细介绍,旨在为读者提供一篇
    的头像 发表于 05-10 15:10 1962次阅读

    车载电池的类型及关键技术分析

    车载电池的关键技术涉及多个方面,这些技术共同决定了电池的性能、安全性、寿命以及成本,从而直接影响着电动汽车的整体竞争力和市场接受度。
    的头像 发表于 04-12 16:26 1406次阅读
    车载电池的类型及<b class='flag-5'>关键技术</b><b class='flag-5'>分析</b>

    EMI滤波器:工业应用的关键技术与性能优势?

    EMI滤波器:工业应用的关键技术与性能优势?|深圳比创达电子
    的头像 发表于 03-05 10:12 529次阅读
    EMI滤波器:工业应用的<b class='flag-5'>关键技术</b>与性能优势?

    光伏逆变器拓扑概述及关键技术

    光伏逆变器拓扑概述及关键技术
    的头像 发表于 02-21 09:47 819次阅读
    光伏逆变器拓扑概述及<b class='flag-5'>关键技术</b>

    城市综合管廊监控及安防关键技术分析

    电子发烧友网站提供《城市综合管廊监控及安防关键技术分析.docx》资料免费下载
    发表于 01-26 10:00 0次下载

    浅谈基于数字孪生的配电室关键技术研究

    ”的“数字孪生体”,提升“数据驱动”的全生命周期以及应用效能。而对于配电室而言,在其内部使用数字孪生技术,可以有效地提高配电室的运营和管理效率,并以数字孪生技术为基础,对其关键技术要素进行深度挖掘,从而
    发表于 01-09 15:49

    城市综合管廊监控及安防关键技术分析

    电子发烧友网站提供《城市综合管廊监控及安防关键技术分析.docx》资料免费下载
    发表于 01-05 11:35 0次下载