0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

对比学习在开放域段落检索和主题挖掘中的应用

深度学习自然语言处理 来源:复旦DISC 作者:复旦DISC 2022-08-17 15:18 次阅读

引言

对比学习是一种无监督学习方法。它的改进方向主要包括两个部分:1.改进正负样本的抽样策略 2.改进对比学习框架 本篇主要介绍了3篇源自ACL2022的有关对比学习的文章,前2篇文章涉及开放域段落检索,最后一篇文章涉及主题挖掘。

文章概览

1. Multi-View Document Representation Learning for Open-domain Dense Retrieval

开放域密集检索的多视图文档表示学习 论文地址:https://arxiv.org/pdf/2203.08372.pdf 密集检索通常使用bi-encoder生成查询和文档的单一向量表示。然而,一个文档通常可以从不同的角度回答多个查询。因此,文档的单个向量表示很难与多个查询相匹配,并面临着语义不匹配的问题。文章提出了一种多视图文档表示学习框架,通过viewer生成多个嵌入。

2. Sentence-aware Contrastive Learning for Open-Domain Passage Retrieval

开放域段落检索中的句子感知对比学习 论文地址:https://arxiv.org/pdf/2110.07524v3.pdf 一篇文章可能能够回答多个问题,这在对比学习中会导致严重的问题,文中将其称之为Contrastive Conflicts。基于此,文章提出了将段落表示分解为句子级的段落表示的方法,将其称之为Dense Contextual Sentence Representation (DCSR)。

3. UCTopic: Unsupervised Contrastive Learning for Phrase Representations and Topic Mining

基于短语表示和主题挖掘的无监督对比学习 论文地址:https://arxiv.org/pdf/2202.13469v1.pdf 高质量的短语表示对于在文档中寻找主题和相关术语至关重要。现有的短语表示学习方法要么简单地以无上下文的方式组合单词,要么依赖于广泛的注释来感知上下文。文中提出了UCTopic(an Unsupervised Contrastive learning framework for phrase representations and TOPIC mining),用于上下文感知的短语表示和主题挖掘。

论文细节

1

8535b6be-1dcd-11ed-ba43-dac502259ad0.png

1-1

动机

密集检索在大规模文档集合的第一阶段检索方面取得了很大的进展,这建立在bi-encoder生成查询和文档的单一向量表示的基础上。然而,一个文档通常可以从不同的角度回答多个查询。因此,文档的单个向量表示很难与多个查询相匹配,并面临着语义不匹配的问题。文章提出了一种多视图文档表示学习框架,旨在生成多视图嵌入来表示文档,并强制它们与不同的查询对齐。为了防止多视图嵌入变成同一个嵌入,文章进一步提出了一个具有退火温度的全局-局部损失,以鼓励多个viewer更好地与不同潜在查询对齐。

8554f60a-1dcd-11ed-ba43-dac502259ad0.png

1-2

模型

开放域段落检索是给定一个由数百万个段落组成的超大文本语料库,其目的是检索一个最相关的段落集合,作为一个给定问题的证据。密集检索已成为开放域段落检索的重要有效方法。典型的密集检索器通常采用双编码器结构,双编码器受制于单向量表示,面临表示能力的上界。在上图中,我们还发现单个向量表示不能很好地匹配多视图查询。该文档对应于反映不同观点的四个不同的问题,每个问题都匹配不同的句子和答案。为了解决这个问题,文章提出了Multi-View document Representations learning framework, MVR

856668fe-1dcd-11ed-ba43-dac502259ad0.png

1-3 基于cross-encoder的模型需要计算昂贵的cross-attention,所以cross-encoder不用于第一阶段的大规模检索,而通常被用于第二阶段的排序中。在第一阶段检索中,bi-encoder是最常被采用的架构,因为它可以使用ANN加速。

8582231e-1dcd-11ed-ba43-dac502259ad0.png

1-4 模型采用上述的bi-encoder结构,这种结构能够预先计算好query和document的向量,提升检索速度。Encoder采用bert。一些工作发现[CLS]能够汇集整个句子/文档的含义。为了获得更加精细的语义表示,使用多个[VIE]来替代[CLS],将[VIE]添加在文档的开头,为了避免多个[VIE]对原始输入句子位置编码的影响,将的位置id设置为0。由于查询比文档短得多,并且通常表示一个具体的含义,因此只为查询生成一个嵌入。查询和文档之间的相似度分数如下式计算,其中sim代表两个向量的内积。 85954566-1dcd-11ed-ba43-dac502259ad0.png 为了鼓励多个viewer更好地适应不同的潜在查询,文章提出了一个配备退火温度的全局-局部损失。损失函数: 85a510cc-1dcd-11ed-ba43-dac502259ad0.png 其中:

85ba6454-1dcd-11ed-ba43-dac502259ad0.png

记文档正样本为d+,负样本为。全局对比损失继承自传统的bi-encoder结构。

85c92570-1dcd-11ed-ba43-dac502259ad0.png

强制与query更加紧密的对齐,并与其他viewer区别开来。为了进一步鼓励更多不同的viewer被激活,文章采用了下式中的退火温度。 85d576d6-1dcd-11ed-ba43-dac502259ad0.png 刚开始时,较大的能使得每个viewer被公平的选择,并从训练中返回梯度,随着训练的进行, 将降低,训练更加稳定。在推理中,构建所有文档嵌入的索引,然后利用近似最近邻ANN检索。  

实验

数据集

实验采用的数据集包括Natural Questions ,TriviaQA,SQuAD Open。数据集 Natural Questions:是一个流行的开放域检索数据集,其中的问题是真实的谷歌搜索查询,答案是从维基百科中手动标注的。TriviaQA:包含了一系列琐碎的问题,其答案最初是从网上提取出来的。SQuADOpen:包含了来自阅读理解数据集的问题和答案,它已被广泛应用于开放域检索研究。

实验结果

计算不同文档对应的查阅数,在3个数据集上得到的平均值为2.7,1.5,1.2,这表明多视图问题是常见的。

85e311d8-1dcd-11ed-ba43-dac502259ad0.png

1-5 根据上表所示,MVR得到了最好的结果。MVR在SQuAD数据集上取得了最大的提升,这是因为该数据集单个文档对应更多的查询。这说明MVR比其他模型更能解决多视图问题。

85ff4eca-1dcd-11ed-ba43-dac502259ad0.png

1-6

860c979c-1dcd-11ed-ba43-dac502259ad0.png

1-7

861d8fc0-1dcd-11ed-ba43-dac502259ad0.png

‍1-8 上表说明了,MVR与其他方法相比,需要的编码时间和检索时间较小。

864ac882-1dcd-11ed-ba43-dac502259ad0.png

1-9 上表对DPR和MVR的检索结果进行了比较,结果表明MVR能够捕获更加细粒度的语义信息,返回正确的答案。

2

866cb208-1dcd-11ed-ba43-dac502259ad0.png

2-1

动机

本文的动机与上文基本相同。一个段落可能能够回答多个问题,这在对比学习框架中会导致严重的问题,文中将其称之为Contrastive Conflicts。这主要包括两个方面(1)相似性的转移,由于一个段落可能是多个问题的答案,当最大化对应段落和问题的相似性时,会同时让问题之间更为相似,但是这些问题在语义上不同。(2)在大批量上的多重标签。在大批量处理时,可能出现使得同一个段落为正的多个问题,在当前采用的技术中,该段落将被同时作为这些问题的正样本和负样本,这在逻辑上是不合理的。由于一对多问题是Contrastive Conflicts的直接原因,文章提出了将密集的段落表示分解为句子级的段落表示的方法,将其称之为Dense Contextual Sentence Representation (DCSR)。

86945736-1dcd-11ed-ba43-dac502259ad0.png

2-2

模型

Encoder采用bert结构。

86b15336-1dcd-11ed-ba43-dac502259ad0.png

由于上下文信息在段落检索中也很重要,因此简单地将段落分解成句子并独立编码是不可行的。在输入文章的句子之间插入,每个段落的输入如下:‍ sent1 sent2...。 包含query答案的段落,由一系列句子组成: 86c10394-1dcd-11ed-ba43-dac502259ad0.png 不包含答案的段落,将其表示为: 86d268f0-1dcd-11ed-ba43-dac502259ad0.png 其中的+-代表句子中是否含有答案。文章使用BM25来检索每个问题的负段落。文章将包含答案的句子视为正样本(),并从BM25得到的负段落中随机抽取1个句子作为负样本。此外在包含答案的段落中随机抽取1个句子作为另一个负样本。 检索: 对于检索,使用FAISS来计算问题和所有段落句子之间的分数。由于一个段落在索引中含有多个键,则检索返回100*k(k是每篇文章的平均句子数量)个句子。之后,针对这些句子的分数,对它们执行softmax,从而将分数转化为概率。如果一篇passage中含有多个句子,,这些句子对应的概率为,则该篇passage为query答案的概率为:

86e096fa-1dcd-11ed-ba43-dac502259ad0.png

根据计算得到文章的概率,返回概率最高的top100 passage。

实验

实验在SQuAD, TriviaQA,Natural Questions数据集上进行。下表统计了数据集中段落对应的问题数量。在SQuAD上的平均值最大,该数据集上Contrastive Conflicts的情况最严重,这与DPR在SQuAD上表现最差的事实相符。

86f6b0de-1dcd-11ed-ba43-dac502259ad0.png

2-4 对于模型而言,DCSR采用了和DPR相同的模型结构,没有引入额外的参数。在训练时,采用的负样本由随机抽样产生。因此DCSR带来的额外时间负担仅由抽样引起,这可以忽略不计。

8706aa02-1dcd-11ed-ba43-dac502259ad0.png

2-5 对在单数据集上的训练结果而言,上表显示DCSR取得了明显优于DPR的结果,特别是在SQuAD这样的受Contrastive Conflicts影响最严重的数据集上,对于受Contrastive Conflicts影响较小的数据集,也有较小的性能提升。对于在多数据集上的训练结果而言,DPR较DCSR指标下降的幅度更大,这表明DCSR还捕获了不同领域之间数据集的普遍性。

872beace-1dcd-11ed-ba43-dac502259ad0.png

2-6

873c8c80-1dcd-11ed-ba43-dac502259ad0.png

2-7 比较模型的可转移性。将DPR和DCSR在一个数据集上训练好后,迁移到另外一个数据集上做评估。可以发现,DCSR比DPR指标下降的幅度更小,模型的可转移性更好。

8762c292-1dcd-11ed-ba43-dac502259ad0.png

2-8 在不同大小的数据集上训练模型,发现DCSR与DPR相比,在任何大小的数据集上都表现得更好。与更大的数据集相比,在小的数据集上DCSR改进更显著。

3

8770b230-1dcd-11ed-ba43-dac502259ad0.png

3-1

动机

高质量的短语表示对于在文档中寻找主题和相关术语至关重要。现有的短语表示学习方法要么简单地以无上下文的方式组合单词,要么依赖于广泛的注释来感知上下文。文中提出了UCTopic(an Unsupervised Contrastive learning framework for phrase representations and TOPIC mining),用于感知上下文的短语表示和主题挖掘。UCTopic训练的关键是正负样本对的构建。文章提出了聚类辅助对比学习(CCL),它通过从聚类中选择负样本来减少噪声,并进一步改进了关于主题的短语表示。

模型

编码器结构

UCTopic的编码器采用LUKE (Language Understanding with Knowledge-based Embeddings)。

878669fe-1dcd-11ed-ba43-dac502259ad0.png

3-2 Luke采用transformer结构。它将文档中的单词和实体都作为输入token,并为每个token计算presentation。形式上,给定一个由m个词和n个实体组成的序列,为其计算,其中, 其中。Luke的输入由三部分组成。Input embedding=position embedding+token embedding+entity type embedding (1)token embedding (2) position embedding 出现在序列中第i位的单词和实体分别用和表示。如果一个实体包含多个单词,则将相应位置的embedding进行平均来计算position embedding。(3)Entity type embedding 表示token是否一个实体。

Entity-aware Self-attention

因为luke处理两种类型的标记,所以在计算注意力分数的时候考虑token的类型。

87b570a0-1dcd-11ed-ba43-dac502259ad0.png

87c9dc5c-1dcd-11ed-ba43-dac502259ad0.png

87d9eda4-1dcd-11ed-ba43-dac502259ad0.png

UCTopic

与预测实体的LUKE不同,UCTopic是通过短语上下文的对比学习训练的。因此,来自UCTopic的短语表示具有上下文感知能力,并且对不同的领域非常健壮。

87ebff12-1dcd-11ed-ba43-dac502259ad0.png

UCTopic采用对比学习的框架进行无监督学习。文中提出了关于短语语义的两个假设来获得正负样本对:1.短语语义由它的上下文决定。mask所提到的短语会迫使模型从上下文中学习表示,从而防止过拟合和表示崩溃 2.相同的短语有相同的语义

87f78ad0-1dcd-11ed-ba43-dac502259ad0.png

3-4

假设一个文档内有3个主题,假设批量大小是32,因此一个批量内会有一些样本来自同一个主题,但是在之前的处理方法中这些样本都被处理成负样本,这会导致性能下降。为了根据主题优化短语表示,减小噪声。文章提出了聚类辅助对比学习(CCL),其基本思想是利用pre-trained representation和聚类的先验知识来减少负样本中存在的噪声。具体来说,对预训练的短语表示使用聚类算法。每一类的质心被认为是短语的主题表示。在计算了短语和质心之间的余弦距离后,选择接近质心的t%实例,并为它们分配伪标签。短语自身的伪标签由包含该短语的实例的投票决定。假设一个主题集C,其中包含伪标签和短语。对于主题,构造正样本。随机选择来自其他主题的短语作为训练的负样本。微调时训练的损失函数如下:

8823d28e-1dcd-11ed-ba43-dac502259ad0.png

为了推断短语实例x的主题y,计算短语表示h和主题表示之间的距离,与短语x最近的主题被认为是短语属于的主题。

883ba09e-1dcd-11ed-ba43-dac502259ad0.png

UCTopic的Pre-training与Finetuning示意图如下:

8857d34a-1dcd-11ed-ba43-dac502259ad0.png

3-5

实验

训练语料库使用Wikipedia,并将其中带有超链接的文本作为短语。经过处理后,预训练数据集有1160万个句子和1.088亿个训练实例。预训练采用两个损失函数:一个是masked language model loss,另一个是前面的对比学习损失。

实体聚类

888014a4-1dcd-11ed-ba43-dac502259ad0.png

3-6

与其他的微调方法相比,CCL微调可以通过捕获特定于数据的特征来进一步改进预先训练好的短语表示。

88a91688-1dcd-11ed-ba43-dac502259ad0.png

3-7

主题词挖掘

通过计算轮廓系数来获得每个数据集的主题数量。

88cb8cc2-1dcd-11ed-ba43-dac502259ad0.png

3-8 是第i个点到与i相同聚类中其他点的平均距离,是第i个点到下一个最近簇中的点的平均距离。具体来说,从数据集中随机抽取10K个短语,并对预训练过的短语应用K-means聚类。计算不同主题数量的轮廓系数得分;得分最大的数字将被用作数据集中的主题数量。之后利用CCL对数据集进行微调。主题短语评估:(1)主题分离:通过短语入侵任务来评估,具体来说,是从一系列短语中发掘与其他短语所属主题不同的短语。(2)短语连贯性:要求注释者评估一个主题中的前50个短语是否有连贯性。(3)短语信息量和多样性。高信息量的短语不是语料库中常见的短语。使用tf-idf来评估一个短语的信息量。短语的多样性通过计算出现的词的种类与出现词的数量的比值来评估。UCtopic的多样性最强,说明了UCtopic的短语表示具有上下文感知能力。

88e1ae3a-1dcd-11ed-ba43-dac502259ad0.png

3-9

88f48d52-1dcd-11ed-ba43-dac502259ad0.png

3-10

89158e76-1dcd-11ed-ba43-dac502259ad0.png

3-11

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    45

    文章

    3562

    浏览量

    133903
  • 模型
    +关注

    关注

    1

    文章

    3097

    浏览量

    48625
  • 检索
    +关注

    关注

    0

    文章

    26

    浏览量

    13138

原文标题:ACL2022 | 对比学习在开放域段落检索和主题挖掘中的应用

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    软件系统的数据检索设计

    软件系统的数据检索设计 随着业务量加大,数据检索量也会日益增多,为了减轻数据库压力,本系统采用ElasticSearch来实现数据检索功能。 简单来说,Elasticsearch 是一个实时的分布式
    的头像 发表于 08-22 14:08 205次阅读
    软件系统的数据<b class='flag-5'>检索</b>设计

    【《大语言模型应用指南》阅读体验】+ 基础知识学习

    与匹配 模型可能结合高效检索技术来快速定位与问题相关的信息源。通过匹配算法和索引技术,模型可以从海量数据筛选出最相关的文本片段作为候选答案。 3. 推理与生成 获得候选答案后,模型会进行进一步的推理
    发表于 08-02 11:03

    K8S学习教程三:PetaExpress KubeSphere 容器部署 Wiki 系统 wiki.js 并启用中文全文检索

    K8S学习教程(三):PetaExpress KubeSphere 容器部署 Wiki 系统 wiki.js 并启用中文全文检索  。
    的头像 发表于 07-08 17:03 545次阅读
    K8S<b class='flag-5'>学习</b>教程三:<b class='flag-5'>在</b>PetaExpress KubeSphere 容器部署 Wiki 系统 wiki.js 并启用中文全文<b class='flag-5'>检索</b>

    深度学习与传统机器学习对比

    人工智能的浪潮,机器学习和深度学习无疑是两大核心驱动力。它们各自以其独特的方式推动着技术的进步,为众多领域带来了革命性的变化。然而,尽管它们都属于机器
    的头像 发表于 07-01 11:40 1069次阅读

    HDC2024 心得分享#主题演讲学习-加入鸿蒙生态正当时

    一、主题演讲学习心得 通过本次主题演讲的聆听与学习,我们猜出中和不太确定的相关内容纷纷呈现。比如鸿蒙内核与HarmonyOS Next获得
    发表于 06-28 10:10

    什么是智能汽车第六

    集中式EEA,博世五大划分最为经典:动力(Power Train)、底盘(Chassis)、车身
    发表于 04-20 09:46 485次阅读
    什么是智能汽车第六<b class='flag-5'>域</b>?

    学习鸿蒙背后的价值?星河版开放如何学习

    现在是2024年,华为1月18开展了鸿蒙千帆起仪式发布会。宣布了鸿蒙星河版,并对开发者开放申请,此次发布会主要是说明了,鸿蒙已经是全栈自研底座,鸿蒙星河版本的编程语言改为ArkTS/仓颉,内核改为
    发表于 02-22 20:55

    数据挖掘的应用领域,并举例说明

    揭示数据隐藏的规律、关联和趋势,支持决策和预测。 数据挖掘广泛应用于各个领域,涉及金融、电子商务、医疗健康、交通运输、社交网络、市场营销、能源资源、航空航天、环境保护、国防安全等等。下面将详细介绍数据挖掘
    的头像 发表于 02-03 14:19 2769次阅读

    IGBT7与IGBT4伺服驱动器对比测试

    IGBT7与IGBT4伺服驱动器对比测试
    的头像 发表于 12-14 11:31 616次阅读
    IGBT7与IGBT4<b class='flag-5'>在</b>伺服驱动器<b class='flag-5'>中</b>的<b class='flag-5'>对比</b>测试

    GPU深度学习的应用与优势

    人工智能的飞速发展,深度学习作为其重要分支,正在推动着诸多领域的创新。在这个过程,GPU扮演着不可或缺的角色。就像超级英雄电影的主角一样,GPU深度
    的头像 发表于 12-06 08:27 1171次阅读
    GPU<b class='flag-5'>在</b>深度<b class='flag-5'>学习</b><b class='flag-5'>中</b>的应用与优势

    SiC MOSFET 和Si MOSFET寄生电容高频电源的损耗对比

    SiC MOSFET 和Si MOSFET寄生电容高频电源的损耗对比
    的头像 发表于 12-05 14:31 683次阅读
    SiC MOSFET 和Si MOSFET寄生电容<b class='flag-5'>在</b>高频电源<b class='flag-5'>中</b>的损耗<b class='flag-5'>对比</b>

    无监督自适应场景:基于检索增强的情境学习实现知识迁移

    本文对比了多种基线方法,包括无监督自适应的传统方法(如Pseudo-labeling和对抗训练)、基于检索的LM方法(如REALM和RAG)和情境学习方法(如In-context l
    发表于 12-05 14:14 523次阅读
    无监督<b class='flag-5'>域</b>自适应场景:基于<b class='flag-5'>检索</b>增强的情境<b class='flag-5'>学习</b>实现知识迁移

    AD9787里面,哪些管脚是属于DVDD33的电源,哪些是属于DVDD18的电源

    AD9787里面,数字电压有两个一个是DVDD33,一个是DVDD18,想问的是,哪些管脚是属于DVDD33的电源,哪些是属于DVDD18的电源
    发表于 12-01 06:33

    高效案例检索工具,Alpha案例库智慧检索成为律师检索工具首选

    为不可逆转的趋势。从目前国内律所引入科技工具的现状来看,Alpha法律智能操作系统具有较高的使用率,该系统律师日常法律检索和律所管理方面都产生了巨大的“动能”。其官网链接:法律检索阿尔法 最新的数据显示,业已有多达
    的头像 发表于 11-20 11:27 568次阅读
    高效案例<b class='flag-5'>检索</b>工具,Alpha案例库智慧<b class='flag-5'>检索</b>成为律师<b class='flag-5'>检索</b>工具首选

    汽车EE体系结构的功能介绍

    汽车EE体系结构的功能介绍
    发表于 11-15 11:37 353次阅读