0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

文本匹配任务中常用的孪生网络

深度学习自然语言处理 来源:NLP情报局 作者:NLP情报局 2021-03-05 15:47 次阅读

文本匹配是自然语言处理领域一个基础且重要的方向,一般研究两段文本之间的关系。文本相似度、自然语言推理、问答系统、信息检索都可以看作针对不同数据和场景的文本匹配应用。

本文总结了文本匹配任务中的经典网络Siamse Network,它和近期预训练语言模型的组合,一些调优技巧以及在线下数据集上的效果检验。

Siamese 孪生网络

在正式介绍前,我们先来看一个有趣的故事。

孪生网络的由来

“Siamese”中的“Siam”是古时泰国的称呼,中文译作暹罗,所以“Siamese”就是指“暹罗”人或“泰国”人。“Siamese”在英语中同时表示“孪生”,这又是为什么呢?

十九世纪,泰国出生了一对连体婴儿“恩”和“昌”,当时的医学技术无法使他们分离出来,于是两人顽强地生活了一生。

1829年他们被英国商人发现,进入马戏团,在全世界各地演出。1839年他们访问美国北卡罗莱那州成为“玲玲马戏团” 的台柱,最后成为美国公民。1843年4月13日跟英国一对姐妹结婚,恩生了10个小孩,昌生了12个。1874年,两人因病均于63岁离开了人间。他们的肝至今仍保存在费城的马特博物馆内。

从此之后,“暹罗双胞胎”(Siamese twins)就成了连体人的代名词,也因为这对双胞胎全世界开始重视这项特殊疾病。

孪生网络

由于结构具有鲜明的对称性,就像两个孪生兄弟,所以下图这种神经网络结构被研究人员称作“Siamese Network”,即孪生网络。

其中最能体现“孪生”的地方,在于网络具有相同的编码器(sentence encoder),即将文本转换为高维向量的部分。网络随后对两段文本的特征进行交互,最后完成分类/相似预测。“孪生网络”结构简单,训练稳定,是很多文本任务不错的baseline模型。

孪生网络的具体用途是衡量两个输入文本的相似程度。

例如,现在我们有文本1和2,首先把它们分别输入 sentence encoder 进行特征提取和编码,将输入映射到新的空间得到特征向量u和v;最终通过u、v的拼接组合,经过下游网络来计算文本1和2的相似性。

整个过程有2个值得关注的点:

在训练和测试中,模型的编码器是权重共享的(“孪生”);编码器的选择非常广泛,传统的CNN、RNN和Attention、Transformer都可以

得到特征u、v后,可以直接使用cosine距离、欧式距离得到两个文本的相似度;不过更通用的做法是,基于u和v构建用于匹配两者关系的特征向量,然后用额外的模型学习通用的文本关系映射;毕竟我们的场景不一定只是衡量相似度,可能还有问答、蕴含等复杂任务

‍‍‍‍‍‍‍‍三连体网络‍‍‍‍‍‍‍‍

基于孪生网络,还有人提出了 Triplet network 三连体网络。顾名思义,输入由三部分组成,文本1,和1相似的文本2,和1不相似的文本3。

训练的目标非常朴素,期望让相同类别间的距离尽可能的小,让不同类别间的距离尽可能的大,即减小类内距,增大类间距。

3205d0b2-7c22-11eb-8b86-12bb97331649.jpg

Sentence-BERT

自从2018年底Bert等预训练语言模型横空出世,NLP届的游戏规则某种程度上被大幅更改了。在计算资源允许的条件下,Bert成为解决很多问题的首选。甚至有时候拿Bert跑一跑baseline,发现问题已经解决了十之八九。

但是Bert的缺点也很明显,1.1亿参数量使得推理速度明显比CNN等传统网络慢了不止一个量级,对资源要求更高,也不适合处理某些任务。

例如,从10,000条句子中找到最相似的一对句子,由于可能的组合众多,需要完成49,995,000次推理;在一块现代V100GPU上使用Bert计算,将消耗65小时。

考虑到孪生网络的简洁有效,有没有可能将它和Bert强强联合呢?

当然可以,这正是论文《Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks》的工作,首次提出了Sentence-Bert模型(以下简称SBert)。

SBert在众多文本匹配工作中(包括语义相似性、推理等)都取得了最优结果。更让人惊讶的是,前文所述的从10,000条句子寻找最相似pair任务,SBert仅需5秒就能完成!

基于BERT的文本匹配

让我们简短回顾此前Bert是怎么处理文本匹配任务的。

常规做法是将匹配转换成二分类任务。输入的两个文本拼接成一个序列(中间用特殊符号“SEP”分割),经过12层或24层Transformer模块编码后,将输出层的字向量取平均或者取“CLS”位置的特征作为句向量,经softmax完成最终分类。

但是论文作者 Nils Reimers 在实验中指出,这样的做法产生的结果并不理想(至少在处理语义检索和聚类问题时是如此),甚至比Glove词向量取平均的效果还差。

基于S-BERT的文本匹配

为了让Bert更好地利用文本信息,作者们在论文中提出了如下的SBert模型。是不是非常眼熟?对,这不就是之前见过的孪生网络嘛!

SBert沿用了孪生网络的结构,文本Encoder部分用同一个Bert来处理。之后,作者分别实验了CLS-token和2种池化策略(Avg-Pooling、Mean-Pooling),对Bert输出的字向量进一步特征提取、压缩,得到u、v。关于u、v整合,作者提供了3种策略:

针对分类任务,将u、v拼接,接入全连接网络,经softmax分类输出;损失函数用交叉熵

直接计算、输出余弦相似度;训练损失函数采用均方根误差

如果输入的是三元组,论文种也给出了相应的损失函数

总的来说,SBert直接用Bert的原始权重初始化,在具体数据集上微调,训练过程和传统Siamse Network差异不大。

但是这种训练方式能让Bert更好的捕捉句子之间的关系,生成更优质的句向量。在测试阶段,SBert直接使用余弦相似度来衡量两个句向量之间的相似度,极大提升了推理速度。

实验为证

作者在7个文本匹配相关的任务中做了对比实验,结果在其中5个任务上,SBert都有更优表现。

337dcd46-7c22-11eb-8b86-12bb97331649.png

作者还做了一些有趣的消融实验。

使用NLI和STS为代表的匹配数据集,在分类目标函数训练时,作者测试了不同的整合策略,结果显示“(u, v, |u-v|)”的组合效果最好。这里面最重要的部分是元素差:(|u - v|)。句向量之间的差异度量了两个句子嵌入维度间的距离,确保相似的pair更近,不同的pair更远。

3407bb96-7c22-11eb-8b86-12bb97331649.png

文章最后,作者将SBert和传统方‍‍‍‍法做了对比。

343b97fe-7c22-11eb-8b86-12bb97331649.jpg

SBert的计算效率要更高。其中的smart-batching是一个小技巧。先将输入的文本按长度排序,这样同一个mini-batch的文本长度更加统一,padding时能显著减少填充的token。

线下实测

我们将SBert模型在天池—新冠疫情相似句对判定比赛数据集上做了测试。经数据增强后,线下训练集和验证集分别是13,500和800条句子组合。预训练模型权重选择BERT_large。

最终SBert单模型在验证集上的准确率是95.7%。直接使用Bert微调准确率为95.2%。

小结

本文介绍了文本匹配任务中常用的孪生网络,和在此基础上改进而来的Sentence-BERT模型。

Siamse Network 简洁的设计和平稳高效训练非常适合作为文本匹配任务的baseline模型。SBert则充分利用了孪生网络的优点和预训练模型的特征抽取优势,在众多匹配任务上取得了最优结果。

抛开具体任务,SBert 可以帮助我们生成更好的句向量,在一些任务上可能产生更优结果。在推理阶段,SBert直接计算余弦相似度的方式,大大缩短了预测时间,在语义检索、信息搜索等任务中预计会有不错表现。同时,得益于生成的高质量句嵌入特征,SBert也非常适合做文本聚类、新FAQ发现等工作。

责任编辑:lq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3174

    浏览量

    48718
  • 数据集
    +关注

    关注

    4

    文章

    1205

    浏览量

    24644
  • 文本
    +关注

    关注

    0

    文章

    118

    浏览量

    17068

原文标题:文本匹配利器:从孪生网络到Sentence-BERT综述

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    使用语义线索增强局部特征匹配

    视觉匹配是关键计算机视觉任务中的关键步骤,包括摄像机定位、图像配准和运动结构。目前最有效的匹配关键点的技术包括使用经过学习的稀疏或密集匹配器,这需要成对的图像。这些神经
    的头像 发表于 10-28 09:57 123次阅读
    使用语义线索增强局部特征<b class='flag-5'>匹配</b>

    数字孪生与物联网的结合

    联网则是通过传感器、设备和网络连接,实现物理世界与数字世界的无缝连接。当这两个技术结合时,它们可以为制造业、医疗、城市基础设施和其他行业带来革命性的变化。 数字孪生与物联网的结合 1. 概念简介 数字孪生 :数字
    的头像 发表于 10-25 14:36 270次阅读

    华为设备中常用的RIP命令及其应用

    RIP(Routing Information Protocol,路由信息协议)是一种应用广泛的距离矢量路由协议,尤其适用于中小型网络。本文将详细介绍在华为设备中常用的RIP命令及其应用,以帮助网络管理员和工程师更好地理解和配置
    的头像 发表于 08-12 18:10 640次阅读

    机器视觉中常用的光源类型及优点?

    中常用的光源类型及其优点。 一、LED光源 优点 (1)高亮度:LED光源具有高亮度,能够提供足够的光线,使图像更加清晰。 (2)低能耗:LED光源的能耗较低,能够降低整个系统的运行成本。 (3)长寿命:LED光源的使用寿命较长,一
    的头像 发表于 07-04 10:28 507次阅读

    卷积神经网络文本分类领域的应用

    显著成就后,也逐渐被引入到文本分类任务中。卷积神经网络通过模拟人类视觉系统的信息处理方式,能够有效地提取文本中的局部特征,进而实现高精度的文本
    的头像 发表于 07-01 16:25 624次阅读

    分享几个嵌入式中常用的GUI

    交互,完成各种操作,可提高工作效率以及用户体验。接下来看一下我们开发中常用的GUI框架有哪些吧~二、开源轻量级显示框架LVGLLVGL(LightandVersat
    的头像 发表于 04-06 08:09 1377次阅读
    分享几个嵌入式<b class='flag-5'>中常用</b>的GUI

    gis中常用的空间分析方法

    将详细介绍GIS中常用的空间分析方法,包括空间插值、缓冲区分析、空间统计、领域分析、网络分析和多标准决策等。 一、空间插值 空间插值是一种将有限数量的点数据转换为连续表面的方法。常见的空间插值方法包括反距离加权插值(IDW)、克
    的头像 发表于 02-25 13:44 5081次阅读

    网络攻防模拟与城市安全演练 | 数字孪生

    在数字化浪潮的推动下,网络攻防模拟和城市安全演练成为维护社会稳定的不可或缺的环节。基于数字孪生技术我们能够在虚拟环境中进行高度真实的网络攻防模拟,为安全专业人员提供实战经验,从而提升应对网络
    的头像 发表于 02-04 10:48 638次阅读
    <b class='flag-5'>网络</b>攻防模拟与城市安全演练 | 数字<b class='flag-5'>孪生</b>

    浅谈基于数字孪生的配电室关键技术研究

    ,基于实际数据,建立了一个具有较强拟合性的数字孪生模型,并对模型进行了模拟和分析。如果得到的结果与需要相匹配,那么就可以使用这个数字孪生体,对其进行辅助决策,从而有助于实现改善产品设计、提高生产效率等生产
    发表于 01-09 15:49

    《Linux常用命令自学手册》+Linux简单指令笔记

    : cat是一个在Unix和类Unix操作系统中常用的命令行工具,用于显示、合并或复制文本文件的内容。它是一个相对简单的命令,但在处理文本文件时非常有用。 以下是cat命令的一些常见用法: 显示文件内容
    发表于 01-05 08:44

    电子电路中常用的元器件

    电容器、三极管和二极管是电子电路中常用的元器件,它们可以搭配使用以实现各种功能。下面将详细介绍它们的搭配使用方法和使用规范。 一、电容器 电容器是一种能够存储电荷的被动元件,主要用于储存
    的头像 发表于 12-29 14:47 775次阅读

    信观察 | 网络数字孪生如何花式“整活儿”?

    孪生),正是“高度自智”的一大关键技术点。 观看视频,进入数字孪生的奇妙世界 作为通信行业的领导者,爱立信始终在思考: 如何利用数字孪生技术更好地连接虚拟和现实,为面向未来的自动化网络
    的头像 发表于 12-04 16:05 749次阅读
    信观察 | <b class='flag-5'>网络</b>数字<b class='flag-5'>孪生</b>如何花式“整活儿”?

    vlookup函数能匹配文本

    VLOOKUP函数是Excel中常用的一种查找函数,它主要用于在一个表格或区域范围内查找某个值,并返回该值所在行或列的相关数据。VLOOKUP函数的第一个参数是要查找的值,第二个参数是查找范围
    的头像 发表于 12-01 10:36 1.7w次阅读

    vlookup函数近似匹配和精确匹配有什么区别

    VLOOKUP函数是一种在Excel中常用的查找函数,它能通过指定的关键词在表格中查找并返回相应的数值。VLOOKUP函数支持两种匹配方式:近似匹配和精确匹配。这两种
    的头像 发表于 12-01 10:33 1.5w次阅读

    基于RGM的鲁棒且通用的特征匹配

    在一对图像中寻找匹配的像素是具有各种应用的基本计算机视觉任务。由于光流估计和局部特征匹配等不同任务的特定要求,以前的工作主要分为稠密匹配和稀
    的头像 发表于 11-27 11:32 513次阅读
    基于RGM的鲁棒且通用的特征<b class='flag-5'>匹配</b>