文本匹配任务中常用的孪生网络-电子发烧友网

文本匹配是自然语言处理领域一个基础且重要的方向，一般研究两段文本之间的关系。文本相似度、自然语言推理、问答系统、信息检索都可以看作针对不同数据和场景的文本匹配应用。

本文总结了文本匹配任务中的经典网络Siamse Network，它和近期预训练语言模型的组合，一些调优技巧以及在线下数据集上的效果检验。

Siamese 孪生网络

在正式介绍前，我们先来看一个有趣的故事。

孪生网络的由来

“Siamese”中的“Siam”是古时泰国的称呼，中文译作暹罗，所以“Siamese”就是指“暹罗”人或“泰国”人。“Siamese”在英语中同时表示“孪生”，这又是为什么呢？

十九世纪，泰国出生了一对连体婴儿“恩”和“昌”，当时的医学技术无法使他们分离出来，于是两人顽强地生活了一生。

1829年他们被英国商人发现，进入马戏团，在全世界各地演出。1839年他们访问美国北卡罗莱那州成为“玲玲马戏团” 的台柱，最后成为美国公民。1843年4月13日跟英国一对姐妹结婚，恩生了10个小孩，昌生了12个。1874年，两人因病均于63岁离开了人间。他们的肝至今仍保存在费城的马特博物馆内。

从此之后，“暹罗双胞胎”（Siamese twins）就成了连体人的代名词，也因为这对双胞胎全世界开始重视这项特殊疾病。

孪生网络

由于结构具有鲜明的对称性，就像两个孪生兄弟，所以下图这种神经网络结构被研究人员称作“Siamese Network”，即孪生网络。

其中最能体现“孪生”的地方，在于网络具有相同的编码器（sentence encoder），即将文本转换为高维向量的部分。网络随后对两段文本的特征进行交互，最后完成分类/相似预测。“孪生网络”结构简单，训练稳定，是很多文本任务不错的baseline模型。

孪生网络的具体用途是衡量两个输入文本的相似程度。

例如，现在我们有文本1和2，首先把它们分别输入 sentence encoder 进行特征提取和编码，将输入映射到新的空间得到特征向量u和v；最终通过u、v的拼接组合，经过下游网络来计算文本1和2的相似性。

整个过程有2个值得关注的点：

在训练和测试中，模型的编码器是权重共享的（“孪生”）；编码器的选择非常广泛，传统的CNN、RNN和Attention、Transformer都可以

得到特征u、v后，可以直接使用cosine距离、欧式距离得到两个文本的相似度；不过更通用的做法是，基于u和v构建用于匹配两者关系的特征向量，然后用额外的模型学习通用的文本关系映射；毕竟我们的场景不一定只是衡量相似度，可能还有问答、蕴含等复杂任务

‍‍‍‍‍‍‍‍三连体网络‍‍‍‍‍‍‍‍

基于孪生网络，还有人提出了 Triplet network 三连体网络。顾名思义，输入由三部分组成，文本1，和1相似的文本2，和1不相似的文本3。

训练的目标非常朴素，期望让相同类别间的距离尽可能的小，让不同类别间的距离尽可能的大，即减小类内距，增大类间距。

Sentence-BERT

自从2018年底Bert等预训练语言模型横空出世，NLP届的游戏规则某种程度上被大幅更改了。在计算资源允许的条件下，Bert成为解决很多问题的首选。甚至有时候拿Bert跑一跑baseline，发现问题已经解决了十之八九。

但是Bert的缺点也很明显，1.1亿参数量使得推理速度明显比CNN等传统网络慢了不止一个量级，对资源要求更高，也不适合处理某些任务。

例如，从10,000条句子中找到最相似的一对句子，由于可能的组合众多，需要完成49,995,000次推理；在一块现代V100GPU上使用Bert计算，将消耗65小时。

考虑到孪生网络的简洁有效，有没有可能将它和Bert强强联合呢？

当然可以，这正是论文《Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks》的工作，首次提出了Sentence-Bert模型（以下简称SBert）。

SBert在众多文本匹配工作中（包括语义相似性、推理等）都取得了最优结果。更让人惊讶的是，前文所述的从10,000条句子寻找最相似pair任务，SBert仅需5秒就能完成！

基于BERT的文本匹配

让我们简短回顾此前Bert是怎么处理文本匹配任务的。

常规做法是将匹配转换成二分类任务。输入的两个文本拼接成一个序列（中间用特殊符号“SEP”分割），经过12层或24层Transformer模块编码后，将输出层的字向量取平均或者取“CLS”位置的特征作为句向量，经softmax完成最终分类。

但是论文作者 Nils Reimers 在实验中指出，这样的做法产生的结果并不理想（至少在处理语义检索和聚类问题时是如此），甚至比Glove词向量取平均的效果还差。

基于S-BERT的文本匹配

为了让Bert更好地利用文本信息，作者们在论文中提出了如下的SBert模型。是不是非常眼熟？对，这不就是之前见过的孪生网络嘛！

SBert沿用了孪生网络的结构，文本Encoder部分用同一个Bert来处理。之后，作者分别实验了CLS-token和2种池化策略（Avg-Pooling、Mean-Pooling），对Bert输出的字向量进一步特征提取、压缩，得到u、v。关于u、v整合，作者提供了3种策略：

针对分类任务，将u、v拼接，接入全连接网络，经softmax分类输出；损失函数用交叉熵

直接计算、输出余弦相似度；训练损失函数采用均方根误差

如果输入的是三元组，论文种也给出了相应的损失函数

总的来说，SBert直接用Bert的原始权重初始化，在具体数据集上微调，训练过程和传统Siamse Network差异不大。

但是这种训练方式能让Bert更好的捕捉句子之间的关系，生成更优质的句向量。在测试阶段，SBert直接使用余弦相似度来衡量两个句向量之间的相似度，极大提升了推理速度。

实验为证

作者在7个文本匹配相关的任务中做了对比实验，结果在其中5个任务上，SBert都有更优表现。

作者还做了一些有趣的消融实验。

使用NLI和STS为代表的匹配数据集，在分类目标函数训练时，作者测试了不同的整合策略，结果显示“(u, v, |u-v|)”的组合效果最好。这里面最重要的部分是元素差：（|u - v|)。句向量之间的差异度量了两个句子嵌入维度间的距离，确保相似的pair更近，不同的pair更远。

文章最后，作者将SBert和传统方‍‍‍‍法做了对比。

SBert的计算效率要更高。其中的smart-batching是一个小技巧。先将输入的文本按长度排序，这样同一个mini-batch的文本长度更加统一，padding时能显著减少填充的token。

线下实测

我们将SBert模型在天池—新冠疫情相似句对判定比赛数据集上做了测试。经数据增强后，线下训练集和验证集分别是13,500和800条句子组合。预训练模型权重选择BERT_large。

最终SBert单模型在验证集上的准确率是95.7%。直接使用Bert微调准确率为95.2%。

小结

本文介绍了文本匹配任务中常用的孪生网络，和在此基础上改进而来的Sentence-BERT模型。

Siamse Network 简洁的设计和平稳高效训练非常适合作为文本匹配任务的baseline模型。SBert则充分利用了孪生网络的优点和预训练模型的特征抽取优势，在众多匹配任务上取得了最优结果。

抛开具体任务，SBert 可以帮助我们生成更好的句向量，在一些任务上可能产生更优结果。在推理阶段，SBert直接计算余弦相似度的方式，大大缩短了预测时间，在语义检索、信息搜索等任务中预计会有不错表现。同时，得益于生成的高质量句嵌入特征，SBert也非常适合做文本聚类、新FAQ发现等工作。

责任编辑：lq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

模型

模型

+关注

关注
1

文章
3267

浏览量
48924
数据集

数据集

+关注

关注
4

文章
1208

浏览量
24737
文本

文本

+关注

关注
0

文章
118

浏览量
17092

原文标题：文本匹配利器：从孪生网络到Sentence-BERT综述

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

低压配电柜中常用的电表有哪些？

一、低压配电柜中常用的电表类型包括： 1. 电压表电压表主要用于测量电压，广泛应用于电力系统中。在低压配电柜中，电压表被用于测量电源电压，其显示范围一般为0-1000V。电压表可以分为直流电

发表于 12-25 10:50 •226次阅读

使用语义线索增强局部特征匹配

视觉匹配是关键计算机视觉任务中的关键步骤，包括摄像机定位、图像配准和运动结构。目前最有效的匹配关键点的技术包括使用经过学习的稀疏或密集匹配器，这需要成对的图像。这些神经

发表于 10-28 09:57 •281次阅读

数字孪生与物联网的结合

联网则是通过传感器、设备和网络连接，实现物理世界与数字世界的无缝连接。当这两个技术结合时，它们可以为制造业、医疗、城市基础设施和其他行业带来革命性的变化。数字孪生与物联网的结合 1. 概念简介数字孪生：数字

发表于 10-25 14:36 •418次阅读

NVIDIA文本嵌入模型NV-Embed的精度基准

NVIDIA 的最新嵌入模型 NV-Embed —— 以 69.32 的分数创下了嵌入准确率的新纪录海量文本嵌入基准测试（MTEB）涵盖 56 项嵌入任务。

发表于 08-23 16:54 •2005次阅读

NVIDIA<b class='flag-5'>文本</b>嵌入模型NV-Embed的精度基准

华为设备中常用的RIP命令及其应用

RIP（Routing Information Protocol，路由信息协议）是一种应用广泛的距离矢量路由协议，尤其适用于中小型网络。本文将详细介绍在华为设备中常用的RIP命令及其应用，以帮助网络管理员和工程师更好地理解和配置

发表于 08-12 18:10 •818次阅读

不同类型神经网络在回归任务中的应用

神经网络是一种强大的机器学习模型，可以用于各种任务，包括回归。在本文中，我们将讨论不同类型的神经网络，以及它们在回归任务中的应用。基本的神经网络

发表于 07-11 10:27 •1368次阅读

机器视觉中常用的光源类型及优点?

中常用的光源类型及其优点。一、LED光源优点（1）高亮度：LED光源具有高亮度，能够提供足够的光线，使图像更加清晰。（2）低能耗：LED光源的能耗较低，能够降低整个系统的运行成本。（3）长寿命：LED光源的使用寿命较长，一

发表于 07-04 10:28 •650次阅读

卷积神经网络在文本分类领域的应用

显著成就后，也逐渐被引入到文本分类任务中。卷积神经网络通过模拟人类视觉系统的信息处理方式，能够有效地提取文本中的局部特征，进而实现高精度的文本

发表于 07-01 16:25 •752次阅读

什么是数字孪生

近年来，数字孪生这个词不断出现在公众视野中，尤其是随着物联网技术的发展，数字孪生不断出现在各行各业。乍一看，这个概念还是比较生僻的。什么是数字孪生？首先，我们来看一下数字孪生的定义，

发表于 06-05 15:45 •965次阅读

矢量网络分析仪和射频网络分析仪有什么区别

矢量网络分析仪（ VNA）和射频网络分析仪是两种在电子工程领域中常用的测试仪器，它们主要用于测量和分析射频（RF）和微波（MW）网络的特性。

发表于 05-20 16:33 •1007次阅读

网络安全数字孪生：一种新颖的汽车软件解决方案

汽车软件的数字孪生为整个汽车生命周期的汽车软件提供了一种新的方法。软件孪生技术可以帮助整车厂和供应商优化和验证他们的设计，它还有助于改善现有车辆在道路上的运行。更具体地说，软件孪生技术为ECU固件

发表于 04-22 17:19 •850次阅读

分享几个嵌入式中常用的GUI

交互，完成各种操作，可提高工作效率以及用户体验。接下来看一下我们开发中常用的GUI框架有哪些吧~二、开源轻量级显示框架LVGLLVGL（LightandVersat

发表于 04-06 08:09 •1654次阅读

gis中常用的空间分析方法

将详细介绍GIS中常用的空间分析方法，包括空间插值、缓冲区分析、空间统计、领域分析、网络分析和多标准决策等。一、空间插值空间插值是一种将有限数量的点数据转换为连续表面的方法。常见的空间插值方法包括反距离加权插值（IDW）、克

发表于 02-25 13:44 •5826次阅读

浅谈SoC中常用的处理器

复杂系统执行多种多样的复杂任务。任务常因为市场需求而改变。处理器的软件可编程性使得它可以实现更加快速的功能开发和提供更加敏捷的可适性，已成为SoC最为重要的组件，其性能直接决定了系统性能的优劣。

发表于 02-23 09:19 •1310次阅读

网络攻防模拟与城市安全演练 | 数字孪生

在数字化浪潮的推动下，网络攻防模拟和城市安全演练成为维护社会稳定的不可或缺的环节。基于数字孪生技术我们能够在虚拟环境中进行高度真实的网络攻防模拟，为安全专业人员提供实战经验，从而提升应对网络

发表于 02-04 10:48 •679次阅读