0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

ERNIE-Search模型结构

深度学习自然语言处理 来源:CS的陋室 作者:CS的陋室 2022-08-03 11:41 次阅读

说来惭愧,之前写了一篇对向量召回的总结(前沿重器[28] | 前沿的向量召回都是怎么做的),万万没想到现在就来写新文章了,而且上面的总结还没提到,大家当做扩展和补充吧。

众所周知,在语义相似度上,交互式方案总会比非交互方案更容易获得较好的效果,然而在召回上,非交互式方案(也就是表征式)具有得天独厚的优势,我们最终使用的,又不得不是非交互的方案,因此我们会尝试进一步优化非交互方案。

最近开始发现一些从交互式蒸馏到交互的方案,例如21年年末美团提出的VIRT(VIRT: Improving Representation-based Models for Text Matching through Virtual Interaction),今天我们来聊的是百度在22年5月份提出的方案,我认为这篇论文是这个领域内目前比较有代表性的,主要有这几个原因:

整理了一些比较好的蒸馏思路和方向。

对这些蒸馏方案做了一些消融实验。

试验了一些前处理的方案,甚至包括一些furture pretrain。

论文和有关资料放这里:

原论文:ERNIE-Search: Bridging Cross-Encoder with Dual-Encoder via Self On-the-fly Distillation for Dense Passage Retrieval

文章讲解:

https://zhuanlan.zhihu.com/p/522301876

https://blog.csdn.net/moxibingdao/article/details/125713542

https://zhuanlan.zhihu.com/p/518577648

表征式能逼近交互式吗

之所以想先聊这个,是因为想说一下这两者之间存在的可能性,即表征式是否可以达到交互式的效果,从苏神有关这块的推理来看(https://spaces.ac.cn/archives/8860),其实是可行的,虽然这块的推理并不算严格,但是这个推理已经相对可靠了,换言之,我们可能可以找到更好的学习方法,找到这样一组参数,使表征式能达到交互式效果的这个理论高度。

ERNIE-Search模型结构

模型结构,我比较想从损失函数开始讲,其实从损失函数看就能看出本文很大部分的贡献:

这个损失的内容非常多,我把他分为两个部分,一个是独立训练的部分(不带箭头的),另一个是蒸馏部分(带箭头的)。首先是独立训练的部分,这部分主要是直接针对标签进行训练的,无论是teacher模型还是student模型,其实都是需要这个部分的。

:cross-encoder,交互式的方案,在这篇论文里,使用的是ERNIE2.0(4.1.3中提到)。

:late-interaction,延迟交互方案,这里是指介于交互式和表征式之间的方案,开头是双塔,后续的交互式并非cos而是更复杂的交互方式,如ColBERT(ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT)。

:Dual-encoder,表征式方案,就是常说的双塔,本文用的是同样是ERNIE2.0(4.1.3中提到)。

另一部分则是蒸馏部分,这里的蒸馏部分作者是做了很多的心血进行分析的,构造了好几个损失函数,分别是这些,这里的几个蒸馏损失函数用的都是KL散度:

:交互方案蒸馏到延迟交互方案。

:延迟交互方案蒸馏到表征式方案(和共同形成级联蒸馏)。

:交互方案蒸馏到表征式方案。

:最特别的一个。实质上是一个token级别的交互损失,旨在希望延迟交互得到的attn矩阵和交互式的attn矩阵尽可能接近。

回到损失函数本身,其实会发现这个损失函数是由多个损失函数组合起来的,敏锐的我们可以发现,这里的几个损失之间的权重是完全一样的,估计调整下可能还有些空间吧,不过也考虑到损失函数实在够多了,调起来真的不容易。

说起效果,这点作者是做了消融实验的:

2da671d4-1258-11ed-ba43-dac502259ad0.jpg

损失函数消融实验

从实验结果来看,其中贡献最大的是,也就是交互方案蒸馏到延迟交互方案,其二是(我感觉就是),这个也挺符合直觉的吧,但是比较神奇的是去掉了比较多以后,就是#6的实验,好像最终对结果的损失反而会变少,这个有些神奇,有待进一步实验和探索吧,当然,我感觉这里可能和权重也有关。

训练策略

还需要提一个关键点就是文章在4.1.3中提到的训练策略,这个特别的训练策略为最终的结果贡献度不少(可以参考消融实验),因此展开说一下:

使用对应语料对预训练模型(应该就是ERNIR2.0)进行继续预训练,这个阶段在文中也被称为post-train。

对QA任务,使用交互式蒸馏到表征式的方案,训练表征式模型。

对QA任务,再使用上面的级联蒸馏方案,训练表征式模型,和上一条被联合称为finetune阶段。

另外,在3.4中,有提到一个训练策略叫Dual Regularization(DualReg),其实我感觉这个和r-dropout很相似(前沿重器[15] | R-Dropout——一次不行就两次),用两个不同随机种子的dropout对表征式进行前向训推理,得到两个表征结果,用KL散度进行学习,而因为双塔,实际上要对q1和q2都这么做一次,所以实际上会多两个损失函数。

2dbf2ca6-1258-11ed-ba43-dac502259ad0.jpg

训练策略消融实验

这些训练策略的效果,在4.3.1中有进行消融实验,如上图所示,直观地,从这个表其实可以发现几个信息

ID'(也就是交互式蒸馏)具有一定的优势,尤其是在Finetuning阶段,但是在Post-train中的收益似乎不那么明显。

DualReg似乎是有些效果的,但是不清楚为什么要把CB(RocketQA中的提到的跨batch负采样策略)也放一起,就感觉这个东西和本文的创新点没啥关系,让我们并不知道是CB的贡献,还是DualReg的贡献了。

但是感觉做的有一些马虎,主要是为了证明这个ID'(也就是交互式整流)的方案比较厉害,但是从这个表来看收效没有想象的大额,不过有一说一,前面的继续预训练还是非常值得我们学习和尝试的,这点我在(前沿重器[26] | 预训练模型的领域适配问题)中有提到过。

小结

总结下来,这篇文章最大的特点是把“通过学习交互式,来让表征式效果进一步提升”这个思路发挥很极致,让我们知道了这个方案的潜力,这个是有些实验和落地价值的。

除此之外,这篇文章在初读的时候,其实发现了不少新的概念(可能也是我有些匮乏吧),所以挖了不少坑,论文里的下面这张表其实都值得我好好读一下,当然也包括introduction里面的。

2dd06cfa-1258-11ed-ba43-dac502259ad0.jpg

对比实验

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 函数
    +关注

    关注

    3

    文章

    4338

    浏览量

    62734
  • 模型
    +关注

    关注

    1

    文章

    3259

    浏览量

    48909

原文标题:ERNIE-Search:向交互式学习的表征式语义匹配代表作

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    AI模型部署边缘设备的奇妙之旅:目标检测模型

    提升一倍 导出模型将后处理包含在网络中,预测直接输出 box 结果,无需二次开发,迁移成本更低,端到端预测速度提升10%-20%。 2.2 模型结构 PP-PicoDet 网络结构图如
    发表于 12-19 14:33

    原子结构模型及特点 原子的组成及结构解析

    原子是物质的基本单位,由原子核和电子组成。原子结构模型的发展经历了几个阶段,每个阶段都有其特点和局限性。 一、原子结构模型的演变 道尔顿模型(1803年) 英国化学家约翰·道尔顿提出了原子论,认为
    的头像 发表于 12-17 15:22 419次阅读

    荣耀手机新增谷歌Circle to Search功能

    近日,全球知名科技品牌荣耀宣布,在其旗舰智能手机HONOR Magic V3及HONOR 200系列上,正式推出谷歌(Google)Circle to Search功能。这一创新功能将为用户带来更加便捷、直观的搜索体验。
    的头像 发表于 10-17 18:16 750次阅读

    【《大语言模型应用指南》阅读体验】+ 基础知识学习

    收集海量的文本数据作为训练材料。这些数据集不仅包括语法结构的学习,还包括对语言的深层次理解,如文化背景、语境含义和情感色彩等。 自监督学习:模型采用自监督学习策略,在大量无标签文本数据上学
    发表于 08-02 11:03

    多层感知机模型结构

    多层感知机(MLP,Multilayer Perceptron)是一种基本且广泛应用的人工神经网络模型,其结构由多个层次组成,包括输入层、一个或多个隐藏层以及输出层。MLP以其强大的非线性映射能力
    的头像 发表于 07-11 17:57 1664次阅读

    CNN模型的基本原理、结构、训练过程及应用领域

    CNN模型的基本原理、结构、训练过程以及应用领域。 卷积神经网络的基本原理 1.1 卷积运算 卷积运算是CNN模型的核心,它是一种数学运算
    的头像 发表于 07-02 15:26 3808次阅读

    深度神经网络模型cnn的基本概念、结构及原理

    ,其核心是构建具有多层结构的神经网络模型,以实现对复杂数据的高效表示和处理。在众多深度学习模型中,卷积神经网络(CNN)因其在图像识别等领域的卓越性能而备受关注。CNN通过引入卷积层和池化层,有效地捕捉了图像的局部特征和空间
    的头像 发表于 07-02 10:11 9776次阅读

    【大语言模型:原理与工程实践】大语言模型的预训练

    具有以下三个非常显著的特点,一个就是模型参数规模更大,训练数据更多。当然,对计算资源的要求也会更高。 构建强大的语言模型时,模型的选型至关重要,涉及模型的基本架构,包括
    发表于 05-07 17:10

    【大语言模型:原理与工程实践】大语言模型的基础技术

    全面剖析大语言模型的核心技术与基础知识。首先,概述自然语言的基本表示,这是理解大语言模型技术的前提。接着,详细介绍自然语言处理预训练的经典结构Transformer,以及其工作原理,为构建大语言
    发表于 05-05 12:17

    【大语言模型:原理与工程实践】揭开大语言模型的面纱

    维基百科、网页内容和书籍等,不仅掌握了语言的语法、语义和上下文信息,还能生成结构连贯、语义合理的句子和段落。大语言模型的一个显著特点是其庞大的参数量,已达数亿甚至数十亿级别。这种规模赋予模型强大的表示和学习
    发表于 05-04 23:55

    百度智能云推出全新轻量级大模型

    在近日举办的百度智能云千帆产品发布会上,三款全新的轻量级大模型——ERNIE Speed、ERNIE Lite以及ERNIE Tiny,引起了业界的广泛关注。相较于传统的千亿级别参数大
    的头像 发表于 03-22 10:28 680次阅读

    百度智能云发布三款轻量级大模型和两款特定场景大模型

    百度智能云在千帆产品发布会上震撼推出了一系列创新产品,其中包括三款轻量级大模型ERNIE Speed、ERNIE Lite和ERNIE Tiny,以及两款专为特定场景打造的
    的头像 发表于 03-22 10:28 721次阅读

    Stage 模型深入解读

    设备的迁移和协同机制。本文为大家详细介绍 Stage 模型。 一、Stage 模型概念 应用开发模型是运行在不同 OS 上的抽象结构。OS 通过这种抽象
    的头像 发表于 02-18 09:28 1183次阅读
    Stage <b class='flag-5'>模型</b>深入解读

    protues添加通过component search engine 下载的电子元件模型后闪退

    protues添加通过component search engine 下载的电子元件模型后就闪退,流程是通过“库-Import Parts\",然后就按照提示一直选择下去,添加从搜索引擎
    发表于 02-15 13:00

    Browser Company推出AI搜索工具Arc Search,助您快速便捷找到所需

    Arc Search 的独特之处在于其提供的“浏览为我寻找”功能,此乃由 OpenAI 等多家技术巨头联合打造,通过对多达六个网页的深度解析,收集有效信息并生成新的页面,以满足用户需求。
    的头像 发表于 01-31 10:15 809次阅读