0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

解读一下DeBERTa在BERT上有哪些改造

深度学习自然语言处理 来源:深度学习自然语言处理 作者:深度学习自然语言 2021-04-15 14:44 次阅读

DeBERTa刷新了GLUE的榜首,本文解读一下DeBERTa在BERT上有哪些改造

DeBERTa对BERT的改造主要在三点

分散注意力机制

为了更充分利用相对位置信息,输入的input embedding不再加入pos embedding, 而是input在经过transformer编码后,在encoder段与“decoder”端 通过相对位置计算分散注意力

增强解码器(有点迷)

为了解决预训练和微调时,因为任务的不同而预训练和微调阶段的gap,加入了一个增强decoder端,这个decoder并非transformer的decoder端(需要decoder端有输入那种),只是直观上起到了一个decoder作用

解码器前接入了绝对位置embedding,避免只有相对位置而丢失了绝对位置embedding

其实本质就是在原始BERT的倒数第二层transformer中间层插入了一个分散注意力计算

训练trick

训练时加入了一些数据扰动

mask策略中不替换词,变为替换成词的pos embedding

c5b1d7ee-9cd8-11eb-8b86-12bb97331649.jpg

分散注意力机制

motivation

BERT加入位置信息的方法是在输入embedding中加入postion embedding, pos embedding与char embedding和segment embedding混在一起,这种早期就合并了位置信息在计算self-attention时,表达能力受限,维护信息非常被弱化了

c5ed3c44-9cd8-11eb-8b86-12bb97331649.jpg

BERT embedding

本文的motivation就是将pos信息拆分出来,单独编码后去content 和自己求attention,增加计算 “位置-内容” 和 “内容-位置” 注意力的分散Disentangled Attention

Disentangled Attention计算方法

分散注意力机制首先在input中分离相对位置embedding,在原始char embedding+segment embedding经过编码成后,与相对位置计算attention,

即是内容编码,是相对的位置编码, attention的计算中,融合了位置-位置,内容-内容,位置-内容,内容-位置

相对位置的计算

限制了相对距离,相距大于一个阈值时距离就无效了,此时距离设定为一个常数,距离在有效范围内时,用参数用控制

c6002ffc-9cd8-11eb-8b86-12bb97331649.jpg

增强型解码器

强行叫做解码器

用 EMD( enhanced mask decoder) 来代替原 BERT 的 SoftMax 层预测遮盖的 Token。因为我们在精调时一般会在 BERT 的输出后接一个特定任务的 Decoder,但是在预训练时却并没有这个 Decoder;所以本文在预训练时用一个两层的 Transformer decoder 和一个 SoftMax 作为 Decoder。其实就是给后层的Transformer encoder换了个名字,千万别以为是用到了Transformer 的 Decoder端

绝对位置embedding

在decoder前有一个骚操作是在这里加入了一层绝对位置embedding来弥补一下只有相对位置的损失,比如“超市旁新开了一个商场”,当mask的词是“超市”,“商场”,时,只有相对位置时没法区分这两个词的信息,因此decoder中加入一层

一些训练tricks

将BERT的训练策略中,mask有10%的情况是不做任何替换,这种情况attention偏向自己会非常明显,DeBeta将不做替换改成了换位该位置词绝对位置的pos embedding, 实验中明显能看到这种情况下的attention对自身依赖减弱

c617b1d6-9cd8-11eb-8b86-12bb97331649.jpg

在训练下游任务时,给训练集做了一点扰动来增强模型的鲁棒性

效果

DeBERTa large目前是GLUE的榜首,在大部分任务上整体效果相比还是有一丢丢提升

c63aa8c6-9cd8-11eb-8b86-12bb97331649.jpg

责任编辑:lq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    6899

    浏览量

    88842
  • 编码
    +关注

    关注

    6

    文章

    935

    浏览量

    54765
  • Decoder
    +关注

    关注

    0

    文章

    25

    浏览量

    10702

原文标题:SOTA来啦!BERT又又又又又又魔改了!DeBERTa登顶GLUE~

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    建议DFM工具里的拼版完善一下

    建议DFM工具里的拼版完善一下 异性板拼版时建议增加X Y偏移选项 比如我这个三角形板子,我选择倒扣拼版时 是这样有些浪费空间。 如果能增加x偏移量 y偏移量 可以做到这样,这样拼版就划算多了, 建议在这里增加偏移量选项
    发表于 11-14 15:55

    自感线圈断电时灯泡为啥会闪亮一下

    探讨自感线圈断电时灯泡为什么会闪亮一下的原因: 电流变化 :当电路中的电源被切断时,流经线圈的电流会突然减少。这种快速的电流变化会导致自感电动势的产生。 自感电动势 :由于电流的快速减少,线圈中的自感电动势会迅
    的头像 发表于 08-29 14:36 582次阅读

    AWG和BERT常见问题解答

    随着信号的速率越来越高,调制格式越来越复杂,对测试仪器的性能要求也越来越高。是德科技也一直在推出业界领先的高带宽、高采样率的AWG和高性能的BERT
    的头像 发表于 08-06 17:27 542次阅读

    请问一下ESP8266有没有位操作或者位带的功能?

    请问一下ESP8266有没有位操作或者位带的功能,我们需要对块连续内存区域(相当于显存)进行位操作,如果不用位操作速度会很慢,ESP8266上有位操作或者位带功能吗?如果有,怎么操作?
    发表于 07-22 06:42

    欢创播报 支付宝“碰一下”正式发布

    1 支付宝“碰一下”正式发布 近日,支付宝开放日上,支付宝宣布升级条码支付体验,推出“支付宝碰一下”,用户无需展示付款码,解锁手机碰一下商家收款设备,最快
    的头像 发表于 07-11 11:32 855次阅读
    欢创播报  支付宝“碰<b class='flag-5'>一下</b>”正式发布

    今天来解读一下虚拟电厂的组成模式

    虚拟电厂
    的头像 发表于 07-01 16:16 385次阅读
    今天来<b class='flag-5'>解读</b><b class='flag-5'>一下</b>虚拟电厂的组成模式

    求助,求大神帮忙解答AN65974同步Slave FIFO的读时序

    你好,AN65974文档中,我看不懂同步Slave FIFO的读时序,你可以给我解读一下么? 下图中有我标注的我不懂的问题。非常感谢你!......
    发表于 05-31 06:27

    总结一下LM317的几种经典应用电路

    说起LM317,我们做硬件的都很熟悉了,它是LDO的种,并且输出电压很容易通过外部电阻进行调整,今天总结一下LM317的几种经典应用电路。
    的头像 发表于 05-01 10:07 4938次阅读
    总结<b class='flag-5'>一下</b>LM317的几种经典应用电路

    求助一下

    视频中的这个硬件有无大神能认出来,自己感觉可以用得上,但是不知道叫什么,哎,求助一下各位,是用来夹住个水杯的
    发表于 02-23 22:41

    简单介绍一下电源纹波与电容啸叫

    简单介绍一下电源纹波与电容啸叫  电源纹波与电容啸叫是电源系统中常见的两种问题,它们会影响电子设备的性能和稳定性。本篇文章将详细介绍电源纹波和电容啸叫的定义、原因、对设备的影响以及常见的解决方法
    的头像 发表于 02-04 09:42 980次阅读

    体验一下这款免费的云手机,大家觉得效果怎么样?

    现在市面上有许多云手机品牌,云手机品牌太多,都要把人挑花眼了,此时我们可以通过体验一下免费的云手机,来了解这款云手机效果怎么样,并且看看自己玩的游戏应用能不能兼容、运行是否流畅稳定,其实还是有不少
    的头像 发表于 01-15 17:34 1327次阅读

    盘点一下高通CES 2024汽车创新技术

    CES2024上,我们看到英特尔和AMD加入,加上原来的英伟达,高通需要和这些跨行的对手个赛道卷,目前高通在数字座舱、云连接、人工智能和自动驾驶领域是有定的积累的,我们来盘点
    的头像 发表于 01-13 15:22 1759次阅读
    盘点<b class='flag-5'>一下</b>高通CES 2024汽车创新技术

    变压器有没有过负荷?几种经典状态给大家分析一下

    变压器有没有过负荷?几种经典状态给大家分析一下 变压器是种电力设备,电力传输和配电系统中起着重要的作用。它能够改变电压的大小,使得电能可以高效地传输和分配。然而,长时间运行或特定
    的头像 发表于 12-19 15:47 1022次阅读

    介绍一下芯片的VIA pillar

    Via pillar,又可以叫Via ladder。貌似Cadence家喜欢叫pillar,synopsis喜欢叫ladder,我也不知道它们为啥不能统一一下名称。
    的头像 发表于 12-06 14:00 809次阅读

    无需电流采样电阻的智能电机驱动IC,不来了解一下么?

    无需电流采样电阻的智能电机驱动IC,不来了解一下么?
    的头像 发表于 11-30 17:43 437次阅读
    无需电流采样电阻的智能电机驱动IC,不来了解<b class='flag-5'>一下</b>么?