0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

解读一下DeBERTa在BERT上有哪些改造

深度学习自然语言处理 来源:深度学习自然语言处理 作者:深度学习自然语言 2021-04-15 14:44 次阅读

DeBERTa刷新了GLUE的榜首,本文解读一下DeBERTa在BERT上有哪些改造

DeBERTa对BERT的改造主要在三点

分散注意力机制

为了更充分利用相对位置信息,输入的input embedding不再加入pos embedding, 而是input在经过transformer编码后,在encoder段与“decoder”端 通过相对位置计算分散注意力

增强解码器(有点迷)

为了解决预训练和微调时,因为任务的不同而预训练和微调阶段的gap,加入了一个增强decoder端,这个decoder并非transformer的decoder端(需要decoder端有输入那种),只是直观上起到了一个decoder作用

解码器前接入了绝对位置embedding,避免只有相对位置而丢失了绝对位置embedding

其实本质就是在原始BERT的倒数第二层transformer中间层插入了一个分散注意力计算

训练trick

训练时加入了一些数据扰动

mask策略中不替换词,变为替换成词的pos embedding

c5b1d7ee-9cd8-11eb-8b86-12bb97331649.jpg

分散注意力机制

motivation

BERT加入位置信息的方法是在输入embedding中加入postion embedding, pos embedding与char embedding和segment embedding混在一起,这种早期就合并了位置信息在计算self-attention时,表达能力受限,维护信息非常被弱化了

c5ed3c44-9cd8-11eb-8b86-12bb97331649.jpg

BERT embedding

本文的motivation就是将pos信息拆分出来,单独编码后去content 和自己求attention,增加计算 “位置-内容” 和 “内容-位置” 注意力的分散Disentangled Attention

Disentangled Attention计算方法

分散注意力机制首先在input中分离相对位置embedding,在原始char embedding+segment embedding经过编码成后,与相对位置计算attention,

即是内容编码,是相对的位置编码, attention的计算中,融合了位置-位置,内容-内容,位置-内容,内容-位置

相对位置的计算

限制了相对距离,相距大于一个阈值时距离就无效了,此时距离设定为一个常数,距离在有效范围内时,用参数用控制

c6002ffc-9cd8-11eb-8b86-12bb97331649.jpg

增强型解码器

强行叫做解码器

用 EMD( enhanced mask decoder) 来代替原 BERT 的 SoftMax 层预测遮盖的 Token。因为我们在精调时一般会在 BERT 的输出后接一个特定任务的 Decoder,但是在预训练时却并没有这个 Decoder;所以本文在预训练时用一个两层的 Transformer decoder 和一个 SoftMax 作为 Decoder。其实就是给后层的Transformer encoder换了个名字,千万别以为是用到了Transformer 的 Decoder端

绝对位置embedding

在decoder前有一个骚操作是在这里加入了一层绝对位置embedding来弥补一下只有相对位置的损失,比如“超市旁新开了一个商场”,当mask的词是“超市”,“商场”,时,只有相对位置时没法区分这两个词的信息,因此decoder中加入一层

一些训练tricks

将BERT的训练策略中,mask有10%的情况是不做任何替换,这种情况attention偏向自己会非常明显,DeBeta将不做替换改成了换位该位置词绝对位置的pos embedding, 实验中明显能看到这种情况下的attention对自身依赖减弱

c617b1d6-9cd8-11eb-8b86-12bb97331649.jpg

在训练下游任务时,给训练集做了一点扰动来增强模型的鲁棒性

效果

DeBERTa large目前是GLUE的榜首,在大部分任务上整体效果相比还是有一丢丢提升

c63aa8c6-9cd8-11eb-8b86-12bb97331649.jpg

责任编辑:lq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    6792

    浏览量

    88723
  • 编码
    +关注

    关注

    6

    文章

    924

    浏览量

    54726
  • Decoder
    +关注

    关注

    0

    文章

    25

    浏览量

    10689

原文标题:SOTA来啦!BERT又又又又又又魔改了!DeBERTa登顶GLUE~

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    AWG和BERT常见问题解答

    随着信号的速率越来越高,调制格式越来越复杂,对测试仪器的性能要求也越来越高。是德科技也一直在推出业界领先的高带宽、高采样率的AWG和高性能的BERT
    的头像 发表于 08-06 17:27 450次阅读

    请问一下ESP8266有没有位操作或者位带的功能?

    请问一下ESP8266有没有位操作或者位带的功能,我们需要对块连续内存区域(相当于显存)进行位操作,如果不用位操作速度会很慢,ESP8266上有位操作或者位带功能吗?如果有,怎么操作?
    发表于 07-22 06:42

    欢创播报 支付宝“碰一下”正式发布

    1 支付宝“碰一下”正式发布 近日,支付宝开放日上,支付宝宣布升级条码支付体验,推出“支付宝碰一下”,用户无需展示付款码,解锁手机碰一下商家收款设备,最快
    的头像 发表于 07-11 11:32 814次阅读
    欢创播报  支付宝“碰<b class='flag-5'>一下</b>”正式发布

    今天来解读一下虚拟电厂的组成模式

    虚拟电厂
    的头像 发表于 07-01 16:16 357次阅读
    今天来<b class='flag-5'>解读</b><b class='flag-5'>一下</b>虚拟电厂的组成模式

    总结一下LM317的几种经典应用电路

    说起LM317,我们做硬件的都很熟悉了,它是LDO的种,并且输出电压很容易通过外部电阻进行调整,今天总结一下LM317的几种经典应用电路。
    的头像 发表于 05-01 10:07 4508次阅读
    总结<b class='flag-5'>一下</b>LM317的几种经典应用电路

    求助一下

    视频中的这个硬件有无大神能认出来,自己感觉可以用得上,但是不知道叫什么,哎,求助一下各位,是用来夹住个水杯的
    发表于 02-23 22:41

    简单介绍一下电源纹波与电容啸叫

    简单介绍一下电源纹波与电容啸叫  电源纹波与电容啸叫是电源系统中常见的两种问题,它们会影响电子设备的性能和稳定性。本篇文章将详细介绍电源纹波和电容啸叫的定义、原因、对设备的影响以及常见的解决方法
    的头像 发表于 02-04 09:42 939次阅读

    盘点一下高通CES 2024汽车创新技术

    CES2024上,我们看到英特尔和AMD加入,加上原来的英伟达,高通需要和这些跨行的对手个赛道卷,目前高通在数字座舱、云连接、人工智能和自动驾驶领域是有定的积累的,我们来盘点
    的头像 发表于 01-13 15:22 1731次阅读
    盘点<b class='flag-5'>一下</b>高通CES 2024汽车创新技术

    介绍一下芯片的VIA pillar

    Via pillar,又可以叫Via ladder。貌似Cadence家喜欢叫pillar,synopsis喜欢叫ladder,我也不知道它们为啥不能统一一下名称。
    的头像 发表于 12-06 14:00 702次阅读

    无需电流采样电阻的智能电机驱动IC,不来了解一下么?

    无需电流采样电阻的智能电机驱动IC,不来了解一下么?
    的头像 发表于 11-30 17:43 417次阅读
    无需电流采样电阻的智能电机驱动IC,不来了解<b class='flag-5'>一下</b>么?

    浪涌抗扰度怎么测?我们用这个A/D转换器试了一下

    浪涌抗扰度怎么测?我们用这个A/D转换器试了一下
    的头像 发表于 11-27 15:20 704次阅读
    浪涌抗扰度怎么测?我们用这个A/D转换器试了<b class='flag-5'>一下</b>

    解锁高速高精度工业应用,安森美电感式位置传感器了解一下

    解锁高速高精度工业应用,安森美电感式位置传感器了解一下
    的头像 发表于 11-24 17:33 706次阅读
    解锁高速高精度工业应用,安森美电感式位置传感器了解<b class='flag-5'>一下</b>?

    盘点一下CST电磁仿真软件的求解器

    今天我们起来盘点一下CST电磁仿真软件那些牛叉的求解器。快来数一下,你用了里面的几种吧!
    的头像 发表于 11-20 10:18 5860次阅读
    盘点<b class='flag-5'>一下</b>CST电磁仿真软件的求解器

    个电路感受一下MOS管和三极管功能上有什么区别?

    MOS管和三极管功能上有什么区别?这两种元件本身就可以看作个基本单元,个独立的器件,就算拆开外壳,用肉眼也找不出什么差别,从工作原理上理解又謷牙诘屈,这次从
    的头像 发表于 11-13 15:57 718次阅读
    <b class='flag-5'>一</b>个电路感受<b class='flag-5'>一下</b>MOS管和三极管<b class='flag-5'>在</b>功能<b class='flag-5'>上有</b>什么区别?

    一下IGBT驱动中的参考电位问题

    大家好,今天聊一下IGBT驱动中的**参考电位**问题。我们都知道IGBT的驱动参考电平都是基于 **器件自身的发射极** ,当栅极相对于发射极电位 **超过阈值电压时,器件就会开通** , **小于阈值电压后,器件就会关断** 。
    的头像 发表于 11-09 15:19 1044次阅读
    聊<b class='flag-5'>一下</b>IGBT驱动中的参考电位问题