解读一下DeBERTa在BERT上有哪些改造-电子发烧友网

DeBERTa刷新了GLUE的榜首，本文解读一下DeBERTa在BERT上有哪些改造

DeBERTa对BERT的改造主要在三点

分散注意力机制

为了更充分利用相对位置信息，输入的input embedding不再加入pos embedding, 而是input在经过transformer编码后，在encoder段与“decoder”端通过相对位置计算分散注意力

增强解码器（有点迷）

为了解决预训练和微调时，因为任务的不同而预训练和微调阶段的gap，加入了一个增强decoder端，这个decoder并非transformer的decoder端（需要decoder端有输入那种），只是直观上起到了一个decoder作用

解码器前接入了绝对位置embedding，避免只有相对位置而丢失了绝对位置embedding

其实本质就是在原始BERT的倒数第二层transformer中间层插入了一个分散注意力计算

训练trick

训练时加入了一些数据扰动

mask策略中不替换词，变为替换成词的pos embedding

分散注意力机制

motivation

BERT加入位置信息的方法是在输入embedding中加入postion embedding, pos embedding与char embedding和segment embedding混在一起，这种早期就合并了位置信息在计算self-attention时，表达能力受限，维护信息非常被弱化了

BERT embedding

本文的motivation就是将pos信息拆分出来，单独编码后去content 和自己求attention，增加计算 “位置-内容” 和 “内容-位置” 注意力的分散Disentangled Attention

Disentangled Attention计算方法

分散注意力机制首先在input中分离相对位置embedding，在原始char embedding+segment embedding经过编码成后，与相对位置计算attention,

即是内容编码，是相对的位置编码， attention的计算中，融合了位置-位置，内容-内容，位置-内容，内容-位置

相对位置的计算

限制了相对距离，相距大于一个阈值时距离就无效了，此时距离设定为一个常数，距离在有效范围内时，用参数用控制

增强型解码器

强行叫做解码器

用 EMD( enhanced mask decoder) 来代替原 BERT 的 SoftMax 层预测遮盖的 Token。因为我们在精调时一般会在 BERT 的输出后接一个特定任务的 Decoder，但是在预训练时却并没有这个 Decoder；所以本文在预训练时用一个两层的 Transformer decoder 和一个 SoftMax 作为 Decoder。其实就是给后层的Transformer encoder换了个名字，千万别以为是用到了Transformer 的 Decoder端

绝对位置embedding

在decoder前有一个骚操作是在这里加入了一层绝对位置embedding来弥补一下只有相对位置的损失，比如“超市旁新开了一个商场”，当mask的词是“超市”，“商场”，时，只有相对位置时没法区分这两个词的信息，因此decoder中加入一层

一些训练tricks

将BERT的训练策略中，mask有10%的情况是不做任何替换，这种情况attention偏向自己会非常明显，DeBeta将不做替换改成了换位该位置词绝对位置的pos embedding, 实验中明显能看到这种情况下的attention对自身依赖减弱

在训练下游任务时，给训练集做了一点扰动来增强模型的鲁棒性

效果

DeBERTa large目前是GLUE的榜首，在大部分任务上整体效果相比还是有一丢丢提升

责任编辑：lq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数据

数据

+关注

关注
8

文章
7067

浏览量
89107
编码

编码

+关注

关注
6

文章
945

浏览量
54850
Decoder

Decoder

+关注

关注
0

文章
25

浏览量
10709

原文标题：SOTA来啦！BERT又又又又又又魔改了！DeBERTa登顶GLUE~

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

“碰一下”支付背后的4G技术

不知道你是否有留意，近期，在线下支付场景中，多了一个支付宝“碰一下”支付的设备，只需要“解锁手机—碰一下—确认”即可完成支付，对比打开付款码支付，步骤确实更加简洁。

发表于 01-03 16:27 •139次阅读

支付宝发布新一代AI视觉搜索“探一下”

支付宝近日正式推出了基于自研多模态大模型技术的新一代AI视觉搜索产品——“探一下”。这一创新产品的问世，标志着支付宝在AI技术应用领域迈出了重要一

发表于 12-31 10:49 •117次阅读

建议DFM工具里的拼版在完善一下

建议DFM工具里的拼版在完善一下在异性板拼版时建议增加X Y偏移选项比如我这个三角形板子，我选择倒扣拼版时是这样有些浪费空间。如果能增加x偏移量 y偏移量可以做到这样，这样拼版就划算多了，建议在这里增加偏移量选项

发表于 11-14 15:55

内置误码率测试仪（BERT）和采样示波器一体化测试仪器安立MP2110A

BERTWave MP2110A是一款内置误码率测试仪(BERT)和采用示波器的一体化测量仪器，支持光模块的误码率（BERT）测量、眼图模式测试、眼图分析等评估操作

发表于 09-23 14:34 •357次阅读

自感线圈断电时灯泡为啥会闪亮一下

探讨自感线圈断电时灯泡为什么会闪亮一下的原因：电流变化：当电路中的电源被切断时，流经线圈的电流会突然减少。这种快速的电流变化会导致自感电动势的产生。自感电动势：由于电流的快速减少，线圈中的自感电动势会迅

发表于 08-29 14:36 •1073次阅读

AWG和BERT常见问题解答

随着信号的速率越来越高，调制格式越来越复杂，对测试仪器的性能要求也越来越高。是德科技也一直在推出业界领先的高带宽、高采样率的AWG和高性能的BERT。

发表于 08-06 17:27 •688次阅读

请问一下ESP8266有没有位操作或者位带的功能？

请问一下ESP8266有没有位操作或者位带的功能，我们需要对一块连续内存区域(相当于显存)进行位操作，如果不用位操作速度会很慢，ESP8266上有位操作或者位带功能吗？如果有，怎么操作？

发表于 07-22 06:42

欢创播报支付宝“碰一下”正式发布

1 支付宝“碰一下”正式发布近日，在支付宝开放日上，支付宝宣布升级条码支付体验，推出“支付宝碰一下”，用户无需展示付款码，解锁手机碰一下商家收款设备，最快

发表于 07-11 11:32 •899次阅读

今天来解读一下虚拟电厂的组成模式

虚拟电厂

发表于 07-01 16:16 •417次阅读

求助，求大神帮忙解答下AN65974同步Slave FIFO的读时序

你好，在AN65974文档中，我看不懂同步Slave FIFO的读时序，你可以给我解读一下么？下图中有我标注的我不懂的问题。非常感谢你！......

发表于 05-31 06:27

总结一下LM317的几种经典应用电路

说起LM317，我们做硬件的都很熟悉了，它是LDO的一种，并且输出电压很容易通过外部电阻进行调整，今天总结一下LM317的几种经典应用电路。

发表于 05-01 10:07 •5800次阅读

求助一下

视频中的这个硬件有无大神能认出来，自己感觉可以用得上，但是不知道叫什么，哎，求助一下各位，是用来夹住一个水杯的

发表于 02-23 22:41

简单介绍一下电源纹波与电容啸叫

简单介绍一下电源纹波与电容啸叫电源纹波与电容啸叫是在电源系统中常见的两种问题，它们会影响电子设备的性能和稳定性。本篇文章将详细介绍电源纹波和电容啸叫的定义、原因、对设备的影响以及常见的解决方法

发表于 02-04 09:42 •1045次阅读

体验一下这款免费的云手机,大家觉得效果怎么样?

现在市面上有许多云手机品牌，云手机品牌太多，都要把人挑花眼了，此时我们可以通过体验一下免费的云手机，来了解这款云手机效果怎么样，并且看看自己玩的游戏应用能不能兼容、运行是否流畅稳定，其实还是有不少

发表于 01-15 17:34 •1413次阅读

盘点一下高通CES 2024汽车创新技术

在CES2024上，我们看到英特尔和AMD加入，加上原来的英伟达，高通需要和这些跨行的对手在一个赛道卷，目前高通在数字座舱、云连接、人工智能和自动驾驶领域是有一定的积累的，我们来盘点

发表于 01-13 15:22 •1800次阅读