0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

世界杯融入词库的位置编码方法介绍

深度学习自然语言处理 来源:船长尼莫 2022-12-23 15:08 次阅读

本文的开头还是从最近爆火的世界杯开始说起,以当下最火的“世界杯阿根廷战胜墨西哥”来说。如果我们一个字符一个字符的获取到embedding,势必NER的效果会很差,但是如果我们能够让模型知道,世界杯、阿根廷、墨西哥分别是三个实体的名字,尤其是在位置编码中“暗示”给模型,会有很好的效果。

上次的分享,主要集中在词语的Embedding方式,这种方式在工业界非常的好用,简单而且有效果。实际上对于算法工程师来说,处理好数据、特征,往往也是对自己能力的重大考验。接下来我们分析一下子NER知识融合的另一种方式,在模型中嵌入知识的表达:

FLAT: Chinese NER Using Flat-Lattice Transformer | 复旦大学| ACL 2020

介绍

近年来,汉字“格”结构被证明是一种有效的中文命名实体识别方法,格子结构被证明对利用词信息和避免分词的错误传播有很大的好处。那么接下来的问题是,什么是汉字格子?Lattice这个单词正是格子的意思,NER任务尝试引入这种类似“格子”的数据来增加NER词汇的容量。

实际上在NER任务中,格是一个有向无环图,其中每个节点都是一个字符或一个潜在的字,可以参考图1a。格子包括句子中的一系列字符和可能的单词。它们不是按顺序排列的,单词的第一个字符和最后一个字符决定了它的位置。汉字格中的一些词可能对NER很重要。举例来说,第一个格子就是“重庆”,也即是从“重”到“庆”。写到这里,读者可能会问,为什么不直接弄成格子呢?例如一个n*n的矩阵?可以是可以的,但是势必会增加内存开销,这点在GPU上的体现很明显。

d8bc8bfe-7233-11ed-8abf-dac502259ad0.png

图1:a 为格子的概念图,b为模型Lattice LSTM的结构图,c为本文的模型图

之前的论文,为了适应格子结构,提出了Lattice LSTM,这种方式无疑会增加计算开销,模型图在图1b。在本文中,我们提出了FLAT:用于中文的 Transformer。具体来讲,本文只是将格子结构变成了头部位置和尾部位置两种索引的方式。如图1c,可以看出有数字的地方,就代表了字符的位置,那么词语“重庆”下面跟着的就是1,2,意思是从第一个字符,到第二个字符,是第一个词语“重庆”。同理还有后面的词语“人和药店”,和“药店”。

有意思的地方在于,本文也是引入了多种实体匹配的情况,“药店”这个实体就匹配到了“人和药店”和“药店”,这点在工业界很实用,因为一句话中很可能包含了很多很多的词语,充分的利用到这部分信息,是我们需要做的事情。

模型部分

总的来说,本文的贡献都集中于位置编码的部分,所以我们着重看下位置编码。在图2的模型架构图中,我们看到位置编码作为底层结构,输入给Transformer,最终进行输出。那么位置编码是如何计算的呢?创新性又在哪里?我们继续介绍。

d8d3821e-7233-11ed-8abf-dac502259ad0.png

图2:模型架构图

将“格子”转化为扁平的方式

我们只需要知道这串序列的头和尾,就可以复原这个词语,例如“重庆”是由“重”到“庆”组成的。这一步是不需要考虑梯度回传的,为什么呢?因为这在数据处理层面,处理好之后才拿去给模型训练的。

相对位置编码

平面网格结构由不同长度的跨度组成。为了对区间之间的相互作用进行编码,本文提出了区间的相对位置编码。现在我们假设有两条序列,分别是xi 和 xj,具体来说,是图1中的“药店”和“人和药店”,这个例子,和明显xi xj是相交的关系。可以参考图2的模型图。

对于格子中的两个跨 xi 和 xj ,它们之间有三种关系:相交、包含和分离,由它们的首尾决定。接着就是来计算相对距离,那么相对距离有几种呢?答案是四种,为什么会这样?实际上是很简单的排列组合,2*2=4,2代表了开头或者结尾。使用 head[i] 和 tail[i] 表示跨度 xi 的头和尾的位置。四种相对距离可以用来表示 xi 和 xj 之间的关系。它们可以被计算为:

d8df46ee-7233-11ed-8abf-dac502259ad0.png

跨度的最终相对位置编码是四个距离的一个简单的非线性变换,见下面的公式。那么问题来了,为什么是四个距离一起计算,而不是只计算一个呢?是因为四个能够完整的还原出原来的状态,而一个不可以。举例来说,如果只有d(hh),代表了从字符串xi的开头,到字符串xj开头的距离,只有这一段距离,是无法复现出原本的xi xj相对位置。

d8ec6950-7233-11ed-8abf-dac502259ad0.png

公式也是很好理解的,ReLU为激活函数,Wr是可学习的参数矩阵,四种距离,经过P运算之后叠加在一起作为输入。那么P是什么运算呢?作者在这里沿用了Transformer原本的距离编码。这个公式很神奇,因为很少有公式会把很大的数字,一万放进去,P的运算在奇数位和偶数位的方式不同,2k代表偶数位,2k+1代表奇数位。在知乎上有很多对这种位置编码的讲解,感兴趣的朋友可以自行浏览。

d8f59f3e-7233-11ed-8abf-dac502259ad0.png

然后使用self-attention的一个变体来利用相对跨度位置编码如下:

d90cefae-7233-11ed-8abf-dac502259ad0.png

其中Rij是从上面的公式而来,E是取Embedding,而W都代表了线性变化的矩阵。紧接着就是用这个A*替换掉原本的A,在Transformer内部进行attention运算的时候,如下的公式所示。之后的步骤就是沿着Transformer的内部进行计算即可。整个模型架构我们介绍完毕了,本文的贡献主要集中在位置编码部分。

d9178522-7233-11ed-8abf-dac502259ad0.png

数据集介绍

数据集的详细情况和之前船长对于NER的分享很类似,都是用了差不多的数据集。不进行过多介绍了。

d92647a6-7233-11ed-8abf-dac502259ad0.png

图3:数据集介绍

结果

Flat的方式,相比于之前的方法,有着1~3个点的提升,不同的数据集提升效果不同。

d92fce66-7233-11ed-8abf-dac502259ad0.png

图4:结果介绍

全连通结构的优点

与lattice LSTM相比,注意机制有两个优点:

所有字符都可以直接与它的自匹配词进行交互。

远程依赖关系可以完全建模。这点根本上是缘由于Transformer的attention机制,注意力的机制能够让远距离的文本不再变得遥远。

FLAT的计算效率

d9407888-7233-11ed-8abf-dac502259ad0.png

图5:推理速度效果

不难看出,推理速度方面,FLAT完胜了之前的 LatticeLSTM方式,大概提升有8倍之多,其中黑桃、梅花代表实验是否训练以batch-parallel 的机制。

兼容BERT

d951a1bc-7233-11ed-8abf-dac502259ad0.png

图6:兼容了BERT之后的结果,BERT是指BERT+MLP+CRF架构,BERT+FLAT是指使用BERT嵌入的FLAT

将FLAT机制引入到BERT之后,提升相对很大,因为对预训练模型的提升本身就很难。但是此处直接和BERT进行对比并不合适,因为BERT并没有引入词语的建模。但是能够方便的嵌入到BERT中,无疑会更利用在工业界的利用。

写在最后

本文介绍了一种FLAT的位置编码方式,可以应用在Transformer模型上面,并且很容易结合BERT等预训练模型。实验结果很优秀,关键是推理速度很快,这点也让方法很容易部署在线上,带来很好的效果。

编辑:黄飞

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NER
    NER
    +关注

    关注

    0

    文章

    7

    浏览量

    6209
  • 位置编码器
    +关注

    关注

    1

    文章

    18

    浏览量

    5562

原文标题:NER无法识别“世界杯”怎么办?融入词库的位置编码方法介绍

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    巴西世界杯:脚尖上的智能硬件

    2014年的巴西世界杯已经正式拉开了帷幕。此次世界杯不仅云集了全世界最优秀的足球运动员,而且还看到了大量最先进的技术装备,它们也让本次世界杯成为了最具科技感的一届。
    发表于 06-27 17:44 1622次阅读

    相约世界杯,金币免费送

    `世界杯来了,合着桑巴奔放的节奏而来,巴西,那是值得每个铁杆球迷膜拜过的足球圣地……只恨远隔重洋,身为铁杆球迷的,我等无法亲临远在南美洲的举办地去“朝圣”。幸好有新世界网站知我心、解我意,适时推出
    发表于 04-03 20:34

    世界世界杯纪念金币啦

    `随着“2014巴西世界杯”的日益临近,全球刮起一股热情奔放的桑巴旋风,南美洲热带风情袭卷而来。新世界网站为襄助这项全球性足球盛事,特地精心策划了此次 “巴西 2014年世界杯限量纪念金币狂热大激赏
    发表于 04-03 20:36

    足球疯狂季也是伤感季呐 与世界杯擦肩而过的巨星

    布在世界杯上精彩的表演,但是很遗憾,瑞典没有去巴西的车票。同样塞尔维亚的伊万诺维奇、科拉罗夫,塞内加尔的西塞,波兰的莱万,都是一群去不了巴西各自位置上的顶级巨星,毕竟世界杯只有32个位置
    发表于 04-27 16:02

    今年巴西世界杯最大的黑马会是哪家?

    世界杯一直是黑马最好的舞台。1974年的波兰、1994年的保加利亚、1998年的克罗地亚、2002年的土耳其都曾经用自己的发挥震惊世界。巴西世界杯的32强当中,哪些球队最具备黑马的潜质呢?楼主以为
    发表于 05-06 11:30

    畅想世界杯——足球与科技的狂欢,你准备好了吗?

    !本次世界杯融入大量高科技技术,下面小编为大家列举几项: 一、世界杯开球神奇——机器脚众所周知世界杯开幕式开球少年是由一位身着机械外骨骼的四肢瘫痪的少年完成开球。开球演示将开启神经学
    发表于 06-12 14:59

    世界杯决赛狂破14大尘封纪录

    巴西盼了整整24年才等到第4座世界杯冠军;意大利用了整整24年才第4次站上世界之巅。从1990年到2014年,德国的两个世界冠军也横跨了整整24年。正如1954年的伯尔尼,1974年的慕尼黑以及
    发表于 07-15 16:48

    2018俄罗斯世界杯哪个厉害 - 2018俄罗斯世界杯谁厉害

    2018俄罗斯世界杯哪个厉害 - 2018俄罗斯世界杯谁厉害
    发表于 06-14 20:28

    科技晚自习 | 世界杯你变了,变得不那么单纯了!

    最新一期《科技晚自习》~今晚7:00,王金钖导师将为大家介绍拥有呈现比赛解说字幕的实时语音转写技术,讨论世界杯上出现的各类黑科技,一起畅想AI为体育注入的活力!`
    发表于 07-06 09:08

    阿里云AI如何助攻世界杯?视频集锦背后的技术实践

    、球员、比赛机制、特定行为等都有了全面的理解,所以它具备像观众一样去客观地认知和感受每一场世界杯球赛的能力。其次,大量的标注工作也是必不可少的,包括对帧图景深、位置、事件、红黄牌、不同角色行为、禁区危险
    发表于 07-12 15:12

    世界杯与RFID】

    四年一度的世界杯正在如火如荼的举行,很快就要来到最精彩的冠军争夺战了,几家欢喜几家愁,不知道今年的冠军最终会花落谁家,你们都看好哪只队伍呢?对于今年的世界杯在这个疫情环视的特殊时期,全世界各国的游客
    发表于 12-07 12:31

    整数的编码方法

    整数的编码方法   与定点小数的三种编码方法类似,整数也可以用原码、补码和反码三种不同的编码方法表示。区别主要表现在:
    发表于 10-13 17:19 5528次阅读

    改进的分形图像编码方法

    传统图像编码方法一般已成定式,发展潜力不大。分形图像编码方法思想新颖,是极具发展潜力的压缩方法,但分形编码存在编码耗时过长的缺点。本文基于分
    发表于 12-20 13:56 2次下载

    vivoX21 FIFA世界杯非凡版即将推出_立体镶嵌2018FIFA世界杯官方徽标

    此次发布vivo X21 FIFA世界杯非凡版也是双方合作后的首款产品。据悉,该机深度融入世界杯元素,首先在外观上后盖设计采用微浮雕处理出光感纹理的效果,立体镶嵌2018 FIFA世界杯
    的头像 发表于 05-26 02:47 5014次阅读

    本届世界杯,有哪些超强科技?

    这届世界杯用了很多高新技术,其高科技程度比以往任何一届都要厉害,堪称“高科技世界杯”。 2022 世界杯开幕,小伙伴们昨晚有看吗?老狐看了开幕式和揭幕战,感觉还是很不错的。 这届世界杯
    的头像 发表于 11-22 10:30 1136次阅读