0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NLP:如何在只有词典的情况下提升NER落地效果

深度学习自然语言处理 来源:深度学习自然语言处理 作者:NLP从入门到放弃 2021-01-07 14:25 次阅读

今天介绍一个论文autoner[1],主要是为了探索如何在只有词典的情况下,提升NER实际落地效果;

首先,如果手中含有词典,常规操作就是远程监督打标数据,然后做NER;

远程监督一个比较常见的操作就是使用我们手中的字典,通过字符匹配的形式对文本中可能存在的实体打标。

但是对于这种远程监督的形式,存在比较多的问题,这个论文主要探讨两种:多标签(multi-label tokens) 和标签不完善的问题;

针对multi-label tokens,论文提出的是Fuzzy-LSTM-CRF,简单讲就是讲LSTM后面的CRF层变为了Fuzzy CRF层,可以在处理tokens对应多标签的情况下,不牺牲计算效率;

第二个问题标签不完善,是因为字典毕竟是有限的,不可能把所有的实体都覆盖到,那么句子中没有被字典打标成功的词组很有可能也是某种实体,但是远程监督并没有对此做处理。

针对这个问题,本文提出了一种比较新的标注框架,简单来讲就是在这新的框架中,不去预测单个的token的类别,而是去判断两个相邻的tokens是不是在同一个实体中被tied;

上面只是我自己简单的分类,其实存在的两个问题和两种解决架构是相互融合在一起的,具体的我们下面谈。

0. 词典形式简单介绍

首先定义一下词典形式,包含两个部分,第一部分是实体的表面名称,这个包括规范名称和对应的同义词列表;第二个部分就是实体的类型;

其次,词典的标注肯定是有限的,肯定存在不在词典中的某些词组但是也属于某种类型的实体;

对于这部分实体,我自己的理解大体可以包含两个大部分;第一个大部分就是比如说【科技】这个领域覆盖的【科技】实体有有限的,所以有漏网之鱼;第二部分就是词典的实体类型是有限的,比如词典总共包含2个实体类型,但是你真实的文本包含更多的实体类型,存在漏网之鱼。

对于这些漏网之鱼的实体,我们的策略是这样的。

首先通过AutoPhrase从文中挖掘出来高质量短语,然后统一赋值为unknown type,也就是未知类型。

1. Fuzzy-LSTM-CRF

1.1 标注策略

梳理一下,我们现在手上有词典;

词典包含两个部分,一部分是已知实体类型(假设是2个,当然可能更多或者更少);另一个部分就是我们通过某种方式挖掘出来的高质量实体对应的未知类型;

然后我们通过手中的词典对原始无标注文本进行打标;

那么现在对于句子中的某个token,它存在三种可能性;第一它可能是已知实体类型中的一种或者多种;第二它属于未知类型;第三是属于O这种情况,就是non-entity;

基于传统架构BIlstm-CRF如何解决多标签的问题?

其实本质解决的思路很简单。对于原来的每个token,只是预测一个类别,现在是预测多个类别就可以了。

详细点讲就是,首先对于远程监督标注的过程,我们会使用三种策略。

我们先假设我们使用{I;O;B;E;S}的标注形式;

第一,对于某个token,如果它对应到了已知类型中的某一个或者多个实体,那么按照对应的位置直接标记上,不要漏掉;也就是说{I;B;E;S}和对应的一个或者多个实体类型对上标;

第二对于对于某个token,如果属于未知类型,那么对应的这个token就需要把所有已知实体类型(区别于上面的一个或者多个已知实体类型)和 {I,O, B, E, S}对应的打标上;

注意,这里并没有使用未知实体类型,而是使用的所有的已知实体类型;

第三个对于既不属于已知类型的,也不属于未知类型的,全部打上O;

1.2 Fuzzy-LSTM-CRF 模型架构

其实很好理解,传统的CRF最大化唯一一条有效的标注序列。在这里,我们最大化所有有可能的标注序列。

公式如下:

55dae800-5036-11eb-8b86-12bb97331649.jpg

Fuzzy-LSTM-CRF优化公式

看架构图:

55ff4420-5036-11eb-8b86-12bb97331649.jpg

Fuzzy-LSTM-CRF

2. AutoNER

区别于Fuzzy-LSTM-CRF 模型沿用传统架构,在这里论文提出一种新的标注架构-Tie or Break;

这个标注框架更加关注的是当前token和上一个token是否在同一个实体里面;如果在同一个实体里面,那么就标注为Tie;

如果当前单词和上一个单词至少有一个在unkonw类型的高质量短语,那么标注为unkonw,其他情况标注为Break;

优化过程:把实体识别和实体类型判定分离开。

原论文中描述的是先做实体识别,两个Break之间作为一个span,然后做实体类型判定;

实体识别中,对于当前单词和上一个单词之间类别的的输出,对Tie和Break做二分类损失,如果类别是unkown类别,直接跳过,不计算损失。

概率公式如下:

564b4866-5036-11eb-8b86-12bb97331649.jpg

tie_break_loss

56a37752-5036-11eb-8b86-12bb97331649.jpg

tie_break_loss

第二步预测实体类型,包含None实体类型

unkonw这种,知道这属于实体,在高质量短语词典中,但是不知道短语类型,所在这里我们会标注为None实体类型。

其他的不在词典中的,当然也就会被标注为None实体类型。

为了应对多标签,也就是同一个实体对应不同的类别,这里修改了最后的CE损失函数:

57264272-5036-11eb-8b86-12bb97331649.jpg

CE_总

575eea46-5036-11eb-8b86-12bb97331649.jpg

CE_Soft

使用的是软标签的进行的CE的计算,并没有使用硬标签。

对应的是在远程监督中,当前实体真实类型标签集合。从公式我们可以知道,尤其是看分母,在不属于这个集合的标签概率我们并没有计算在内。

总结

多提一个小细节,就是高质量短语的挖掘使用的是AutoPhrase,大家可以去试一下;

论文提出两种结构解决多标签和标签不完善的问题。

首先对于标签不完善,使用上面提到的AutoPhrase去挖掘文本中的高质量短语,作为词典中的未知类型。

在Fuzzy-LSTM-CRF,需要注意的细节是,对于未知类型的标注,我们使用的策略是标注所有已知类型;

对于AutoNER,有两个细节需要注意,一个是新的标注框架tie or break,重点在于去看两个相邻单词是否属于同一个实体;第二个细节就是为了解决多标签问题,修改了损失函数,使用的软标签;

责任编辑:xj

原文标题:【论文解读】如何在只有词典的情况下提升NER落地效果

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 自然语言
    +关注

    关注

    1

    文章

    288

    浏览量

    13347
  • nlp
    nlp
    +关注

    关注

    1

    文章

    488

    浏览量

    22033

原文标题:【论文解读】如何在只有词典的情况下提升NER落地效果

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    请问ADS1292R如何在MCU休眠的情况下通过脱落检测唤醒MCU?

    请问ADS1292R如何在MCU休眠的情况下通过脱落检测唤醒MCU?
    发表于 11-28 08:03

    在不用miniDSP的情况下,使用信号处理模块时,aic3254怎么配置DAC的3D效果

    请问,在不用miniDSP的情况下,使用信号处理模块时,怎么配置DAC的3D效果?找了很多资料,没有关于这个方面的介绍,可以提供一这方面的资料吗?谢谢
    发表于 11-08 07:34

    AIC3106如何在不改变BCLK和LRCLK的情况下,能够调好?

    你好,请问:AIC3106现在配置为从设备、DAC采样率为16K、数据宽度为32位。现在主设备给的BCLK是2048K,LRCLK为16K,播放现在有问题,如何在不改变BCLK和LRCLK的情况下,能够调好?
    发表于 10-28 07:06

    PCM1795如何在通电的情况下切换PCM模式和DSD模式?

    Ti工程师您好,项目上有用到PCM1795这枚芯片,因为它具有DSD解码与PCM解码功能,之前没有使用过类似产品 有两个问题请教下: 1、用MCU初始化PCM1795让它能正常工作,至少需要配置哪几个相关寄存器 2、如何在通电的情况下 切换PCM模式和DSD模式或者说
    发表于 09-29 06:00

    数字地和模拟地利用磁珠隔离或者单点接地效果都不怎么好,怎样隔离效果会比较好一些?

    数字地和模拟地利用磁珠隔离或者单点接地效果都不怎么好,怎样隔离效果会比较好一些?
    发表于 09-20 06:23

    只有单端输入的情况下,THS4531如何输出差分信号?

    想请问在只有单端输入的情况下,THS4531如何输出差分信号。 我的输入电压为0-5V,想通过THS4531输出0-3V的差分信号给DSP28377D。我用TINA做了仿真,发现了一些问题。 我将
    发表于 08-13 07:42

    什么情况下会产生零序电流

    零序电流是指在三相电力系统中,三相电流的矢量和不为零的情况。在正常情况下,三相电力系统中的三相电流是平衡的,即三相电流的矢量和为零。但是,在某些特殊情况下,三相电流的矢量和不为零,就会产生零序电流
    的头像 发表于 07-15 14:53 3867次阅读

    受控源什么情况下可看为电阻

    受控源,又称为非独立源,是指其电压或电流值受电路中其他部分的电压或电流控制的电源。受控源在电路分析中具有重要的作用,其特性和行为与独立源(如电池、发电机等)有所不同。在某些特定情况下,受控源可以看作
    的头像 发表于 07-12 09:29 1882次阅读

    ESP8266如何在没有SNTP的情况下写入当前的系统时间?

    当我开发SSL应用程序时,我首先需要SNTP。我们希望通过添加外部RTC模块来记录有效时间,从而避免每次使用SSL时先使用SNTP。但是,我们没有找到设置系统时间的接口。如何在没有SNTP的情况下写入当前的系统时间?
    发表于 07-09 07:19

    何在UDP的情况下监听自己通信是否中断?

    请教大佬一个问题。 我如何在UDP的情况下监听自己通信是否中断? 不知道有没有什么可以参考的?
    发表于 06-24 06:04

    谷景揭秘如何在色环电感封装尺寸不变的情况下升级电感性能

    谷景揭秘如何在色环电感封装尺寸不变的情况下升级电感性能 编辑:谷景电子 色环电感作为电子电路中的一种特别重要的电感元件,它对于电路运行的稳定性有着重要影响。色环电感的种类很多,不同的电路需求对色环
    的头像 发表于 06-23 09:45 395次阅读

    何在不更换固件的情况下控制cyusb3014在USB 2.0和USB 3.0模式的读写速度?

    您好,我想通过上层机测试cyusb3014在 USB 2.0和 USB 3.0模式的读写速度。 如何在不更换固件的情况下控制是通过上位机以 USB 2.0 还是 USB 3.0 速度连接? 谢谢。
    发表于 02-27 06:24

    什么情况下电容器会被击穿

    电容器是一种常见的电子元件,广泛应用于各个领域。然而,在特定条件,电容器可能会发生击穿现象,导致其无法正常工作甚至损坏。那么,在什么情况下电容器会被击穿呢?
    的头像 发表于 02-19 14:11 2693次阅读

    何在幅度频率不变的情况下将正弦波变为方波?

    何在幅度频率不变的情况下将正弦波变为方波? 方波是一种特殊形式的波形,它的波形在周期内由两个值之间的突然跳变组成,通常是由高电平和低电平组成。与之相反,正弦波是一种平滑连续的波形,其幅度变化是沿着
    的头像 发表于 02-06 15:51 4655次阅读

    何在没有HAL的情况下使用SEGGER eMusb-Device吗?

    我很喜欢 SEGGER eMusb-Device,因为它的实现方式非常全面。 但是,我想退出 HAL,我观察到 SEGGER eMusb-Device 严重依赖它。 我有办法在没有 HAL 的情况下
    发表于 01-25 08:31