0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何简单粗暴的提升NER效果?

深度学习自然语言处理 来源:深度学习自然语言处理 作者:船长尼莫 2022-12-12 14:03 次阅读

在NLP的基础任务中,NER无疑很难做,但是做好了,会提升下游的很多效果。那么如何提升NER的效果呢?数据增强无疑是一种简单粗暴的方式。船长这次带着大家简单过一下,本文无公式!

ca888e24-79d2-11ed-8abf-dac502259ad0.png

首先我们的着重考虑对象是有词库的,在工业界词库是必备的,没有标注词库,这个NER的任务可能会做的很不好。我们从以下的三种数据增强trick来逐步介绍。

实体替换

如果我们有一个训练数据集,比方说一个case:“海底捞的主要食物是火锅”,在NER的任务中,标注成为“{海底捞^饭店}的主要食物是{火锅^食物}”,其中海底捞的实体为饭店,而火锅的为食物。

那么为了扩大我们的训练数据集,我们会随机的对同类型的实体进行替换,例如“海底捞”替换成为“肯德基”,也即“肯德基的主要食物是火锅”。有意思的地方来了,很明显我们都知道肯德基是没有火锅的,那么这样造的case会有问题吗?答案是从常识的角度是有问题的,所以我们尽量要挑出和火锅相关的实体,利用知识图谱的方式,搭建出更合理的训练集。

边界噪声

比方说文本“这家饭店的爆品是火锅啦”,结果模型把火锅啦整体识别成为食物实体,那就很不对劲了。在这种情况下,属于NER的一个悠久遗留问题,边界预测问题,NER很难识别到实体的真正边界,解决这种的方法也是利用人工造的一些噪声。

比较简单的方式,是可以从字表里面随机的抽样字,再随机的加到边界处。变成,让模型自主的去学习到实体的边界,这种方式简单但是效果一般,为什么这么讲?因为这种随机的采样对于模型来说,很好学习,我们应该尝试去构造再难一点的数据。

这家饭店的爆品是火锅嘿

比较可行的方式,是在模版数据中利用N-Gram挖掘到噪声词语/字,再利用频率的高低构建出现的概率,以这种概率进行替换,举例来说,饭店类的模版有很多是围绕着词语“食物”展开,那么这时候我们可以把“食物”插入到实体的边界,成为:

这家饭店的爆品是火锅食物

对于模型来讲,再难一点的方式,可以从训练数据中,挖掘到和火锅相关的噪声,再把它插入进去。例如,根据词语火锅进行展开,利用5-Gram搜索到附近的词语,找到一些和火锅相关,但是不是强相关的词语,比方说辣椒,那这时候就会形成:

这家饭店的爆品是火锅辣椒

不得不说,这种文本对于机器来讲已经很难识别了,但是这种方式的时间开销很大,需要提前离线找到和每个实体相关的词语,再进行噪声的插入。

模版构造样本

什么意思呢?我们先利用实体,在线上的日志中挖掘到很多模版,再利用这批模版随机的进行填充,形成最后的训练数据,这批训练的数据量会很大,但是样本的质量是一般的。例如我们可以对模版“这家饭店的爆品是{食物}”进行随机的食物实体填充,成为:

这家饭店的爆品是榴莲

但是当一个模版有多个实体槽位的时候,随机的进行实体填充往往有很大的问题,比方说模版“这家{饭店}的爆品是{食物}”,如果我们填充成为“这家海底捞的爆品是榴莲”,虽然对于NER的任务来讲没有太大的问题,但是从常识角度来说,未免也太差了些。

这种情况下,我们需要批判性的思考,这种数据是否有利于提升我线上的效果,如果线上的要求并不包含常识,那这就是个好模型,反之亦然。我们也可以根据知识图谱来进行填充,增加常识信息

cab11268-79d2-11ed-8abf-dac502259ad0.png

这次船长主要带大家过了一些简单高效的NER数据增强Trick,有什么问题就写下你的疑惑,我们讨论一下~

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据集
    +关注

    关注

    4

    文章

    1186

    浏览量

    24465
  • NER
    NER
    +关注

    关注

    0

    文章

    7

    浏览量

    6191
  • nlp
    nlp
    +关注

    关注

    1

    文章

    465

    浏览量

    21888

原文标题:如何简单粗暴的提升NER效果?一文告诉你如何用词库来做NER数据增强

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    谷景揭秘电感越大滤波效果越好吗

    电感作为电子电路中一种重要的电子元件,它在电路中一个非常重要的作用就是滤波!很多人认为电感的感值越大,它的滤波效果就越好!其实,这种观点并不是完全准确的。简单来说,电感的滤波效果与感值、电路设计
    的头像 发表于 06-11 15:47 119次阅读

    EMC测试整改:提升产品合规性和市场竞争力?|深圳比创达电子

    EMC测试整改:提升产品合规性和市场竞争力?|深圳比创达电子在当前的产品研发和制造领域,电磁兼容(EMC)测试是确保产品符合法规要求并能够在各种电磁环境下正常工作的重要环节。然而,很多企业在进行
    发表于 03-07 09:50

    阿里云发动史上最大力度价格战,平均降价超20%

    明确“ AI 驱动,公共云优先”战略 3 个月之后,阿里云在今天发布了最新战略,简单粗暴——大降价、真降价。
    的头像 发表于 03-01 10:18 324次阅读

    关于电流提升器和电压提升器的分析?

    请问我关于电流提升器和电压提升器的计算是否正确?这两个电路是怎么分析的? 电流提升器由虚短虚断,Uo=RfI,Ⅰ是输入端电流源电流,但是电流提升器哪里电流变大了 同样电压
    发表于 01-11 23:57

    电源滤波器对音质有没有提升

    电源滤波器对音质的提升效果是一个备受争议的话题。 首先,我们需要了解电源滤波器的工作原理。电源滤波器主要用于减少电源中的电磁干扰(EMI)和射频干扰(RFI),以确保设备得到干净、稳定的电能供应
    的头像 发表于 01-11 10:49 1207次阅读

    如何提升单片机开发技术?

    单片机开发是现代电子技术中的重要分支,其在各个领域都有着广泛的应用。单片机开发技术的提升不仅可以提高工作效率,还可以提高工作质量和创新能力。那么,如何提升单片机开发技术呢? 一、加强基础知识
    发表于 01-05 10:14

    HarmonyOS振动效果开发指导

    Vibrator 开发概述 振动器模块服务最大化开放硬工最新马达器件能力,通过拓展原生马达服务实现振动与交互融合设计,打造细腻精致的一体化振动体验和差异化体验,提升用户交互效率和易用性、提升用户
    发表于 12-04 11:20

    如何提高振动信号信噪比?

    相对于单端信号,使用差分信号相当于把信号幅度加倍了,简单粗暴地提高信噪比。但是,为了处理差分信号,电路中的器件数量相比单端电路也加倍了。
    的头像 发表于 11-21 10:36 581次阅读
    如何提高振动信号信噪比?

    效率倍增:Wylie Co. 利用 GPU 渲染来实现视觉效果制作的性能成倍提升

    特效,但这种情况正在迅速改变。 这种服务器设施的硬件和能源成本很高,并且性能提升受到摩尔定律的限制,不仅会减少工作室的利润,还增加了制作时间。 为避免这些难题,奥斯卡获奖影片《沙丘》、漫威电影、HBO 和 Netflix 作品背后的视觉效果工作
    的头像 发表于 11-15 18:55 371次阅读

    Python 自制简单实用的日志装饰器

    在写代码的时候,往往会漏掉日志这个关键因素,导致功能在使用的时候出错却无法溯源。 其实,只需要写一个非常简单的日志装饰器,我们就能大大提升排查问题的效率。 1.简陋版装饰器 写一个装饰器非常简单
    的头像 发表于 10-31 15:05 377次阅读
    Python 自制<b class='flag-5'>简单</b>实用的日志装饰器

    如何使用AT-LINK的WinUSB功能提升下载速率

    如何使用AT-LINK的WinUSB功能提升下载速率如何使用AT-LINK 的WinUSB 功能提升下载速率?
    发表于 10-23 08:01

    Python自制简单实用的日志装饰器

    在写代码的时候,往往会漏掉日志这个关键因素,导致功能在使用的时候出错却无法溯源。 其实,只需要写一个非常简单的日志装饰器,我们就能大大提升排查问题的效率。 1.简陋版装饰器 写一个装饰器非常简单
    的头像 发表于 10-21 14:39 432次阅读
    Python自制<b class='flag-5'>简单</b>实用的日志装饰器

    CC430系列有似arduino那样简单的开发环境吗?

    最近想玩玩大气压传感器,想起手上还有TI的Chronos手表套件,上边有个大气压传感器,但是CCS开发环境不好用,求推荐类似arduino那样的,简单粗暴无脑的开发环境,当然得带ez430-Chronos库函数的,energia好像不支持CC430吧?​​
    发表于 10-19 07:36

    LED虚拟拍摄:提升视觉效果的新途径

    ,创造出更为逼真的虚拟场景,提升了视觉效果。 一、LED虚拟制片技术简介 LED虚拟制片技术是一种利用高分辨率、高刷新率的LED显示屏,实时渲染虚拟背景,与前景中的演员和景物完美融合的拍摄技术。它可以将计算机生成的虚拟场景与实
    的头像 发表于 09-04 17:22 370次阅读

    如何编写一个简单实用的气缸功能块

    气缸是我们设备中使用频率非常高的一个部件,如果有一个功能完善的功能快,那我们用起来就简单方便很多,对程序的编写的也能起到事半功倍的效果
    的头像 发表于 07-03 09:20 2886次阅读
    如何编写一个<b class='flag-5'>简单</b>实用的气缸功能块