0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何简单粗暴的提升NER效果?

深度学习自然语言处理 来源:深度学习自然语言处理 作者:船长尼莫 2022-12-12 14:03 次阅读

在NLP的基础任务中,NER无疑很难做,但是做好了,会提升下游的很多效果。那么如何提升NER的效果呢?数据增强无疑是一种简单粗暴的方式。船长这次带着大家简单过一下,本文无公式!

ca888e24-79d2-11ed-8abf-dac502259ad0.png

首先我们的着重考虑对象是有词库的,在工业界词库是必备的,没有标注词库,这个NER的任务可能会做的很不好。我们从以下的三种数据增强trick来逐步介绍。

实体替换

如果我们有一个训练数据集,比方说一个case:“海底捞的主要食物是火锅”,在NER的任务中,标注成为“{海底捞^饭店}的主要食物是{火锅^食物}”,其中海底捞的实体为饭店,而火锅的为食物。

那么为了扩大我们的训练数据集,我们会随机的对同类型的实体进行替换,例如“海底捞”替换成为“肯德基”,也即“肯德基的主要食物是火锅”。有意思的地方来了,很明显我们都知道肯德基是没有火锅的,那么这样造的case会有问题吗?答案是从常识的角度是有问题的,所以我们尽量要挑出和火锅相关的实体,利用知识图谱的方式,搭建出更合理的训练集。

边界噪声

比方说文本“这家饭店的爆品是火锅啦”,结果模型把火锅啦整体识别成为食物实体,那就很不对劲了。在这种情况下,属于NER的一个悠久遗留问题,边界预测问题,NER很难识别到实体的真正边界,解决这种的方法也是利用人工造的一些噪声。

比较简单的方式,是可以从字表里面随机的抽样字,再随机的加到边界处。变成,让模型自主的去学习到实体的边界,这种方式简单但是效果一般,为什么这么讲?因为这种随机的采样对于模型来说,很好学习,我们应该尝试去构造再难一点的数据。

这家饭店的爆品是火锅嘿

比较可行的方式,是在模版数据中利用N-Gram挖掘到噪声词语/字,再利用频率的高低构建出现的概率,以这种概率进行替换,举例来说,饭店类的模版有很多是围绕着词语“食物”展开,那么这时候我们可以把“食物”插入到实体的边界,成为:

这家饭店的爆品是火锅食物

对于模型来讲,再难一点的方式,可以从训练数据中,挖掘到和火锅相关的噪声,再把它插入进去。例如,根据词语火锅进行展开,利用5-Gram搜索到附近的词语,找到一些和火锅相关,但是不是强相关的词语,比方说辣椒,那这时候就会形成:

这家饭店的爆品是火锅辣椒

不得不说,这种文本对于机器来讲已经很难识别了,但是这种方式的时间开销很大,需要提前离线找到和每个实体相关的词语,再进行噪声的插入。

模版构造样本

什么意思呢?我们先利用实体,在线上的日志中挖掘到很多模版,再利用这批模版随机的进行填充,形成最后的训练数据,这批训练的数据量会很大,但是样本的质量是一般的。例如我们可以对模版“这家饭店的爆品是{食物}”进行随机的食物实体填充,成为:

这家饭店的爆品是榴莲

但是当一个模版有多个实体槽位的时候,随机的进行实体填充往往有很大的问题,比方说模版“这家{饭店}的爆品是{食物}”,如果我们填充成为“这家海底捞的爆品是榴莲”,虽然对于NER的任务来讲没有太大的问题,但是从常识角度来说,未免也太差了些。

这种情况下,我们需要批判性的思考,这种数据是否有利于提升我线上的效果,如果线上的要求并不包含常识,那这就是个好模型,反之亦然。我们也可以根据知识图谱来进行填充,增加常识信息

cab11268-79d2-11ed-8abf-dac502259ad0.png

这次船长主要带大家过了一些简单高效的NER数据增强Trick,有什么问题就写下你的疑惑,我们讨论一下~

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据集
    +关注

    关注

    4

    文章

    1208

    浏览量

    24695
  • NER
    NER
    +关注

    关注

    0

    文章

    7

    浏览量

    6210
  • nlp
    nlp
    +关注

    关注

    1

    文章

    488

    浏览量

    22034

原文标题:如何简单粗暴的提升NER效果?一文告诉你如何用词库来做NER数据增强

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    金属探测器配件及其效果

    圈 :单线圈设计简单,适用于浅层金属探测,但对深层金属的探测能力较弱。 双线圈 :双线圈设计可以提高探测器的灵敏度和深度,适用于更复杂的探测环境。 多线圈 :多线圈设计进一步提升了探测器的性能,但成本较高,适用于专业探测。
    的头像 发表于 11-29 10:29 263次阅读

    请问TLV320AIC33怎样提升音效?

    我现在平台是DM6437+TLV320AIC33,TLV320AIC33实现对音频的A/D,D/A信号处理,现在声音效果一般, 现在我想提升声音的效果,请问大家可以从哪些方面提升?修
    发表于 11-08 06:30

    如何提升AIC3254 AEC的录音效果

    最近在 3254 EVM板上调试 AEC功能,平台搭建如下: 1.J7LINE OUT接音箱; 2.J4EXT MIC IN 外接了个MIC 现在情况是:回音基本消除,但是发现近端的录音效果不理想,不知如何改进?下图是我的 mini-dsp 的例程、配置,附件中是该配置的一段录音
    发表于 11-07 06:02

    调音台怎么接混响效果

    显著提升音频的质量和效果。 一、调音台和混响效果器的基本概念 1. 调音台 调音台是一种音频设备,用于混合多个音频信号。它通常包含多个输入通道,每个通道可以独立控制音量、均衡、声像等参数。调音台的输出可以连接到扩音器、录音设备或
    的头像 发表于 10-10 09:22 626次阅读

    商显领域的国产一体机主板,提升显示效果的解决方案

    城市交通管理中,智能交通指示牌用于实时显示交通信息和警示信息;国产一体机主板凭借其卓越的性能和灵活的应用,正成为提升显示效果的重要解决方案。
    的头像 发表于 09-04 10:08 321次阅读

    OPA548如何提升负载电流?

    电流提高使得负载功率提升? 我有试过将输出接上达灵顿(如下图),但看起来并没有效果,想请问各位先进是否有建议或是其他想法可供参考 ? 谢谢各位指教。
    发表于 08-16 06:48

    效果器对所有的专业功放都通用吗

    效果器(Effects Processor)是一种音频处理设备,用于对音频信号进行各种处理,以达到改变声音特性、增加声音效果或改善音质的目的。在音频领域,效果器广泛应用于音乐制作、现场演出、广播
    的头像 发表于 07-29 09:53 875次阅读

    谷景揭秘电感越大滤波效果越好吗

    电感作为电子电路中一种重要的电子元件,它在电路中一个非常重要的作用就是滤波!很多人认为电感的感值越大,它的滤波效果就越好!其实,这种观点并不是完全准确的。简单来说,电感的滤波效果与感值、电路设计
    的头像 发表于 06-11 15:47 475次阅读

    如何修改Kernel Affinity提升openplc性能?

    如何修改Kernel Affinity提升openplc性能
    发表于 05-22 06:36

    EMC测试整改:提升产品合规性和市场竞争力?|深圳比创达电子

    EMC测试整改:提升产品合规性和市场竞争力?|深圳比创达电子在当前的产品研发和制造领域,电磁兼容(EMC)测试是确保产品符合法规要求并能够在各种电磁环境下正常工作的重要环节。然而,很多企业在进行
    发表于 03-07 09:50

    阿里云发动史上最大力度价格战,平均降价超20%

    明确“ AI 驱动,公共云优先”战略 3 个月之后,阿里云在今天发布了最新战略,简单粗暴——大降价、真降价。
    的头像 发表于 03-01 10:18 624次阅读

    影响硬盘整体性能的主要因素

    企业级存储作为现代企业的“刚需”,要求高性能、高可靠性、高扩展性、高性价比,选购硬盘可就不能这么简单粗暴,得考虑方方面面的参数。
    的头像 发表于 01-15 09:47 1007次阅读

    关于电流提升器和电压提升器的分析?

    请问我关于电流提升器和电压提升器的计算是否正确?这两个电路是怎么分析的? 电流提升器由虚短虚断,Uo=RfI,Ⅰ是输入端电流源电流,但是电流提升器哪里电流变大了 同样电压
    发表于 01-11 23:57

    电源滤波器对音质有没有提升

    电源滤波器对音质的提升效果是一个备受争议的话题。 首先,我们需要了解电源滤波器的工作原理。电源滤波器主要用于减少电源中的电磁干扰(EMI)和射频干扰(RFI),以确保设备得到干净、稳定的电能供应。它
    的头像 发表于 01-11 10:49 2403次阅读

    如何提升单片机开发技术?

    单片机开发是现代电子技术中的重要分支,其在各个领域都有着广泛的应用。单片机开发技术的提升不仅可以提高工作效率,还可以提高工作质量和创新能力。那么,如何提升单片机开发技术呢? 一、加强基础知识
    发表于 01-05 10:14