0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何简单粗暴的提升NER效果?

深度学习自然语言处理 来源:深度学习自然语言处理 作者:船长尼莫 2022-12-12 14:03 次阅读

在NLP的基础任务中,NER无疑很难做,但是做好了,会提升下游的很多效果。那么如何提升NER的效果呢?数据增强无疑是一种简单粗暴的方式。船长这次带着大家简单过一下,本文无公式!

ca888e24-79d2-11ed-8abf-dac502259ad0.png

首先我们的着重考虑对象是有词库的,在工业界词库是必备的,没有标注词库,这个NER的任务可能会做的很不好。我们从以下的三种数据增强trick来逐步介绍。

实体替换

如果我们有一个训练数据集,比方说一个case:“海底捞的主要食物是火锅”,在NER的任务中,标注成为“{海底捞^饭店}的主要食物是{火锅^食物}”,其中海底捞的实体为饭店,而火锅的为食物。

那么为了扩大我们的训练数据集,我们会随机的对同类型的实体进行替换,例如“海底捞”替换成为“肯德基”,也即“肯德基的主要食物是火锅”。有意思的地方来了,很明显我们都知道肯德基是没有火锅的,那么这样造的case会有问题吗?答案是从常识的角度是有问题的,所以我们尽量要挑出和火锅相关的实体,利用知识图谱的方式,搭建出更合理的训练集。

边界噪声

比方说文本“这家饭店的爆品是火锅啦”,结果模型把火锅啦整体识别成为食物实体,那就很不对劲了。在这种情况下,属于NER的一个悠久遗留问题,边界预测问题,NER很难识别到实体的真正边界,解决这种的方法也是利用人工造的一些噪声。

比较简单的方式,是可以从字表里面随机的抽样字,再随机的加到边界处。变成,让模型自主的去学习到实体的边界,这种方式简单但是效果一般,为什么这么讲?因为这种随机的采样对于模型来说,很好学习,我们应该尝试去构造再难一点的数据。

这家饭店的爆品是火锅嘿

比较可行的方式,是在模版数据中利用N-Gram挖掘到噪声词语/字,再利用频率的高低构建出现的概率,以这种概率进行替换,举例来说,饭店类的模版有很多是围绕着词语“食物”展开,那么这时候我们可以把“食物”插入到实体的边界,成为:

这家饭店的爆品是火锅食物

对于模型来讲,再难一点的方式,可以从训练数据中,挖掘到和火锅相关的噪声,再把它插入进去。例如,根据词语火锅进行展开,利用5-Gram搜索到附近的词语,找到一些和火锅相关,但是不是强相关的词语,比方说辣椒,那这时候就会形成:

这家饭店的爆品是火锅辣椒

不得不说,这种文本对于机器来讲已经很难识别了,但是这种方式的时间开销很大,需要提前离线找到和每个实体相关的词语,再进行噪声的插入。

模版构造样本

什么意思呢?我们先利用实体,在线上的日志中挖掘到很多模版,再利用这批模版随机的进行填充,形成最后的训练数据,这批训练的数据量会很大,但是样本的质量是一般的。例如我们可以对模版“这家饭店的爆品是{食物}”进行随机的食物实体填充,成为:

这家饭店的爆品是榴莲

但是当一个模版有多个实体槽位的时候,随机的进行实体填充往往有很大的问题,比方说模版“这家{饭店}的爆品是{食物}”,如果我们填充成为“这家海底捞的爆品是榴莲”,虽然对于NER的任务来讲没有太大的问题,但是从常识角度来说,未免也太差了些。

这种情况下,我们需要批判性的思考,这种数据是否有利于提升我线上的效果,如果线上的要求并不包含常识,那这就是个好模型,反之亦然。我们也可以根据知识图谱来进行填充,增加常识信息

cab11268-79d2-11ed-8abf-dac502259ad0.png

这次船长主要带大家过了一些简单高效的NER数据增强Trick,有什么问题就写下你的疑惑,我们讨论一下~

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据集
    +关注

    关注

    4

    文章

    1200

    浏览量

    24617
  • NER
    NER
    +关注

    关注

    0

    文章

    7

    浏览量

    6201
  • nlp
    nlp
    +关注

    关注

    1

    文章

    483

    浏览量

    21985

原文标题:如何简单粗暴的提升NER效果?一文告诉你如何用词库来做NER数据增强

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    如何提升AIC3254 AEC的录音效果

    最近在 3254 EVM板上调试 AEC功能,平台搭建如下: 1.J7LINE OUT接音箱; 2.J4EXT MIC IN 外接了个MIC 现在情况是:回音基本消除,但是发现近端的录音效果不理想,不知如何改进?下图是我的 mini-dsp 的例程、配置,附件中是该配置的一段录音
    发表于 11-07 06:02

    调音台怎么接混响效果

    显著提升音频的质量和效果。 一、调音台和混响效果器的基本概念 1. 调音台 调音台是一种音频设备,用于混合多个音频信号。它通常包含多个输入通道,每个通道可以独立控制音量、均衡、声像等参数。调音台的输出可以连接到扩音器、录音设备或
    的头像 发表于 10-10 09:22 253次阅读

    商显领域的国产一体机主板,提升显示效果的解决方案

    城市交通管理中,智能交通指示牌用于实时显示交通信息和警示信息;国产一体机主板凭借其卓越的性能和灵活的应用,正成为提升显示效果的重要解决方案。
    的头像 发表于 09-04 10:08 229次阅读

    OPA548如何提升负载电流?

    电流提高使得负载功率提升? 我有试过将输出接上达灵顿(如下图),但看起来并没有效果,想请问各位先进是否有建议或是其他想法可供参考 ? 谢谢各位指教。
    发表于 08-16 06:48

    谷景揭秘电感越大滤波效果越好吗

    电感作为电子电路中一种重要的电子元件,它在电路中一个非常重要的作用就是滤波!很多人认为电感的感值越大,它的滤波效果就越好!其实,这种观点并不是完全准确的。简单来说,电感的滤波效果与感值、电路设计
    的头像 发表于 06-11 15:47 418次阅读

    如何修改Kernel Affinity提升openplc性能?

    如何修改Kernel Affinity提升openplc性能
    发表于 05-22 06:36

    EMC测试整改:提升产品合规性和市场竞争力?|深圳比创达电子

    EMC测试整改:提升产品合规性和市场竞争力?|深圳比创达电子在当前的产品研发和制造领域,电磁兼容(EMC)测试是确保产品符合法规要求并能够在各种电磁环境下正常工作的重要环节。然而,很多企业在进行
    发表于 03-07 09:50

    阿里云发动史上最大力度价格战,平均降价超20%

    明确“ AI 驱动,公共云优先”战略 3 个月之后,阿里云在今天发布了最新战略,简单粗暴——大降价、真降价。
    的头像 发表于 03-01 10:18 552次阅读

    影响硬盘整体性能的主要因素

    企业级存储作为现代企业的“刚需”,要求高性能、高可靠性、高扩展性、高性价比,选购硬盘可就不能这么简单粗暴,得考虑方方面面的参数。
    的头像 发表于 01-15 09:47 897次阅读

    关于电流提升器和电压提升器的分析?

    请问我关于电流提升器和电压提升器的计算是否正确?这两个电路是怎么分析的? 电流提升器由虚短虚断,Uo=RfI,Ⅰ是输入端电流源电流,但是电流提升器哪里电流变大了 同样电压
    发表于 01-11 23:57

    电源滤波器对音质有没有提升

    电源滤波器对音质的提升效果是一个备受争议的话题。 首先,我们需要了解电源滤波器的工作原理。电源滤波器主要用于减少电源中的电磁干扰(EMI)和射频干扰(RFI),以确保设备得到干净、稳定的电能供应。它
    的头像 发表于 01-11 10:49 2130次阅读

    如何提升单片机开发技术?

    单片机开发是现代电子技术中的重要分支,其在各个领域都有着广泛的应用。单片机开发技术的提升不仅可以提高工作效率,还可以提高工作质量和创新能力。那么,如何提升单片机开发技术呢? 一、加强基础知识
    发表于 01-05 10:14

    HarmonyOS振动效果开发指导

    Vibrator 开发概述 振动器模块服务最大化开放硬工最新马达器件能力,通过拓展原生马达服务实现振动与交互融合设计,打造细腻精致的一体化振动体验和差异化体验,提升用户交互效率和易用性、提升用户
    发表于 12-04 11:20

    RLHF平替工作,探索如何更稳定地拿到效果

    没得商量,不做RL了,选择性保留RM:比如RRHF、DPO,这类方法可以直接在RM数据上优化语言模型,但如果想提升效果,需要用自身模型采样,得再引入一个RM,比如RSO、SCiL、PRO等。又或者直接用RM采样的数据做精调,比如RAFT、Llama2等
    的头像 发表于 11-17 17:29 593次阅读
    RLHF平替工作,探索如何更稳定地拿到<b class='flag-5'>效果</b>

    效率倍增:Wylie Co. 利用 GPU 渲染来实现视觉效果制作的性能成倍提升

    特效,但这种情况正在迅速改变。 这种服务器设施的硬件和能源成本很高,并且性能提升受到摩尔定律的限制,不仅会减少工作室的利润,还增加了制作时间。 为避免这些难题,奥斯卡获奖影片《沙丘》、漫威电影、HBO 和 Netflix 作品背后的视觉效果工作
    的头像 发表于 11-15 18:55 462次阅读