如何简单粗暴的提升NER效果？-电子发烧友网

在NLP的基础任务中，NER无疑很难做，但是做好了，会提升下游的很多效果。那么如何提升NER的效果呢？数据增强无疑是一种简单粗暴的方式。船长这次带着大家简单过一下，本文无公式！

首先我们的着重考虑对象是有词库的，在工业界词库是必备的，没有标注词库，这个NER的任务可能会做的很不好。我们从以下的三种数据增强trick来逐步介绍。

实体替换

如果我们有一个训练数据集，比方说一个case：“海底捞的主要食物是火锅”，在NER的任务中，标注成为“{海底捞^饭店}的主要食物是{火锅^食物}”，其中海底捞的实体为饭店，而火锅的为食物。

那么为了扩大我们的训练数据集，我们会随机的对同类型的实体进行替换，例如“海底捞”替换成为“肯德基”，也即“肯德基的主要食物是火锅”。有意思的地方来了，很明显我们都知道肯德基是没有火锅的，那么这样造的case会有问题吗？答案是从常识的角度是有问题的，所以我们尽量要挑出和火锅相关的实体，利用知识图谱的方式，搭建出更合理的训练集。

边界噪声

比方说文本“这家饭店的爆品是火锅啦”，结果模型把火锅啦整体识别成为食物实体，那就很不对劲了。在这种情况下，属于NER的一个悠久遗留问题，边界预测问题，NER很难识别到实体的真正边界，解决这种的方法也是利用人工造的一些噪声。

比较简单的方式，是可以从字表里面随机的抽样字，再随机的加到边界处。变成，让模型自主的去学习到实体的边界，这种方式简单但是效果一般，为什么这么讲？因为这种随机的采样对于模型来说，很好学习，我们应该尝试去构造再难一点的数据。

这家饭店的爆品是火锅嘿

比较可行的方式，是在模版数据中利用N-Gram挖掘到噪声词语/字，再利用频率的高低构建出现的概率，以这种概率进行替换，举例来说，饭店类的模版有很多是围绕着词语“食物”展开，那么这时候我们可以把“食物”插入到实体的边界，成为：

这家饭店的爆品是火锅食物

对于模型来讲，再难一点的方式，可以从训练数据中，挖掘到和火锅相关的噪声，再把它插入进去。例如，根据词语火锅进行展开，利用5-Gram搜索到附近的词语，找到一些和火锅相关，但是不是强相关的词语，比方说辣椒，那这时候就会形成：

这家饭店的爆品是火锅辣椒

不得不说，这种文本对于机器来讲已经很难识别了，但是这种方式的时间开销很大，需要提前离线找到和每个实体相关的词语，再进行噪声的插入。

模版构造样本

什么意思呢？我们先利用实体，在线上的日志中挖掘到很多模版，再利用这批模版随机的进行填充，形成最后的训练数据，这批训练的数据量会很大，但是样本的质量是一般的。例如我们可以对模版“这家饭店的爆品是{食物}”进行随机的食物实体填充，成为：

这家饭店的爆品是榴莲

但是当一个模版有多个实体槽位的时候，随机的进行实体填充往往有很大的问题，比方说模版“这家{饭店}的爆品是{食物}”，如果我们填充成为“这家海底捞的爆品是榴莲”，虽然对于NER的任务来讲没有太大的问题，但是从常识角度来说，未免也太差了些。

这种情况下，我们需要批判性的思考，这种数据是否有利于提升我线上的效果，如果线上的要求并不包含常识，那这就是个好模型，反之亦然。我们也可以根据知识图谱来进行填充，增加常识信息。

这次船长主要带大家过了一些简单高效的NER数据增强Trick，有什么问题就写下你的疑惑，我们讨论一下~

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数据集

数据集

+关注

关注
4

文章
1208

浏览量
24695
NER

NER

+关注

关注
0

文章
7

浏览量
6210
nlp

nlp

+关注

关注
1

文章
488

浏览量
22034

原文标题：如何简单粗暴的提升NER效果？一文告诉你如何用词库来做NER数据增强

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

搜索历史

如何简单粗暴的提升NER效果？

评论

金属探测器配件及其效果

请问TLV320AIC33怎样提升音效？

如何提升AIC3254 AEC的录音效果？

调音台怎么接混响效果器

商显领域的国产一体机主板，提升显示效果的解决方案

OPA548如何提升负载电流？

效果器对所有的专业功放都通用吗

谷景揭秘电感越大滤波效果越好吗

如何修改Kernel Affinity提升openplc性能？

EMC测试整改：提升产品合规性和市场竞争力？|深圳比创达电子

阿里云发动史上最大力度价格战，平均降价超20%

影响硬盘整体性能的主要因素

关于电流提升器和电压提升器的分析？

电源滤波器对音质有没有提升

如何提升单片机开发技术？