0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

用于少数镜头命名实体识别的分解元学习

深度学习自然语言处理 来源:PaperWeekly 作者:回亭风 2022-07-05 14:08 次阅读

论文标题:

Decomposed Meta-Learning for Few-Shot Named Entity Recognition

论文链接:

https://arxiv.org/abs/2204.05751

代码链接:

https://github.com/microsoft/vert-papers/tree/master/papers/DecomposedMetaNER

Abstract

少样本 NER 的系统目的在于通过很少的标注样本来识别新的命名实体类。本文提出了一个分解的元学习方法来解决小样本 NER,通过将原问题分解为小样本跨度预测和小样本实体分类两个过程。具体来说,我们将跨度预测当作序列标注问题并且使用 MAML 算法训练跨度预测器来找到更好的模型初始化参数并且使模型能够快速适配新实体。对于实体分类,我们提出 MAML-ProtoNet,一个 MAML 增强的原型网络,能够找到好的嵌入空间来更好的分辨不同实体类的跨度。在多个 benchmark 上的实验表明,我们的方法取得了比之前的方法更好的效果。

Intro

NER 目的在于定位和识别文本跨度中的预定义实体类诸如 location、organization。在标准的监督学习 NER 中深度学习的架构取得了很大的成功。然而,在实际应用中,NER 的模型通常需要迅速适配一些新的未见过的实体类,且通常标注大量的新样本开销很大。因此,小样本 NER 近年来得到了广泛的研究。 之前关于小样本 NER 的研究都是基于 token 级的度量学习,将每个查询 token 和原型进行度量上的比较,然后为每个 token 分配标签。最近的很多研究都转为跨度级的度量学习,能够绕过 token 对标签的以来并且明确利用短语的表征。 然而这些方法在遇到较大领域偏差时可能没那么有效,因为他们直接使用学习的度量而没有对目标域进行适配。换句话说,这些方法没有完全挖掘支持集数据的信息。现在的方法还存在以下限制: 1. 解码过程需要对重叠的跨度仔细处理; 2. 非实体类型“O”通常时噪声,因为这些词之间几乎没有共同点。 此外,当针对一个不同的领域时,唯一可用的信息仅仅是很少的支持样本,不幸的是,这些样本在之前的方法中仅仅被应用在推理阶段计算相似度的过程中。 为了解决这些局限性,本文提出了一种分解的元学习方法,将原问题分解为跨度预测和实体分类两个过程。具体来讲: 1. 对于小样本跨度预测来说,我们将其看作序列标注问题来解决重叠跨度的问题。这个过程目的在于定位命名实体并且是与类别无关的。然后我们仅仅对被标注出的跨度进行实体分类,这样也可以消除“O”类噪声的影响。当训练跨度检测模块时,我们采用的 MAML 算法来找到好的模型初始化参数,在使用少量目标域支持集样本更新后,能够快速适配新实体类。在模型更新时,特定领域的跨度边界信息能够被模型有效的利用,使模型能够更好的迁移到目标领域; 2. 对于实体分类,采用了 MAML-ProtoNet 来缩小源域和目标域的差距。 我们在一些 benchmark 上进行了实验,实验表明我们提出的框架比之前的 SOTA 模型表现更好,我们还进行了定性和定量的分析,不同的元学习策略对于模型表现的影响。

Method

本文遵循传统的 N-way-K-shot 的小样本设置,示例如下表(2-way-1-shot):

e74d80fa-fc23-11ec-ba43-dac502259ad0.png

下图为模型的总体结构:

e7728026-fc23-11ec-ba43-dac502259ad0.png

2.1 Entity Span Detection

跨度检测阶段不需要分类具体的实体类,因此模型的参数可以在不同的领域之间共享。基于此,我们采用 MAML 来促进领域不变的内部表征学习而不是针对特定领域特征的学习。这种方式训练的元学习模型对于目标域的样本更加敏感,因此只需要少量样本进行微调就能取得很好的效果而不会过拟合。 2.1.1 Basic Detector 基检测器是一个标准的序列标注任务,采用 BIOES 的标注策略,对于一个句子序列 {xi},使用一个编码器得到其上下文表征 h,然后通过 softmax 生成概率分布。

e7a4b1b8-fc23-11ec-ba43-dac502259ad0.png

▲ fθ:编码器

e7b0ed20-fc23-11ec-ba43-dac502259ad0.png

▲概率分布 模型的训练误差在交叉熵损失基础上添加了最大值项来缓解对于损失较高的 token 学习不足的问题:

e7cdece0-fc23-11ec-ba43-dac502259ad0.png

▲交叉熵损失 推理阶段采用了维特比解码,这里我们没有训练转移矩阵,简单的添加了一些限制保证预测的标签不违反 BIOES 的标注规则。 2.1.2 Meta-Learning Procedure 元训练过程具体来说,首先随机采样一组训练 episode:

e7f7b96c-fc23-11ec-ba43-dac502259ad0.png

使用支持集进行 inner-update 过程:

e81b8cac-fc23-11ec-ba43-dac502259ad0.png

其中 Un 代表 n 步梯度更新,损失采用上文所述的损失函数。然后使用更新后的参数 Θ' 在查询集上进行评估,将一个 batch 内的所有 episode 的损失求和,训练目标是最小化该损失:

e835bca8-fc23-11ec-ba43-dac502259ad0.png

用上述损失来更新模型的原参数 Θ,这里使用一阶导数来近似计算:

e8430d90-fc23-11ec-ba43-dac502259ad0.png

MAML 数学推导参考:MAML

https://zhuanlan.zhihu.com/p/181709693

在推理阶段先使用基模型中提到的交叉熵损失在支持集上微调,然后在查询集上使用微调后的模型进行测试。

2.2 Entity Typing

实体分类模块采用原型网络作为基础模型,使用 MAML 算法对模型进行增强,使模型得到一个更具代表性的嵌入空间来更好的区分不同的实体类。 2.2.1 Basic Model 这里使用了另一个编码器来对输入 token 进行编码,然后使用跨度检测模块输出的跨度 x[i,j],将跨度中所有的 token 表征取平均来代表此跨度的表征:

e862bbd6-fc23-11ec-ba43-dac502259ad0.png

e87639f4-fc23-11ec-ba43-dac502259ad0.png

遵循原型网络的设置,使用支持集中属于同一实体类的跨度的求和平均作为类原型的表示:

e88f60be-fc23-11ec-ba43-dac502259ad0.png

模型的训练过程先采用支持集计算每个类原型的表示,然后对于查询集中的每个跨度,通过计算其到某一类原型的距离来计算其属于该类的概率:

e8bd2454-fc23-11ec-ba43-dac502259ad0.png

模型的训练目标是一个交叉熵损失:

e8d8e84c-fc23-11ec-ba43-dac502259ad0.png

推理阶段就是简单的计算与哪一类原型距离最近即可:

e8f043f2-fc23-11ec-ba43-dac502259ad0.png

2.2.2 MAML Enhanced ProtoNet 这一过程的设置与跨度检测中应用的 MAML 一致,同样是使用 MAML 算法来找到一个更好的初始化参数,详细过程参考上文:

e8fcffca-fc23-11ec-ba43-dac502259ad0.png

e91e00bc-fc23-11ec-ba43-dac502259ad0.png

推理阶段也与上文一致,这里不详细说明了。

实验

3.1 数据集和设置

本文采用 Few-NERD,一个专门为 few-shot NER 推出的数据集以及 cross-dataset,四种不同领域的数据集的整合。对于 Few-NERD 使用 P、R、micro-F1 作为评价指标,cross-dataset 采用 P、R、F1 作为评价指标。文中两个编码器采用两个独立的 BERT,优化器使用 AdamW。

3.2 主实验

e93e4f0c-fc23-11ec-ba43-dac502259ad0.png

▲ Few-NERD

e9657b2c-fc23-11ec-ba43-dac502259ad0.png

▲Cross-Dataset

3.3 消融实验

e97dc34e-fc23-11ec-ba43-dac502259ad0.png

3.4 分析

对于跨度检测,作者用一个全监督的跨度检测器进行实验:

e99005d6-fc23-11ec-ba43-dac502259ad0.png

作者分析,未精调的模型预测的 Broadway 对于新实体类来说是一个错误的预测(Broadway 出现在了训练数据中),然后通过对该模型采用新实体类样本进行精调,可以看出模型能够预测出正确的跨度,但是 Broadway 这一跨度仍然被预测了。这表明传统的精调虽然可以使模型获取一定的新类信息,但是其还是存在很大偏差。 然后作者对比了 MAML 增强的模型和未使用 MAML 模型的 F1 指标:

e99f2ae8-fc23-11ec-ba43-dac502259ad0.png

MAML 算法可以更好的利用支持集的数据,找到一个更好的初始化参数,使模型能够快速适配到新域中。 然后作者分析了 MAML 如何提升原型网络,首先是指标上 MAML 增强的原型网络会有一定的提升:

e9c0b488-fc23-11ec-ba43-dac502259ad0.png

接着作者进行了可视化分析:

e9e0a00e-fc23-11ec-ba43-dac502259ad0.png

从上图可以看出,MAML 增强的原型网络能够更好的区分各个类原型。

Conclusion

本文提出了一个两阶段的模型,跨度检测和实体分类来进行小样本 NER 任务,两个阶段的模型均使用元学习 MAML 的方法来进行增强,获取了更好的初始化参数,能够使模型通过少量样本快速适配到新域中。本文也算是一篇启发性的文章,在指标上可以看出,元学习的方法对小样本 NER 任务有着巨大的提升。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3268

    浏览量

    48926
  • 深度学习
    +关注

    关注

    73

    文章

    5507

    浏览量

    121298

原文标题:ACL2022 | 分解的元学习小样本命名实体识别

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    ASR与传统语音识别的区别

    ASR(Automatic Speech Recognition,自动语音识别)与传统语音识别在多个方面存在显著的区别。以下是对这两者的对比: 一、技术基础 ASR : 基于深度学习算法的新型语音
    的头像 发表于 11-18 15:22 532次阅读

    风华贴片瓷介电容型号识别命名方法

    风华贴片瓷介电容的型号识别命名方法主要包括以下几个关键部分,以下将按照清晰的结构进行分点表示和归纳: 1、封装尺寸 : 常见的封装尺寸包括0201、0402、0603、0805、1206等,这些
    的头像 发表于 11-05 16:16 243次阅读
    风华贴片瓷介电容型号<b class='flag-5'>识别</b>及<b class='flag-5'>命名</b>方法

    使用 TMP1826 嵌入式 EEPROM 替换用于模块识别的外部存储器

    电子发烧友网站提供《使用 TMP1826 嵌入式 EEPROM 替换用于模块识别的外部存储器.pdf》资料免费下载
    发表于 09-09 09:44 0次下载
    使用 TMP1826 嵌入式 EEPROM 替换<b class='flag-5'>用于</b>模块<b class='flag-5'>识别的</b>外部存储器

    【《大语言模型应用指南》阅读体验】+ 基础知识学习

    的信息,提供更全面的上下文理解。这使得模型能够更准确地理解复杂问题中的多个层面和隐含意义。 2. 语义分析 模型通过训练学习到语言的语义特征,能够识别文本中的命名实体、句法结构和语义关系等信息。这些
    发表于 08-02 11:03

    什么是离线语音识别芯片?与在线语音识别的区别

    离线语音识别芯片适用于智能家电等,特点为小词汇量、低成本、安全性高、响应快,无需联网。在线语音识别功能更广泛、识别准确率高,但依赖稳定网络。
    的头像 发表于 07-22 11:33 426次阅读

    llm模型有哪些格式

    Representations from Transformers):BERT是一种双向预训练模型,通过大量文本数据进行预训练,可以用于各种NLP任务,如文本分类、问答、命名实体识别等。 b. GPT(
    的头像 发表于 07-09 09:59 661次阅读

    如何设计人脸识别的神经网络

    人脸识别技术是一种基于人脸特征信息进行身份识别的技术,广泛应用于安全监控、身份认证、智能门禁等领域。神经网络是实现人脸识别的关键技术之一,本文将介绍如何设计人脸
    的头像 发表于 07-04 09:20 680次阅读

    人脸检测和人脸识别的区别是什么

    脸检测和人脸识别的区别。 定义 人脸检测是指在图像或视频中快速准确地找到人脸的位置,并将其从背景中分离出来的技术。人脸检测的目的是确定图像中是否存在人脸,以及人脸的位置和大小。人脸检测通常是一个二分类问题,即
    的头像 发表于 07-03 14:49 1302次阅读

    人脸检测与识别的方法有哪些

    人脸检测与识别是计算机视觉领域中的一个重要研究方向,具有广泛的应用前景,如安全监控、身份认证、智能视频分析等。本文将详细介绍人脸检测与识别的方法。 引言 人脸检测与识别技术在现代社会中扮演着
    的头像 发表于 07-03 14:45 746次阅读

    一种用于化学和生物材料识别的便携式拉曼光谱解决方案

    基于扫频光源的紧凑型拉曼光谱系统:美国麻省理工学院(MIT)和韩国科学技术院(KAIST)的研究人员开发了一种用于化学和生物材料识别的便携式拉曼光谱解决方案,克服了光谱仪笨重的局限性。
    的头像 发表于 04-16 10:35 548次阅读
    一种<b class='flag-5'>用于</b>化学和生物材料<b class='flag-5'>识别的</b>便携式拉曼光谱解决方案

    苹果ReALM模型在实体识别测试中超越OpenAI GPT-4.0

    “我们的模型在识别各种类型实体方面都有显著提升,即使是小尺寸模型,在屏幕实体识别准确性上也已超过原有的系统5%以上。在与GPT-3.5和GPT-4.0的比较中,小型模型与GPT-4.0
    的头像 发表于 04-02 11:23 499次阅读

    语音识别的技术历程及工作原理

    语音识别的本质是一种基于语音特征参数的模式识别,即通过学习,系统能够把输入的语音按一定模式进行分类,进而依据判定准则找出最佳匹配结果。
    的头像 发表于 03-22 16:58 3389次阅读
    语音<b class='flag-5'>识别的</b>技术历程及工作原理

    RFID标签技术:智能识别的新纪元

    随着物联网、大数据和人工智能的飞速发展,RFID(无线射频识别)技术作为智能识别的重要手段,正日益成为各行各业的关键技术之一
    的头像 发表于 03-21 11:18 1053次阅读
    RFID标签技术:智能<b class='flag-5'>识别的</b>新纪元

    TLE9853QX出现无法识别的选项 \'-abdfrvy+glpsu\'如何解决?

    注意到最新版本中没有包含ARMCC文件夹,因此我从原始硬盘驱动器中复制了该文件夹,从而解决了上述错误。 现在我收到了错误:致命错误:C3900U:无法识别的选项 '
    发表于 01-26 08:04

    如何使用Python进行图像识别的自动学习自动训练?

    如何使用Python进行图像识别的自动学习自动训练? 使用Python进行图像识别的自动学习和自动训练需要掌握一些重要的概念和技术。在本文中,我们将介绍如何使用Python中的一些常用
    的头像 发表于 01-12 16:06 610次阅读