0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

介绍一种信息抽取的大一统方法USM

深度学习自然语言处理 来源:深度学习自然语言处理 2023-02-15 14:13 次阅读

一句话总结

信息抽取任务具有多样的抽取目标和异构的结构,而传统的模型需要针对特定的任务进行任务设计和标签标注,这样非常的耗时耗力。本文提出一种USM方法,将各种信息抽取任务通过一种统一的模型方法完成。

USM

信息抽取(IE)的挑战在于标签模式的多样性和结构的异构性。

传统方法需要针对特定任务的模型设计,并且严重依赖昂贵的监督,因此很难推广到新模式。

在本文中,我们将 IE 分解为两种基本能力,「结构化」(Structuring)和「概念化」(Conceptualizing),它们由不同的任务和模式共享。

abc7115e-a3c1-11ed-bfe3-dac502259ad0.png

基于这种范式,我们建议使用「统一语义匹配 (Unified Semantic Matching, USM)」 框架对各种 IE 任务进行通用建模,该框架引入了三个统一的标记链接操作来建模结构化和概念化的能力。

abece0e6-a3c1-11ed-bfe3-dac502259ad0.pngac0badfa-a3c1-11ed-bfe3-dac502259ad0.png

这样,USM 可以联合编码模式和输入文本,并行地统一提取子结构,并按需可控地解码目标结构。

本文的贡献为:

ac4c707e-a3c1-11ed-bfe3-dac502259ad0.png

算法细节

ac58de0e-a3c1-11ed-bfe3-dac502259ad0.pngac70e24c-a3c1-11ed-bfe3-dac502259ad0.png

ac828a74-a3c1-11ed-bfe3-dac502259ad0.png

实验分析

对 4 个 IE 任务的实证评估表明,所提出的方法在监督实验下实现了最先进的性能,并在零/少镜头传输设置中表现出强大的泛化能力。

ac97968a-a3c1-11ed-bfe3-dac502259ad0.png

USM在不同数据集上的结果

acbd6996-a3c1-11ed-bfe3-dac502259ad0.png

零样本迁移实验

acca6448-a3c1-11ed-bfe3-dac502259ad0.png

少样本实验

总结

在本文中,我们提出了一个统一的语义匹配框架——USM,它对提取模式和输入文本进行联合编码,并行地统一提取子结构,并按需可控地解码目标结构。

实验结果表明,USM 在监督实验下实现了最先进的性能,并在零/少场景设置下表现出强大的泛化能力,验证了 USM 是一种新颖、可传输、可控和高效的框架。

对于未来的工作,我们希望将 USM 扩展到 NLU 任务,例如文本分类,并研究 IE 的更多间接监督信号,例如文本蕴含。





审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    45

    文章

    3641

    浏览量

    134472
  • 编解码
    +关注

    关注

    1

    文章

    140

    浏览量

    19617
  • USM
    USM
    +关注

    关注

    0

    文章

    7

    浏览量

    7222

原文标题:AAAI2023 | 百度+中科院提出USM:一种信息抽取的大一统方法

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    请问下VGA应用中硅器件注定要改变砷化镓一统的局面?

    请问下VGA应用中硅器件注定要改变砷化镓一统的局面?
    发表于 05-21 07:05

    PD快充协议有望一统吗?

    PD快充有望一统?市面上存在着多种快充协议,QC 4.0, QC 3.0, SCP, FCP, PE3.0, PE2.0, VOOC, 在鱼龙混杂的市场上,作为USB标准制作者,USB-IF(USB
    发表于 11-30 10:01

    基于子树广度的Web信息抽取

    提出一种新的网页信息抽取方法,基于子树的广度可不加区分地对不同科技文献网站的页面信息进行自动抽取
    发表于 03-28 10:03 14次下载

    文本分类中一种混合型特征降维方法

    提出一种基于特征选择和特征抽取的混合型文本特征降维方法,分析基于选择和抽取的特征降维方法各自的特点,借助特征项的类别分布差异
    发表于 04-01 08:46 7次下载

    快递好坏京东人说了算,天天快递服务太烂?躺着被“封杀”

    京东的野心勃勃,业内都是知道的,但大可以不必吃相如此难看。更何况,有时候,实力是撑不起大一统野心的。
    发表于 07-21 10:36 1907次阅读

    基于WebHarvest的健康领域Web信息抽取方法

    针对Web信息抽取(WIE)技术在健康领域应用的问题,提出了一种基于WebHarvest的健康领域Web信息抽取
    发表于 12-26 13:44 0次下载

    苹果实现大一统:打通PC、平板、手机隔阂

    特意发布了macOS Big Sur系统,从而充分利用自研M1芯片,并且让开发者可以更加简单的将相应的直接适配到Mac上,做到自由体系内平板、PC和手机的大一统。 事实上,早在2006年,苹果给开发者们准备了Rosetta,方便开发者们从Power PC芯片过渡到Intel新品。
    的头像 发表于 11-11 10:22 1223次阅读

    为应对苹果大一统,微软尽力让win10全力拥抱Android

    很显然苹果的大一统刺激到了微软,而前者的野心是,让手机、平板和PC能够真正的打通,所以M1处理器下的新品能够运行iOS应用,就是最重要的步。
    的头像 发表于 11-30 10:26 1257次阅读

    美国正式宣布放弃DSRC车联网标准转向C-V2X

    车联网大一统时代来临!
    的头像 发表于 12-06 08:58 2040次阅读

    华为要最终实现其全场景、大一统的生态

    体量上已经拥有与谷歌和苹果生态抗衡的能力。尽管如此,国内的主流手机厂商是否会采用鸿蒙OS及鸿蒙OS生态方面仍面临挑战,华为要最终实现其全场景、大一统的生态,真正成为全球第三大生态系统仍需产业合力。    全球网站通信流量监测机构Statcounter数据
    的头像 发表于 01-13 11:49 2296次阅读

    个接口一统江湖!Intel雷电成功了

    个接口 一统江湖!Intel花了10年 成功了,英特尔,显示器,处理器,雷电,扩展坞
    发表于 03-08 11:43 996次阅读

    一种面向维吾尔语的停用词抽取方法

    为提高信息处理效率,文本信息检索系统通常将停用词作为噪音过滤掉,影理的效果提出一种应用于维吾尔语的停用词抽取方法用词特点的基础上,采用文档频
    发表于 05-25 16:11 3次下载

    一种全新易用的基于Word-Word关系的NER统模型

    最近的研究都在考虑如何通过大一统模型次性解决这三问题。目前的最佳的方法基本都是基于span-based和seq2seq的,然而spa
    的头像 发表于 03-23 13:37 2794次阅读

    基于统语义匹配的通用信息抽取框架USM

    信息提取(Information Extraction,IE)需要提取句子中的实体、关系、事件等,其不同的任务具有多样的抽取目标和异质的机构,因此,传统的方法需要针对特定的任务进行模型设计和数据标注,使得难以推广到新的模式中,极
    的头像 发表于 01-16 10:21 1118次阅读

    学技术 | 充电器大一统:USB Type-C接口PD协议解决方案

    充电器大一统:USBType-C接口PD协议解决方案2022年10月24日,欧洲理事会最终批准了“在欧盟范围内统充电器接口”的法案。这意味着到2024年,USB-C(USBType-C)接口将成
    的头像 发表于 11-21 16:15 4182次阅读
    学技术 | 充电器<b class='flag-5'>大一统</b>:USB Type-C接口PD协议解决方案