介绍一种信息抽取的大一统方法USM-电子发烧友网

一句话总结

信息抽取任务具有多样的抽取目标和异构的结构，而传统的模型需要针对特定的任务进行任务设计和标签标注，这样非常的耗时耗力。本文提出一种USM方法，将各种信息抽取任务通过一种统一的模型方法完成。

USM

信息抽取（IE）的挑战在于标签模式的多样性和结构的异构性。

传统方法需要针对特定任务的模型设计，并且严重依赖昂贵的监督，因此很难推广到新模式。

在本文中，我们将 IE 分解为两种基本能力，「结构化」(Structuring)和「概念化」(Conceptualizing)，它们由不同的任务和模式共享。

基于这种范式，我们建议使用「统一语义匹配 (Unified Semantic Matching, USM)」 框架对各种 IE 任务进行通用建模，该框架引入了三个统一的标记链接操作来建模结构化和概念化的能力。

这样，USM 可以联合编码模式和输入文本，并行地统一提取子结构，并按需可控地解码目标结构。

本文的贡献为：

算法细节

实验分析

对 4 个 IE 任务的实证评估表明，所提出的方法在监督实验下实现了最先进的性能，并在零/少镜头传输设置中表现出强大的泛化能力。

USM在不同数据集上的结果

零样本迁移实验

少样本实验

总结

在本文中，我们提出了一个统一的语义匹配框架——USM，它对提取模式和输入文本进行联合编码，并行地统一提取子结构，并按需可控地解码目标结构。

实验结果表明，USM 在监督实验下实现了最先进的性能，并在零/少场景设置下表现出强大的泛化能力，验证了 USM 是一种新颖、可传输、可控和高效的框架。

对于未来的工作，我们希望将 USM 扩展到 NLU 任务，例如文本分类，并研究 IE 的更多间接监督信号，例如文本蕴含。

审核编辑：刘清

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

编码器

编码器

+关注

关注
45

文章
3641

浏览量
134472
编解码

编解码

+关注

关注
1

文章
140

浏览量
19617
USM

USM

+关注

关注
0

文章
7

浏览量
7222

原文标题：AAAI2023 | 百度+中科院提出USM：一种信息抽取的大一统方法

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

请问一下VGA应用中硅器件注定要改变砷化镓一统的局面？

发表于 05-21 07:05

PD快充协议有望一统吗？

PD快充有望一统？市面上存在着多种快充协议，QC 4.0, QC 3.0, SCP, FCP, PE3.0, PE2.0, VOOC, 在鱼龙混杂的市场上，作为USB标准制作者，USB-IF（USB

发表于 11-30 10:01

基于子树广度的Web信息抽取

提出一种新的网页信息抽取方法，基于子树的广度可不加区分地对不同科技文献网站的页面信息进行自动抽取

发表于 03-28 10:03 •14次下载

文本分类中一种混合型特征降维方法

提出一种基于特征选择和特征抽取的混合型文本特征降维方法，分析基于选择和抽取的特征降维方法各自的特点，借助特征项的类别分布差异

发表于 04-01 08:46 •7次下载

快递好坏京东一人说了算，天天快递服务太烂？躺着被“封杀”

京东的野心勃勃，业内都是知道的，但大可以不必吃相如此难看。更何况，有时候，实力是撑不起大一统野心的。

发表于 07-21 10:36 •1907次阅读

基于WebHarvest的健康领域Web信息抽取方法

针对Web信息抽取（WIE）技术在健康领域应用的问题，提出了一种基于WebHarvest的健康领域Web信息抽取

发表于 12-26 13:44 •0次下载

苹果实现大一统：打通PC、平板、手机隔阂

特意发布了macOS Big Sur系统，从而充分利用自研M1芯片，并且让开发者可以更加简单的将相应的直接适配到Mac上，做到自由体系内平板、PC和手机的大一统。事实上，早在2006年，苹果给开发者们准备了Rosetta，方便开发者们从Power PC芯片过渡到Intel新品。

发表于 11-11 10:22 •1223次阅读

为应对苹果大一统，微软尽力让win10全力拥抱Android

很显然苹果的大一统刺激到了微软，而前者的野心是，让手机、平板和PC能够真正的打通，所以M1处理器下的新品能够运行iOS应用，就是最重要的一步。

发表于 11-30 10:26 •1257次阅读

美国正式宣布放弃DSRC车联网标准转向C-V2X

车联网大一统时代来临！

发表于 12-06 08:58 •2040次阅读

华为要最终实现其全场景、大一统的生态

体量上已经拥有与谷歌和苹果生态抗衡的能力。尽管如此，国内的主流手机厂商是否会采用鸿蒙OS及鸿蒙OS生态方面仍面临挑战，华为要最终实现其全场景、大一统的生态，真正成为全球第三大生态系统仍需产业合力。全球网站通信流量监测机构Statcounter数据

发表于 01-13 11:49 •2296次阅读

一个接口一统江湖！Intel雷电成功了

一个接口一统江湖！Intel花了10年成功了,英特尔,显示器,处理器,雷电,扩展坞

发表于 03-08 11:43 •996次阅读

一种面向维吾尔语的停用词抽取方法

为提高信息处理效率，文本信息检索系统通常将停用词作为噪音过滤掉，影理的效果提出一种应用于维吾尔语的停用词抽取方法用词特点的基础上，采用文档频

发表于 05-25 16:11 •3次下载

一种全新易用的基于Word-Word关系的NER统一模型

最近的研究都在考虑如何通过一个大一统模型一次性解决这三种问题。目前的最佳的方法基本都是基于span-based和seq2seq的，然而spa

发表于 03-23 13:37 •2794次阅读

基于统一语义匹配的通用信息抽取框架USM

信息提取（Information Extraction，IE）需要提取句子中的实体、关系、事件等，其不同的任务具有多样的抽取目标和异质的机构，因此，传统的方法需要针对特定的任务进行模型设计和数据标注，使得难以推广到新的模式中，极

发表于 01-16 10:21 •1118次阅读

学技术 | 充电器大一统：USB Type-C接口PD协议解决方案

充电器大一统：USBType-C接口PD协议解决方案2022年10月24日，欧洲理事会最终批准了“在欧盟范围内统一充电器接口”的法案。这意味着到2024年，USB-C（USBType-C）接口将成

发表于 11-21 16:15 •4182次阅读

搜索历史

介绍一种信息抽取的大一统方法USM

评论