0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

清华联合阿里达摩院开发行业首个人工标注的少样本NER数据集

深度学习自然语言处理 来源:量子位 作者:量子位 2021-05-28 14:59 次阅读

NER(命名实体识别)作为NLP的一项基本任务,其日常是训练人工智能(zhang)对一段文本中的专有名词(人名、地名、机构名等)进行识别和分类。

翻译成计算机语言,就是从一段非结构化的自然语言中找到各种实体,并将其分为合适的类别。且避免出现“江大桥同志到底就任了多少年南京市长”这样的问题

但在数据缺乏,样本不足的前提下,如何基于先验知识进行分类和学习,这就是目前NLPer面临的一道难题——少样本(Few-Shot)。

虽然已有越来越多针对少样本NER的研究出现(比如预训练语言模型BERT),但仍没有一个专属数据集以供使用。

而现在,共包含来自维基百科的18万条句子,49万个实体和460万标注,并具有8个粗粒度(coarse-grained types)实体类型和66个细粒度(fine-grained types)实体类型的数据集来了。

这就是清华大学联合阿里达摩院共同开发的,行业内第一个人工标注(human-annotated)的少样本NER数据集,FEW-NERD。

什么样的数据集?

对比句子数量、标记数、实体类型等统计数据,FEW-NERD比相关领域内已有的NER数据集都要更大。

dae04584-be8d-11eb-9e57-12bb97331649.png

此外,它也是规模最大的人工标注的数据集。

为实体命名常常需要联系上下文,尤其是在实体类型很多时,注解难度将大大增加。

而FEW-NERD的注释来自70位拥有语言学知识的注释者,以及10位经验丰富的专家。

具体而言,每个段落会交由两人独立完成注释,然后由专家审查,再对分批抽取数据进行双重检查。这很好地保证了注释的准确性。

比如上述“London is the fifth album by the British rock band…”这句话中的实体“London”,就被准确标注成了“Art-Music”。

而在以段落为单位进行标注时,因为样本量并不多,所以FEW-NERD数据的类别分布预计是相对平衡的,这也是它与以往NER数据集的一个关键区别。

并且在实践中,大多数未见的实体类型都是细粒度的。而传统的NER数据集(如CoNLL’03、WNUT’17、OntoNotes)只包含4-18个粗粒度的类型。

这就难以构建足够多的N元任务(N-way metatasks),并训练学习相关特征。

相比之下,FEW-NERD共包含了112个实体标签, 并具有8个粗粒度实体类型,和66个细粒度实体类型。

基准的选择

为了探索FEW-NERD所有实体类型之间的知识相关性(knowledge correlations),研究者进行了实体类型相似性的实证研究。

从实验结果得知,相同粗粒度类型的实体类型具有较大的相似性,从而使知识迁移更加容易。

这启发了研究者从知识迁移的角度进行基准设定。最终设置了三个基准:

FEW-NERD (SUP)
采用标准的监督式NER设置,将70%的数据随机分割为训练数据,10%为验证数据,20%为测试数据。

FEW-NERD(INTRA)
少样本学习任务,只包含粗粒度实体类型。

FEW-NRTD (INTER)
少样本学习任务,包含60%的细粒度类型,20%的细粒度类型。

实际的应用

针对少样本命名实体识别,FEW-NERD提供了一个同时包含粗粒度和细粒度,且统一基准的大型数据集。

而作者也指出,由于精确的上下文标注,FEW-NERD数据集不仅可以用于少样本场景,在监督学习、终身学习、开放信息抽取、实体分类等任务上也可以发挥作用。

此外,建立在FEW-NERD基础上的模型和系统,还能帮助构建各个领域的知识图谱(KGs),包括生物医学、金融和法律领域,并进一步促进NLP在特定领域的应用发展。

开发者还表示,将在未来增加跨域注释、远距离注释和更精细的实体类型来扩展FEW-NERD。

原文标题:ACL-IJCNLP 2021|行业首个少样本NER数据集,清华联合阿里达摩院开发

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7085

    浏览量

    89244
  • 人工智能
    +关注

    关注

    1792

    文章

    47446

    浏览量

    239061

原文标题:ACL-IJCNLP 2021|行业首个少样本NER数据集,清华联合阿里达摩院开发

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    AI自动图像标注工具SpeedDP将是数据标注行业发展的重要引擎

    AI大浪潮下,许多企业都在不断借助AI来提升自己的行业竞争力,数据标注企业也不例外,传统人工标注效率不足的弊端困扰了多年,如今新的“引擎”就
    的头像 发表于 01-02 17:53 143次阅读
    AI自动图像<b class='flag-5'>标注</b>工具SpeedDP将是<b class='flag-5'>数据</b><b class='flag-5'>标注</b><b class='flag-5'>行业</b>发展的重要引擎

    软通动力入选《人工智能数据标注产业图谱》

    近日,由中国信息通信研究、中国人工智能产业发展联盟牵头,联合中国电信集团、沈阳市数据局、保定高新区等70多家单位编制完成并发布了《人工智能
    的头像 发表于 12-03 10:18 177次阅读

    字节跳动与清华AIR成立联合研究中心

    近日,清华大学智能产业研究(AIR)与字节跳动共同宣布成立“可扩展大模型智能技术联合研究中心”(SIA Lab),并在清华大学举行了隆重的成立仪式。
    的头像 发表于 10-12 15:24 410次阅读

    易华录“基于北斗数据的高精度定位服务融合应用”入选案例

    近期,由开放群岛开源社区牵头撰写,中国电子技术标准化研究清华大学互联网产业研究联合发起的《2023-2024开放群岛开源社区数实融合引领场景创新优秀案例
    的头像 发表于 09-04 09:11 505次阅读

    阿里达摩发布玄铁R908 CPU

    在杭州第四届RISC-V中国峰会上,阿里达摩再次展现技术实力,隆重推出了玄铁处理器家族的最新成员——R908 CPU。此次发布标志着玄铁系列在高端计算领域的全面升级,吸引了业界的广泛瞩目。
    的头像 发表于 08-23 16:27 1015次阅读

    阿里云发布首个AI程序员,引领应用开发进入“分钟级”时代

    近日,在备受瞩目的阿里云上海AI峰会上,阿里云向全球开发者们展示了其最新的技术成果——首个“AI程序员”。这款创新应用基于通义大模型构建,具备了令人惊叹的多项技能,包括架构师、
    的头像 发表于 06-24 10:36 665次阅读

    易华录无锡数据湖与清华大学苏州汽车研究(吴江)合作挖掘智能驾驶数据新价值

    智慧交通专家顾问王锐锋出席签约仪式,数字工业中心副主任陈翠翠和无锡数据湖总经理张琦代表双方签署战略合作协议。 清华大学苏州汽车研究 清华大学苏州汽车研究
    的头像 发表于 06-18 15:00 938次阅读

    阿里达摩提出“知识链”框架,降低大模型幻觉

    近日,阿里巴巴达摩(湖畔实验室)携手新加坡南洋理工大学等研究机构,共同推出了大模型知识链(CoK)框架。该框架不仅可实时检索异构知识源,还能逐步纠正推理错误,有效提高了大模型在回答知识型问题时的准确率,并显著降低了所谓的“幻觉
    的头像 发表于 05-10 11:46 713次阅读

    重庆首个人工智能产业基金成立,首期规模10亿元

    重庆首个人工智能产业基金在近期正式成立,首期规模达到10亿元。该基金由重庆超智体科技集团运营。
    的头像 发表于 04-11 10:07 676次阅读

    玄铁RISC-V生态大会深圳召开,达摩引领RISC-V创新应用

    达摩院长张建锋在玄铁RISC-V生态大会上致词,RISC即将迎来蝶变进入应用爆发期   从2018年起,阿里巴巴开始投入RISC-V架构,是国内最早涉足RISC-V的技术团队之一。2019年玄铁C910处理器推出,成为全球R
    的头像 发表于 03-19 10:02 4540次阅读
    玄铁RISC-V生态大会深圳召开,<b class='flag-5'>达摩</b><b class='flag-5'>院</b>引领RISC-V创新应用

    广合科技IPO新进展,拟首次公开发行股票

    3月13日晚间,广合科技披露招股意向书,公司拟首次公开发行4230万股,初步询价日期为2024年3月18日,申购日期为2024年3月22日。
    的头像 发表于 03-18 15:43 810次阅读
    广合科技IPO新进展,拟首次公<b class='flag-5'>开发行</b>股票

    广合科技拟首次公开发行4230万股

    3月13日晚间,广合科技披露招股意向书,公司拟首次公开发行4230万股,初步询价日期为2024年3月18日,申购日期为2024年3月22日。
    的头像 发表于 03-15 15:11 937次阅读
    广合科技拟首次公<b class='flag-5'>开发行</b>4230万股

    为小米、荣耀供货的龙旗科技宣布公开发行股票并在主板上市

    本周,智能手机ODM三巨头之龙旗科技宣布公开发行股票并在主板上市,今日已公布网上中签结果。
    的头像 发表于 02-23 18:21 2214次阅读
    为小米、荣耀供货的龙旗科技宣布公<b class='flag-5'>开发行</b>股票并在主板上市

    阿里达摩北京公司新增AI业务

    阿里巴巴达摩(北京)科技有限公司近日进行了工商变更,经营范围有所调整。具体来说,公司去除了智联网、芯片技术、量子计算等数据通信、电子产品、软件和硬件技术及产品的研究、
    的头像 发表于 02-23 11:39 1079次阅读

    阿里达摩在上海成立新公司,聚焦人工智能与软件开发

    天眼查信息显示,达摩(上海)科技有限公司已正式成立,法定代表人为张建锋,注册资本为1000万人民币。该公司由阿里巴巴旗下阿里巴巴达摩
    的头像 发表于 02-04 10:52 1046次阅读