0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

清华联合阿里达摩院开发行业首个人工标注的少样本NER数据集

深度学习自然语言处理 来源:量子位 作者:量子位 2021-05-28 14:59 次阅读

NER(命名实体识别)作为NLP的一项基本任务,其日常是训练人工智能(zhang)对一段文本中的专有名词(人名、地名、机构名等)进行识别和分类。

翻译成计算机语言,就是从一段非结构化的自然语言中找到各种实体,并将其分为合适的类别。且避免出现“江大桥同志到底就任了多少年南京市长”这样的问题

但在数据缺乏,样本不足的前提下,如何基于先验知识进行分类和学习,这就是目前NLPer面临的一道难题——少样本(Few-Shot)。

虽然已有越来越多针对少样本NER的研究出现(比如预训练语言模型BERT),但仍没有一个专属数据集以供使用。

而现在,共包含来自维基百科的18万条句子,49万个实体和460万标注,并具有8个粗粒度(coarse-grained types)实体类型和66个细粒度(fine-grained types)实体类型的数据集来了。

这就是清华大学联合阿里达摩院共同开发的,行业内第一个人工标注(human-annotated)的少样本NER数据集,FEW-NERD。

什么样的数据集?

对比句子数量、标记数、实体类型等统计数据,FEW-NERD比相关领域内已有的NER数据集都要更大。

dae04584-be8d-11eb-9e57-12bb97331649.png

此外,它也是规模最大的人工标注的数据集。

为实体命名常常需要联系上下文,尤其是在实体类型很多时,注解难度将大大增加。

而FEW-NERD的注释来自70位拥有语言学知识的注释者,以及10位经验丰富的专家。

具体而言,每个段落会交由两人独立完成注释,然后由专家审查,再对分批抽取数据进行双重检查。这很好地保证了注释的准确性。

比如上述“London is the fifth album by the British rock band…”这句话中的实体“London”,就被准确标注成了“Art-Music”。

而在以段落为单位进行标注时,因为样本量并不多,所以FEW-NERD数据的类别分布预计是相对平衡的,这也是它与以往NER数据集的一个关键区别。

并且在实践中,大多数未见的实体类型都是细粒度的。而传统的NER数据集(如CoNLL’03、WNUT’17、OntoNotes)只包含4-18个粗粒度的类型。

这就难以构建足够多的N元任务(N-way metatasks),并训练学习相关特征。

相比之下,FEW-NERD共包含了112个实体标签, 并具有8个粗粒度实体类型,和66个细粒度实体类型。

基准的选择

为了探索FEW-NERD所有实体类型之间的知识相关性(knowledge correlations),研究者进行了实体类型相似性的实证研究。

从实验结果得知,相同粗粒度类型的实体类型具有较大的相似性,从而使知识迁移更加容易。

这启发了研究者从知识迁移的角度进行基准设定。最终设置了三个基准:

FEW-NERD (SUP)
采用标准的监督式NER设置,将70%的数据随机分割为训练数据,10%为验证数据,20%为测试数据。

FEW-NERD(INTRA)
少样本学习任务,只包含粗粒度实体类型。

FEW-NRTD (INTER)
少样本学习任务,包含60%的细粒度类型,20%的细粒度类型。

实际的应用

针对少样本命名实体识别,FEW-NERD提供了一个同时包含粗粒度和细粒度,且统一基准的大型数据集。

而作者也指出,由于精确的上下文标注,FEW-NERD数据集不仅可以用于少样本场景,在监督学习、终身学习、开放信息抽取、实体分类等任务上也可以发挥作用。

此外,建立在FEW-NERD基础上的模型和系统,还能帮助构建各个领域的知识图谱(KGs),包括生物医学、金融和法律领域,并进一步促进NLP在特定领域的应用发展。

开发者还表示,将在未来增加跨域注释、远距离注释和更精细的实体类型来扩展FEW-NERD。

原文标题:ACL-IJCNLP 2021|行业首个少样本NER数据集,清华联合阿里达摩院开发

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    6571

    浏览量

    87955
  • 人工智能
    +关注

    关注

    1781

    文章

    45041

    浏览量

    232421

原文标题:ACL-IJCNLP 2021|行业首个少样本NER数据集,清华联合阿里达摩院开发

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    阿里云发布首个AI程序员,引领应用开发进入“分钟级”时代

    近日,在备受瞩目的阿里云上海AI峰会上,阿里云向全球开发者们展示了其最新的技术成果——首个“AI程序员”。这款创新应用基于通义大模型构建,具备了令人惊叹的多项技能,包括架构师、
    的头像 发表于 06-24 10:36 350次阅读

    赛富时将在伦敦开设首个人工智能中心

    全球云软件领军企业赛富时近日宣布,选择伦敦作为其全球首个人工智能创新中心。这一举措旨在加强公司在人工智能领域的技术创新实力,并为公司的AI专家与客户提供深化合作的平台。
    的头像 发表于 06-07 15:51 253次阅读

    阿里与京东将发行可转债,拟募集超50亿美元资金

    5 月 23 日消息,彭博社透露,阿里巴巴正在考虑发行可转债筹集大约 50 亿美元资金,以支持股票回购及业务增长。据悉,阿里已与投行沟通发行事宜,且最早有望于本周启动
    的头像 发表于 05-23 16:13 358次阅读

    清华大学联合中交兴路发布《中国公路货运大数据碳排放报告》

    为践行并推动实现“双碳”目标,清华大学联合中交兴路发布《中国公路货运大数据碳排放报告》(以下简称:《报告》)。
    的头像 发表于 05-09 14:47 214次阅读
    <b class='flag-5'>清华大学联合</b>中交兴路发布《中国公路货运大<b class='flag-5'>数据</b>碳排放报告》

    重庆首个人工智能产业基金成立,首期规模10亿元

    重庆首个人工智能产业基金在近期正式成立,首期规模达到10亿元。该基金由重庆超智体科技集团运营。
    的头像 发表于 04-11 10:07 414次阅读

    广合科技IPO新进展,拟首次公开发行股票

    3月13日晚间,广合科技披露招股意向书,公司拟首次公开发行4230万股,初步询价日期为2024年3月18日,申购日期为2024年3月22日。
    的头像 发表于 03-18 15:43 474次阅读
    广合科技IPO新进展,拟首次公<b class='flag-5'>开发行</b>股票

    广合科技拟首次公开发行4230万股

    3月13日晚间,广合科技披露招股意向书,公司拟首次公开发行4230万股,初步询价日期为2024年3月18日,申购日期为2024年3月22日。
    的头像 发表于 03-15 15:11 647次阅读
    广合科技拟首次公<b class='flag-5'>开发行</b>4230万股

    为小米、荣耀供货的龙旗科技宣布公开发行股票并在主板上市

    本周,智能手机ODM三巨头之龙旗科技宣布公开发行股票并在主板上市,今日已公布网上中签结果。
    的头像 发表于 02-23 18:21 1775次阅读
    为小米、荣耀供货的龙旗科技宣布公<b class='flag-5'>开发行</b>股票并在主板上市

    阿里达摩院北京公司新增AI业务

    阿里巴巴达摩院(北京)科技有限公司近日进行了工商变更,经营范围有所调整。具体来说,公司去除了智联网、芯片技术、量子计算等数据通信、电子产品、软件和硬件技术及产品的研究、开发等业务,而新
    的头像 发表于 02-23 11:39 707次阅读

    阿里达摩院在上海成立新公司,聚焦人工智能与软件开发

    天眼查信息显示,达摩院(上海)科技有限公司已正式成立,法定代表人为张建锋,注册资本为1000万人民币。该公司由阿里巴巴旗下阿里巴巴达摩院(杭州)科技有限公司全资持股。
    的头像 发表于 02-04 10:52 638次阅读

    产学研三界顶级大咖分享:RISC-V场景Show暨开源生态高级别论坛定档12/19

    12月19日,RISC-V场景Show暨开源生态高级别论坛即将开幕。本次论坛将邀请来自中科计算技术研究所副所长包云岗、嘉楠科技AI软件总监张晓晶、阿里巴巴达摩生态总监陈炜、
    发表于 12-15 18:36

    阿里达摩院量子实验室裁撤 整体捐献给浙江大学

    日前,阿里达摩院量子实验室裁撤,达摩院量子实验室以及仪器设备全部被捐给浙江大学。相关信息从首席科学家施尧耘发布的动态可以印证;这可以说是来自官方的确认。 2015年阿里云和中国科学院开
    的头像 发表于 11-28 16:04 455次阅读

    CMU、MIT、清华联合发布全球首个生成式机器人智能体RoboGen

    CMU、MIT、清华联合发布了全球首个生成式机器人智能体RoboGen,可以无限生成数据,让机器人7*24小时永不停歇地训练。为机器人进入通用场景迈出坚实一步。
    的头像 发表于 11-09 10:19 783次阅读

    ChatGPT火了,对物联网开发行业有什么影响?

    电路电流电容
    学习电子知识
    发布于 :2023年08月02日 11:52:20

    点云标注的标准化与数据共享

    规范。这可以确保不同软件和系统之间的数据交互和处理的可靠性。同时,标注规范可以确保不同数据集之间的可比较性和可复用性,为研究人员和开发者提供更便利的
    的头像 发表于 07-13 15:10 471次阅读