0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

SuperGLUE正式上线:NLP模型们,来迎接挑战吧!

DPVg_AI_era 来源:lq 2019-09-13 16:51 次阅读

Facebook AI Research、Google DeepMind、华盛顿大学和纽约大学合作,共同推出了SuperGLUE,这是一系列用来衡量现代高性能语言理解AI表现的基准测试任务,SuperGLUE针对的是已经达到挑战上限的会话式AI深度学习模型,为其提供更难的挑战,其比GLUE基准任务更负责,旨在构建能处理更加复杂和掌握更细微差别的语言模型。

目前NLP主要着眼在多任务学习和语言模型预训练,从而孕育出各种模型,如BERT、Transformer、Elmo、MT-DNN、GPT-2等。为了评估这些模型的精准度,GLUE基准应运而生。

SuperGLUE正式上线:NLP模型们,来迎接挑战吧!

GLUE全称是通用语言理解评估(General Language Understanding Evaluation),基于已有的9种英文语言理解任务,涵盖多种数据集大小、文本类型和难度。终极目标是推动研究,开发通用和强大的自然语言理解系统。

但随着NLP模型狂飙似的发展速度,仅推出一年时间的GLUE基准,已经显得有些力不从心。于是,Facebook AI研究院、谷歌DeepMind、华盛顿大学以及纽约大学4家公司和高校开始携手打造进化版新基准:SuperGLUE!

近日,进化后的基准也正式宣布上线,可供大家使用了!

地址:

https://gluebenchmark.com

因为BERT在GLUE上是当前最成功的方法,所以SuperGLUE也使用BERT-LARGE-CASED variant.11作为模型性能基准。

什么是SuperGLUE?

如果你搜索SuperGLUE,出现在首页的一定的各种胶水。这也是科技公司在给产品起名时特别喜欢玩儿的一个梗:利用命名的首字母缩写成为一个十分普通、十分常见的英文单词,这个单词经常和实际的科技产品毫不相关。

实际上,我们今天要介绍的SuperGLUE,全称是超(级)通用语言理解评估(Super General-Purpose Language Understanding Evaluation)。

据SuperGLUE团队介绍,为了获得更强悍的任务集,他们向各个NLP社区发出了征集令,并最终获得一个包含约30种不同NLP任务的列表。随后按照如下标准筛选:

任务本质:即测试系统理解英语的能力

任务难度:即超出当前最先进模型的能力

可评估性:具备自动评断机制,同时还需要能够准确对应人类的判断或表现

公开数据:拥有可公开的数据

任务格式:提升输入值的复杂程度,允许出现复杂句子、段落和文章等

任务许可:所用数据必须获得研究和重新分发的许可

最终获得一个包含7个任务的集合。然后,以这7个任务为基础构建公开排行榜。

此外,SuperGLUE还包含基于已有数据的抽取、单个数值的表现指标,以及一套分析工具包jiant。 下载地址: https://jiant.info/

相比GLUE有哪些变化?效果如何?

进化后的新基准,难度有了大幅提升,应对起当前这些发育迅猛的NLP模型更加得心应手,从而可以鼓励构建能够掌握更复杂,或具有更细微差别的语言的模型。

相比上一代GLUE,首先研究人员向原有的11项任务开刀,直接砍掉其中的9项,并对剩下的2项任务进行了升级,这两项任务分别是识别文本蕴涵(RTE)和Winograd模式挑战赛(WSC)。

之后,5项新的评估基准也被添加进来,用于测试模型在回答问题、指代消解和常识推理方面的能力。这5项新任务分别是:CB,COPA,GAP,MultiRC和WiC。

初始的SuperGLUE基准版本包含了人类水平估计结果,扩展了GLUE中的句子和句子的分类,还包含了共指消解、句子完成和问答

SuperGLUE任务集合比较多样化,为了帮助研究者能够开发出统一的新方法,SuperGLUE团队还贴心的为研究人员提供了一套基于PyTorch和AllenNLP、用来操作NLP的预训练、多任务学习和迁移学习的模块化建模工具包。

此外,因为考虑到公平性、信息的丰富性,管理SuperGLUE排行榜的规则也有很多地方和GLUE有所区别,以期能充分体现数据和任务创建者的贡献。

研究人员用主流NLP模型对新基准进行了测试,效果如下图:

任务示例:

值得一提的是,即使是当前最先进的BERT模型,量化后的综合分数,比人类低了约16.8%。这样的表现,恐怕只能勉强算过得去而已。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语言模型
    +关注

    关注

    0

    文章

    527

    浏览量

    10288
  • 数据集
    +关注

    关注

    4

    文章

    1208

    浏览量

    24726
  • nlp
    nlp
    +关注

    关注

    1

    文章

    489

    浏览量

    22052

原文标题:超难NLP新基准SuperGLUE正式发布:横扫SOTA模型BERT勉强过关

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    如何评估AI大模型的效果

    评估AI大模型的效果是一个复杂且多维度的过程,涉及多个方面的考量。以下是一些关键的评估方法和步骤: 一、基准测试(Benchmarking) 使用标准数据集和任务评估模型的性能,如GLUE
    的头像 发表于 10-23 15:21 1113次阅读

    AI大模型在自然语言处理中的应用

    AI大模型在自然语言处理(NLP)中的应用广泛且深入,其强大的语义理解和生成能力为NLP任务带来了显著的性能提升。以下是对AI大模型NLP
    的头像 发表于 10-23 14:38 495次阅读

    亚马逊云科技上线Meta Llama 3.2模型

    亚马逊云科技近日宣布,Meta公司的新一代模型Llama 3.2已在其平台上正式上线。该模型包括Meta首款多模态模型,现已在Amazon Bedrock和Amazon SageMak
    的头像 发表于 10-11 18:08 462次阅读

    模型发展下,国产GPU的机会和挑战

    电子发烧友网站提供《大模型发展下,国产GPU的机会和挑战.pdf》资料免费下载
    发表于 07-18 15:44 10次下载
    大<b class='flag-5'>模型</b>发展下,国产GPU的机会和<b class='flag-5'>挑战</b>

    大语言模型的预训练

    能力,逐渐成为NLP领域的研究热点。大语言模型的预训练是这一技术发展的关键步骤,它通过在海量无标签数据上进行训练,使模型学习到语言的通用知识,为后续的任务微调奠定基础。本文将深入探讨大语言模型
    的头像 发表于 07-11 10:11 439次阅读

    nlp逻辑层次模型的特点

    NLP(自然语言处理)逻辑层次模型是一种用于理解和生成自然语言文本的计算模型。它将自然语言文本分解为不同的层次,以便于计算机更好地处理和理解。以下是对NLP逻辑层次
    的头像 发表于 07-09 10:39 407次阅读

    nlp神经语言和NLP自然语言的区别和联系

    改变我们的行为和情感。NLP的目标是帮助人们实现自我改进,提高沟通技巧,增强领导力和解决问题的能力。 NLP的主要组成部分包括: 感知:了解我们如何接收和处理信息。 语言:研究我们如何使用语言
    的头像 发表于 07-09 10:35 795次阅读

    nlp自然语言处理基本概念及关键技术

    、问答系统、文本摘要等众多领域有着广泛的应用。 1. NLP的基本概念 1.1 语言模型 语言模型NLP的基础,它用于描述一个句子在自然语言中出现的概率。语言
    的头像 发表于 07-09 10:32 641次阅读

    llm模型有哪些格式

    LLM(Large Language Model,大型语言模型)是一种深度学习模型,主要用于处理自然语言处理(NLP)任务。LLM模型的格式多种多样,以下是一些常见的LLM
    的头像 发表于 07-09 09:59 651次阅读

    nlp自然语言处理模型怎么做

    的进展。本文将详细介绍NLP模型的构建过程,包括数据预处理、模型选择、训练与优化等方面。 数据预处理 数据预处理是NLP模型构建的第一步,其
    的头像 发表于 07-05 09:59 659次阅读

    nlp自然语言处理模型有哪些

    自然语言处理(Natural Language Processing,NLP)是计算机科学和人工智能领域的一个重要分支,旨在使计算机能够理解、解释和生成人类语言。以下是对NLP领域一些模型的介绍
    的头像 发表于 07-05 09:57 764次阅读

    NLP技术在机器人中的应用

    人类语言的能力,还使得机器人能够以更加自然、流畅的方式与人类进行交互,从而在服务、教育、医疗、娱乐等多个领域展现出巨大的潜力和价值。本文将从NLP技术在机器人中的应用现状、核心技术、应用场景、面临的挑战及未来发展趋势等方面进行深入探讨。
    的头像 发表于 07-04 16:04 516次阅读

    NLP模型中RNN与CNN的选择

    在自然语言处理(NLP)领域,循环神经网络(RNN)与卷积神经网络(CNN)是两种极为重要且广泛应用的网络结构。它们各自具有独特的优势,适用于处理不同类型的NLP任务。本文旨在深入探讨RNN与CNN
    的头像 发表于 07-03 15:59 551次阅读

    模型,为什么非得和「弱智」过不去?

    国产AI大模型训练的出路或许不止「弱智」!
    的头像 发表于 04-25 13:38 550次阅读
    大<b class='flag-5'>模型</b>,为什么非得和「弱智<b class='flag-5'>吧</b>」过不去?

    台湾晶圆代工厂世界先进预测2024年业绩将优于2023年

    关于竞争加剧问题,方略强调,由于其他企业连续扩大产量,这一点在成熟制程市场尤为明显。然而,无论何时何地,竞争都是不可避免的,而世界先进正通过增强自身实力迎接挑战。此外,他还提到,考虑到员工的辛勤付出,公司计划在2024年继续
    的头像 发表于 01-12 10:01 581次阅读