0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

微软谷歌AI模型在SuperGLUE测试中超过人类

我快闭嘴 来源:澎湃新闻 作者:澎湃新闻 2021-01-08 10:53 次阅读

近日,科技公司谷歌和微软相继在一份权威自然语言理解榜单中超越人类的表现,微软宣称这“标志着迈向通用人工智能的重要里程碑。”

自然语言理解(Natural Language Understanding,简称NLU)任务在人工智能领域历史悠久,被誉为“人工智能皇冠上的明珠”。由于自然语言本身存在的歧义性或多义性,实现高质量的自然语言理解有相当的难度。

为了衡量人工智能模型的自然语言理解能力,纽约大学、华盛顿大学、Facebook和DeepMind在2019年合作提出一个名为SuperGLUE的人工智能基准测试。SuperGLUE由2018年GLUE演化而来,其语言理解任务难度更大,包括问答、自然语言推理、指代消解和词义消歧等等。

在最近更新的SuperGLUE上,微软的DeBERTa模型和谷歌的T5+Meena模型分列第一第二,超越人类基准线(human baseline)。这是人工智能首次在SuperGLUE中表现超越人类。

尽管在SuperGLUE测试上取得令人满意的结果,但微软坦言,DeBERTa模型还没有达到人类智能的自然语言理解水平。人类非常善于利用从不同任务中学到的知识来解决新的任务,这是AI模型需要学习的地方。

排名第一的微软模型DeBERTa共有15亿个参数。在SuperGLUE测试中,单个DeBERTa模型的宏观平均分(89.9分)超过了人类的表现(89.8分);模型整体得分(90.3分)也超过人类基准线(89.8分),在SuperGLUE排名第一。排名第二的T5+Meena模型得分90.2,同样超过人类基准线(89.8分)。

在SuperGLUE测试中,人工智能模型被要求回答类似这样的问题:

已知“这个孩子对疾病产生了免疫力”,问“这是由什么导致的?”请选择:A.“他避免接触这种疾病”;或B.“他接种了这一疾病的疫苗”。

这是一个简单的因果推理任务,人类很容易选出正确答案。但对人工智能模型而言,却是不小的挑战。为了得出正确答案,模型需要理解已知条件和选项之间的因果关系。

2021年1月6日,微软在博客发文详细介绍此次取得榜首的DeBERTa模型。

DeBERTa全称Decoding-enhanced-BERT-with-disentangled attention,是一个基于Transformer架构的神经语言模型,采用自监督学习方法对大量原始文本语料库进行预训练。DeBERTa的目标是学习通用的语言表达形式,适用于各种自然语言理解任务。DeBERTa主要用到三种新技术,分别是分离注意力机制、增强的掩码解码器和用于微调的虚拟对抗训练方法。

排名第二的T5+Meena技术来自谷歌。谷歌团队尚未详细解释其模型在SuperGLUE创纪录的原因。但微软在博客文章中评价称,谷歌的T5模型由110亿个参数组成,相比之下,15亿参数的DeBERTa在训练和维护上更加节能,更容易压缩并部署到各种程序中。

微软正在将DeBERTa模型集成到下一代“图灵自然语言生成模型”(Turing NLRv4)中。下一步,他们准备向公众公开15亿参数的DeBERTa模型及其源代码。
责任编辑:tzh

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6549

    浏览量

    103869
  • 人工智能
    +关注

    关注

    1789

    文章

    46545

    浏览量

    236825
  • 自然语言
    +关注

    关注

    1

    文章

    284

    浏览量

    13315
收藏 人收藏

    评论

    相关推荐

    微软GitHub与Anthropic和谷歌合作

    近日,微软旗下的GitHub宣布了一项重要合作,将Anthropic和谷歌AI模型整合到其代码助理,为数百万软件开发者提供新的
    的头像 发表于 10-30 16:25 106次阅读

    如何评估AI模型的效果

    SuperGLUE、SQuAD等。这些数据集提供了不同任务上的基准评估,使得不同模型同一任务上的性能可以进行直接比较。 二、多样性和覆盖性测试
    的头像 发表于 10-23 15:21 214次阅读

    AI模型MCU的应用

    机遇。将AI模型集成到MCU,不仅提升了设备的智能化水平,还使得设备能够执行更复杂的任务,实现自主决策和实时响应。本文将从AI模型
    的头像 发表于 07-12 10:24 735次阅读

    微软谷歌等科技巨头承诺安全开发AI模型

    近日,微软谷歌、OpenAI等16家科技巨头“人工智能(AI)首尔峰会”上达成共识,承诺AI
    的头像 发表于 05-22 11:25 466次阅读

    微软将推出自研AI模型

    微软正在紧锣密鼓地训练一款全新的自研人工智能大模型——“MAI-1”。据悉,这款模型规模庞大,足以与谷歌的Gemini和OpenAI的ChatGPT相媲美。
    的头像 发表于 05-13 11:30 617次阅读

    微软准备推出新的AI模型谷歌及OpenAI竞争

    据报道,微软向OpenAI投资超过100亿美元后,首次成功训练了一个名为“MAI-1”的内部人工智能模型。这一模型规模庞大,足以与
    的头像 发表于 05-08 10:45 499次阅读

    微软准备推出全新人工智能语言模型

    微软近期传出消息,正在秘密研发一款全新的人工智能语言模型,这款模型规模上预计将具备与谷歌和OpenAI等业界巨头相抗衡的实力。据悉,这款新
    的头像 发表于 05-08 09:30 387次阅读

    微软自研AI模型即将问世

    微软正悄然酝酿一项重大技术突破,据内部消息人士透露,公司正全力训练一款名为“MAI-1”的自研人工智能大模型。这款模型备受期待,其规模庞大,足以与谷歌的Gemini和OpenAI的Ch
    的头像 发表于 05-07 14:46 430次阅读

    微软MSN天气服务引入全新AI模型

    微软天气预测领域取得了突破性的进展,为MSN天气服务引入了全新的AI预测模型。该模型微软St
    的头像 发表于 05-07 09:25 503次阅读

    世界数字技术院发布:生成式AI安全测试标准及大语言模型

    据悉,上述两款标准主要针对大型模型与生成式AI应用领域的安全检测设定了新基准。参与制定工作的单位有OpenAI、蚂蚁集团、科大讯飞、谷歌微软、英伟达、百度、腾讯等多家知名企业,其中,
    的头像 发表于 04-17 16:51 962次阅读

    微软将在PowerToys运用本地AI模型优化粘贴功能

    微软官方宣布,Build 2024开发者大会上,公司将升级PowerToys,增加基于本地AI模型的高级粘贴功能。
    的头像 发表于 04-11 11:37 322次阅读

    谷歌发布全新AI基础世界模型Genie

    谷歌近日宣布推出其最新研发的AI基础世界模型——Genie。这款模型拥有惊人的110亿参数,其独特之处在于,仅需一张图片,便能生成一个充满活力和交互性的虚拟世界。用户可以在这个世界
    的头像 发表于 03-04 14:02 679次阅读

    谷歌AI模型Gemma全球开放使用

    谷歌公司近日宣布,其全新的AI模型Gemma现已在全球范围内开放使用。这一重要举措不仅彰显了谷歌AI
    的头像 发表于 02-28 18:12 1051次阅读

    谷歌发布开源AI模型Gemma

    近日,谷歌发布了全新AI模型Gemma,这款模型为各种规模的组织提供了前所未有的机会,以负责任的方式商业应用中进行分发。
    的头像 发表于 02-28 17:38 778次阅读

    谷歌推出AI扩散模型Lumiere

    近日,谷歌研究院重磅推出全新AI扩散模型Lumiere,这款模型基于谷歌自主研发的“Space-Time U-Net”基础架构,旨在实现视频
    的头像 发表于 02-04 13:49 942次阅读