0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

微软新研究提出一个新的多任务深度神经网络模型——MT-DNN

DPVg_AI_era 来源:lp 2019-03-29 11:53 次阅读

微软新研究提出一个新的多任务深度神经网络模型——MT-DNN。MT-DNN结合了BERT的优点,并在10大自然语言理解任务上超越了BERT,在多个流行的基准测试中创造了新的最先进的结果。

语言嵌入是将自然语言符号文本(如单词、短语和句子)映射到语义向量表示的过程。这是自然语言理解(NLU)深度学习方法的基础。学习对多个NLU任务通用的语言嵌入是非常必要的。

学习语言嵌入有两种流行方法,分别是语言模型预训练和多任务学习(MTL)。前者通过利用大量未标记的数据学习通用语言嵌入,但MTL可以有效地利用来自许多相关任务的有监督数据,并通过减轻对特定任务的过度拟合,从正则化效果中获益,从而使学习的嵌入在任务之间具有通用性。

最近,微软的研究人员发布了一个用于学习通用语言嵌入的多任务深度神经网络模型——MT-DNN。MT-DNN结合了MTL和BERT的语言模型预训练方法的优点,并在10个NLU任务上超越了BERT,在多个流行的NLU基准测试中创造了新的最先进的结果,包括通用语言理解评估(GLUE)、斯坦福自然语言推理(SNLI)和SciTail。

MT-DNN的架构

MT-DNN扩展了微软在2015年提出的多任务DNN模型(Multi-Task DNN),引入了谷歌AI开发的预训练双向transformer语言模型BERT。

MT-DNN架构

MT-DNN模型的架构如上图所示。低层在所有任务之间共享,而顶层是特定于任务的。输入X可以是一个句子或一对句子,其中的每个单词都先被表示为一个嵌入向量序列,表示为l_1。

然后,基于transformer的编码器捕获每个单词的上下文信息,并在l_2中生成共享的上下文嵌入向量。

最后,对于每个任务,额外的 task-specific 的层生成特定于任务的表示,然后是分类、相似度评分或相关性排序所需的操作。MT-DNN使用BERT来初始化它的共享层,然后通过MTL改进它们。

领域自适应结果

评估语言嵌入的通用性的一种方法是测量嵌入适应新任务的速度,或者需要多少特定于任务的标签才能在新任务上获得不错的结果。越通用的嵌入,它需要的特定于任务的标签就越少。

MT-DNN论文的作者将MT-DNN与BERT在领域自适应(domain adaption)方面的表现进行了比较。

在域适应方面,两种模型都通过逐步增加域内数据(in-domain data)的大小来适应新的任务。

SNLI和SciTail任务的结果如下表和图所示。可以看到,在只有0.1%的域内数据(SNLI中为549个样本,SciTail中为23个样本)的条件下,MT-DNN的准确率超过80%,而BERT的准确率在50%左右,这说明MT-DNN学习的语言嵌入比BERT的更加通用。

与BERT相比,MT-DNN在SNLI和SciTail数据集上的精度更高。

在GLUE、SNLI和SciTail 3个benchmarks上的结果

在GLUE测试集的结果,MT-DNN在10个任务上的结果均超越了BERT

模型开源

微软已经在GitHub开源MT-DNN包,其中包含了预训练的模型、源代码,并描述了如何重现MT-DNN论文中报告的结果,以及如何通过domain adaptation使预训练的MT-DNN模型适应任何新任务。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6610

    浏览量

    104157
  • 神经网络
    +关注

    关注

    42

    文章

    4773

    浏览量

    100885
  • 深度学习
    +关注

    关注

    73

    文章

    5507

    浏览量

    121266

原文标题:10大任务超越BERT,微软提出多任务深度神经网络MT-DNN

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    深度学习中的卷积神经网络模型

    深度学习近年来在多个领域取得了显著的进展,尤其是在图像识别、语音识别和自然语言处理等方面。卷积神经网络作为深度学习的分支,因其在图像处理
    的头像 发表于 11-15 14:52 364次阅读

    FPGA在深度神经网络中的应用

    随着人工智能技术的飞速发展,深度神经网络(Deep Neural Network, DNN)作为其核心算法之,在图像识别、语音识别、自然语言处理等领域取得了显著成果。然而,传统的
    的头像 发表于 07-24 10:42 718次阅读

    不同类型神经网络在回归任务中的应用

    神经网络种强大的机器学习模型,可以用于各种任务,包括回归。在本文中,我们将讨论不同类型的神经网络,以及它们在回归
    的头像 发表于 07-11 10:27 1350次阅读

    pytorch中有神经网络模型

    处理、语音识别等领域取得了显著的成果。PyTorch是开源的深度学习框架,由Facebook的AI研究团队开发。它以其易用性、灵活性和高效性而受到广泛欢迎。在PyTorch中,有许
    的头像 发表于 07-11 09:59 723次阅读

    PyTorch神经网络模型构建过程

    PyTorch,作为广泛使用的开源深度学习库,提供了丰富的工具和模块,帮助开发者构建、训练和部署神经网络模型。在
    的头像 发表于 07-10 14:57 522次阅读

    深度神经网络(DNN)架构解析与优化策略

    深度神经网络(Deep Neural Network, DNN)作为机器学习领域中的种重要技术,以其强大的特征学习能力和非线性建模能力,在多个领域取得了显著成果。
    的头像 发表于 07-09 11:00 1972次阅读

    BP神经网络属于DNN

    深度神经网络(Deep Neural Network,简称DNN)则是指具有多个隐藏层的神经网络,可以处理复杂的数据和任务。那么,BP
    的头像 发表于 07-03 10:18 805次阅读

    bp神经网络深度神经网络

    Network)有相似之处,但它们之间还是存在些关键的区别。 、引言 神经网络种模拟人脑神经元结构的计算
    的头像 发表于 07-03 10:14 872次阅读

    构建神经网络模型方法有几种

    构建神经网络模型深度学习领域的核心任务。本文将详细介绍构建神经网络
    的头像 发表于 07-02 10:15 363次阅读

    深度神经网络模型cnn的基本概念、结构及原理

    深度神经网络模型CNN(Convolutional Neural Network)是种广泛应用于图像识别、视频分析和自然语言处理等领域的深度
    的头像 发表于 07-02 10:11 9776次阅读

    深度神经网络有哪些主要模型?各自的优势和功能是什么?

    神经网络模型及其优势和功能: 多层感知器(Multilayer Perceptron, MLP) 多层感知器是种基本的深度神经网络,由多个
    的头像 发表于 07-02 10:01 2839次阅读

    深度神经网络模型有哪些

    深度神经网络(Deep Neural Networks,DNNs)是类具有多个隐藏层的神经网络,它们在许多领域取得了显著的成功,如计算机视觉、自然语言处理、语音识别等。以下是
    的头像 发表于 07-02 10:00 1508次阅读

    利用深度循环神经网络对心电图降噪

    进行训练。我们还研究了使用合成数据 集如何影响网络性能。 我们建议使用深度循环去噪神经网络(DRDNN) 对心电图信号进行去噪。它们是
    发表于 05-15 14:42

    助听器降噪神经网络模型

    抑制任务是语音增强领域的重要学科, 随着深度神经网络的兴起,提出了几种基于
    发表于 05-11 17:15

    详解深度学习、神经网络与卷积神经网络的应用

    在如今的网络时代,错综复杂的大数据和网络环境,让传统信息处理理论、人工智能与人工神经网络都面临巨大的挑战。近些年,深度学习逐渐走进人们的视线,通过
    的头像 发表于 01-11 10:51 2212次阅读
    详解<b class='flag-5'>深度</b>学习、<b class='flag-5'>神经网络</b>与卷积<b class='flag-5'>神经网络</b>的应用