微软新研究提出一个新的多任务深度神经网络模型—

微软新研究提出一个新的多任务深度神经网络模型——MT-DNN。MT-DNN结合了BERT的优点，并在10大自然语言理解任务上超越了BERT，在多个流行的基准测试中创造了新的最先进的结果。

语言嵌入是将自然语言符号文本(如单词、短语和句子)映射到语义向量表示的过程。这是自然语言理解(NLU)深度学习方法的基础。学习对多个NLU任务通用的语言嵌入是非常必要的。

学习语言嵌入有两种流行方法，分别是语言模型预训练和多任务学习(MTL)。前者通过利用大量未标记的数据学习通用语言嵌入，但MTL可以有效地利用来自许多相关任务的有监督数据，并通过减轻对特定任务的过度拟合，从正则化效果中获益，从而使学习的嵌入在任务之间具有通用性。

最近，微软的研究人员发布了一个用于学习通用语言嵌入的多任务深度神经网络模型——MT-DNN。MT-DNN结合了MTL和BERT的语言模型预训练方法的优点，并在10个NLU任务上超越了BERT，在多个流行的NLU基准测试中创造了新的最先进的结果，包括通用语言理解评估(GLUE)、斯坦福自然语言推理(SNLI)和SciTail。

MT-DNN的架构

MT-DNN扩展了微软在2015年提出的多任务DNN模型(Multi-Task DNN)，引入了谷歌AI开发的预训练双向transformer语言模型BERT。

MT-DNN架构

MT-DNN模型的架构如上图所示。低层在所有任务之间共享，而顶层是特定于任务的。输入X可以是一个句子或一对句子，其中的每个单词都先被表示为一个嵌入向量序列，表示为l_1。

然后，基于transformer的编码器捕获每个单词的上下文信息，并在l_2中生成共享的上下文嵌入向量。

最后，对于每个任务，额外的 task-speciﬁc 的层生成特定于任务的表示，然后是分类、相似度评分或相关性排序所需的操作。MT-DNN使用BERT来初始化它的共享层，然后通过MTL改进它们。

领域自适应结果

评估语言嵌入的通用性的一种方法是测量嵌入适应新任务的速度，或者需要多少特定于任务的标签才能在新任务上获得不错的结果。越通用的嵌入，它需要的特定于任务的标签就越少。

MT-DNN论文的作者将MT-DNN与BERT在领域自适应(domain adaption)方面的表现进行了比较。

在域适应方面，两种模型都通过逐步增加域内数据(in-domain data)的大小来适应新的任务。

SNLI和SciTail任务的结果如下表和图所示。可以看到，在只有0.1%的域内数据(SNLI中为549个样本，SciTail中为23个样本)的条件下，MT-DNN的准确率超过80%，而BERT的准确率在50%左右，这说明MT-DNN学习的语言嵌入比BERT的更加通用。

与BERT相比，MT-DNN在SNLI和SciTail数据集上的精度更高。

在GLUE、SNLI和SciTail 3个benchmarks上的结果

在GLUE测试集的结果，MT-DNN在10个任务上的结果均超越了BERT

模型开源

微软已经在GitHub开源MT-DNN包，其中包含了预训练的模型、源代码，并描述了如何重现MT-DNN论文中报告的结果，以及如何通过domain adaptation使预训练的MT-DNN模型适应任何新任务。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

微软

微软

+关注

关注
4

文章
6642

浏览量
104793
神经网络

神经网络

+关注

关注
42

文章
4789

浏览量
101528
深度学习

深度学习

+关注

关注
73

文章
5527

浏览量
121833

原文标题：10大任务超越BERT，微软提出多任务深度神经网络MT-DNN

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

BP神经网络与深度学习的关系

），是一种多层前馈神经网络，它通过反向传播算法进行训练。BP神经网络由输入层、一个或多个隐藏层和输出层组成，通过逐层递减的方式调整

发表于 02-12 15:15 •238次阅读

深度学习中的卷积神经网络模型

深度学习近年来在多个领域取得了显著的进展，尤其是在图像识别、语音识别和自然语言处理等方面。卷积神经网络作为深度学习的一个分支，因其在图像处理

发表于 11-15 14:52 •467次阅读

FPGA在深度神经网络中的应用

随着人工智能技术的飞速发展，深度神经网络（Deep Neural Network, DNN）作为其核心算法之一，在图像识别、语音识别、自然语言处理等领域取得了显著成果。然而，传统的

发表于 07-24 10:42 •888次阅读

不同类型神经网络在回归任务中的应用

神经网络是一种强大的机器学习模型，可以用于各种任务，包括回归。在本文中，我们将讨论不同类型的神经网络，以及它们在回归

发表于 07-11 10:27 •1539次阅读

pytorch中有神经网络模型吗

处理、语音识别等领域取得了显著的成果。PyTorch是一个开源的深度学习框架，由Facebook的AI研究团队开发。它以其易用性、灵活性和高效性而受到广泛欢迎。在PyTorch中，有许

发表于 07-11 09:59 •962次阅读

PyTorch神经网络模型构建过程

PyTorch，作为一个广泛使用的开源深度学习库，提供了丰富的工具和模块，帮助开发者构建、训练和部署神经网络模型。在

发表于 07-10 14:57 •622次阅读

深度神经网络(DNN)架构解析与优化策略

深度神经网络（Deep Neural Network, DNN）作为机器学习领域中的一种重要技术，以其强大的特征学习能力和非线性建模能力，在多个领域取得了显著成果。

发表于 07-09 11:00 •2579次阅读

BP神经网络属于DNN吗

深度神经网络（Deep Neural Network，简称DNN）则是指具有多个隐藏层的神经网络，可以处理复杂的数据和任务。那么，BP

发表于 07-03 10:18 •942次阅读

bp神经网络是深度神经网络吗

Network）有相似之处，但它们之间还是存在一些关键的区别。一、引言 神经网络是一种模拟人脑神经元结构的计算

发表于 07-03 10:14 •1023次阅读

构建神经网络模型方法有几种

构建神经网络模型是深度学习领域的核心任务之一。本文将详细介绍构建神经网络

发表于 07-02 10:15 •521次阅读

深度神经网络模型cnn的基本概念、结构及原理

深度神经网络模型CNN（Convolutional Neural Network）是一种广泛应用于图像识别、视频分析和自然语言处理等领域的深度

发表于 07-02 10:11 •1w次阅读

深度神经网络有哪些主要模型?各自的优势和功能是什么?

神经网络模型及其优势和功能：多层感知器（Multilayer Perceptron, MLP）多层感知器是一种基本的深度神经网络，由多个

发表于 07-02 10:01 •3262次阅读

深度神经网络模型有哪些

深度神经网络（Deep Neural Networks，DNNs）是一类具有多个隐藏层的神经网络，它们在许多领域取得了显著的成功，如计算机视觉、自然语言处理、语音识别等。以下是

发表于 07-02 10:00 •1786次阅读

利用深度循环神经网络对心电图降噪

进行训练。我们还研究了使用合成数据集如何影响网络性能。我们建议使用深度循环去噪神经网络（DRDNN）对心电图信号进行去噪。它们是一种

发表于 05-15 14:42

助听器降噪神经网络模型

抑制任务是语音增强领域的一个重要学科, 随着深度神经网络的兴起，提出了几种基于

发表于 05-11 17:15

搜索历史

微软新研究提出一个新的多任务深度神经网络模型——MT-DNN

评论