微软在ICML 2019上提出了一个全新的通用预训练方法MASS-电子发烧友网

微软亚洲研究院的研究员在 ICML 2019 上提出了一个全新的通用预训练方法 MASS，在序列到序列的自然语言生成任务中全面超越 BERT 和 GPT。本文带来论文作者的技术解读。

从 2018 年开始，预训练（pre-train）毫无疑问成为 NLP 领域最热的研究方向。

借助于 BERT 和 GPT 等预训练模型，人类在多个自然语言理解任务中取得了重大突破。然而，在序列到序列的自然语言生成任务中，目前主流预训练模型并没有取得显著效果。

为此，微软亚洲研究院的研究员在 ICML 2019 上提出了一个全新的通用预训练方法 MASS，在序列到序列的自然语言生成任务中全面超越 BERT 和 GPT。在微软参加的 WMT19 机器翻译比赛中，MASS 帮助中 - 英、英 - 立陶宛两个语言对取得了第一名的成绩。

BERT 在自然语言理解（比如情感分类、自然语言推理、命名实体识别、SQuAD 阅读理解等）任务中取得了很好的结果，受到了越来越多的关注。然而，在自然语言处理领域，除了自然语言理解任务，还有很多序列到序列的自然语言生成任务，比如机器翻译、文本摘要生成、对话生成、问答、文本风格转换等。在这类任务中，目前主流的方法是编码器 - 注意力 - 解码器框架，如下图所示。

编码器 - 注意力 - 解码器框架

编码器（Encoder）将源序列文本 X 编码成隐藏向量序列，然后解码器（Decoder）通过注意力机制（Attention）抽取编码的隐藏向量序列信息，自回归地生成目标序列文本 Y。

BERT 通常只训练一个编码器用于自然语言理解，而 GPT 的语言模型通常是训练一个解码器。如果要将 BERT 或者 GPT 用于序列到序列的自然语言生成任务，通常只有分开预训练编码器和解码器，因此编码器 - 注意力 - 解码器结构没有被联合训练，记忆力机制也不会被预训练，而解码器对编码器的注意力机制在这类任务中非常重要，因此 BERT 和 GPT 在这类任务中只能达到次优效果。

新的预训练方法 ——MASS

专门针对序列到序列的自然语言生成任务，微软亚洲研究院提出了新的预训练方法：屏蔽序列到序列预训练（MASS: Masked Sequence to Sequence Pre-training）。MASS 对句子随机屏蔽一个长度为 k 的连续片段，然后通过编码器 - 注意力 - 解码器模型预测生成该片段。

屏蔽序列到序列预训练 MASS 模型框架

如上图所示，编码器端的第 3-6 个词被屏蔽掉，然后解码器端只预测这几个连续的词，而屏蔽掉其它词，图中 “_” 代表被屏蔽的词。

MASS 预训练有以下几大优势：

（1）解码器端其它词（在编码器端未被屏蔽掉的词）都被屏蔽掉，以鼓励解码器从编码器端提取信息来帮助连续片段的预测，这样能促进编码器 - 注意力 - 解码器结构的联合训练；

（2）为了给解码器提供更有用的信息，编码器被强制去抽取未被屏蔽掉词的语义，以提升编码器理解源序列文本的能力；

（3）让解码器预测连续的序列片段，以提升解码器的语言建模能力。

统一的预训练框架

MASS 有一个重要的超参数 k（屏蔽的连续片段长度），通过调整 k 的大小，MASS 能包含 BERT 中的屏蔽语言模型训练方法以及 GPT 中标准的语言模型预训练方法，使 MASS 成为一个通用的预训练框架。

当 k=1 时，根据 MASS 的设定，编码器端屏蔽一个单词，解码器端预测一个单词，如下图所示。解码器端没有任何输入信息，这时 MASS 和 BERT 中的屏蔽语言模型的预训练方法等价。

当 k=m（m 为序列长度）时，根据 MASS 的设定，编码器屏蔽所有的单词，解码器预测所有单词，如下图所示，由于编码器端所有词都被屏蔽掉，解码器的注意力机制相当于没有获取到信息，在这种情况下 MASS 等价于 GPT 中的标准语言模型。

MASS 在不同 K 下的概率形式如下表所示，其中 m 为序列长度，u 和 v 为屏蔽序列的开始和结束位置，x^u:v 表示从位置 u 到 v 的序列片段，x^\u:v 表示该序列从位置 u 到 v 被屏蔽掉。可以看到，当K=1 或者 m 时，MASS 的概率形式分别和 BERT 中的屏蔽语言模型以及 GPT 中的标准语言模型一致。

我们通过实验分析了屏蔽 MASS 模型中不同的片段长度（k）进行预训练的效果，如下图所示。

当 k 取大约句子长度一半时（50% m），下游任务能达到最优性能。屏蔽句子中一半的词可以很好地平衡编码器和解码器的预训练，过度偏向编码器（k=1，即 BERT）或者过度偏向解码器（k=m，即 LM/GPT）都不能在该任务中取得最优的效果，由此可以看出 MASS 在序列到序列的自然语言生成任务中的优势。

序列到序列自然语言生成任务实验

预训练流程

MASS 只需要无监督的单语数据（比如 WMT News Crawl Data、Wikipedia Data 等）进行预训练。MASS 支持跨语言的序列到序列生成（比如机器翻译），也支持单语言的序列到序列生成（比如文本摘要生成、对话生成）。当预训练 MASS 支持跨语言任务时（比如英语 - 法语机器翻译），我们在一个模型里同时进行英语到英语以及法语到法语的预训练。需要单独给每个语言加上相应的语言嵌入向量，用来区分不同的语言。我们选取了无监督机器翻译、低资源机器翻译、文本摘要生成以及对话生成四个任务，将 MASS 预训练模型针对各个任务进行精调，以验证 MASS 的效果。

无监督机器翻译

在无监督翻译任务上，我们和当前最强的 Facebook XLM 作比较（XLM 用 BERT 中的屏蔽预训练模型，以及标准语言模型来分别预训练编码器和解码器），对比结果如下表所示。

可以看到，MASS 的预训练方法在 WMT14 英语 - 法语、WMT16 英语 - 德语一共 4 个翻译方向上的表现都优于 XLM。MASS 在英语 - 法语无监督翻译上的效果已经远超早期有监督的编码器 - 注意力 - 解码器模型，同时极大缩小了和当前最好的有监督模型之间的差距。

低资源机器翻译

低资源机器翻译指的是监督数据有限情况下的机器翻译。我们在 WMT14 英语 - 法语、WMT16 英语 - 德语上的不同低资源场景上（分别只有 10K、100K、1M 的监督数据）验证我们方法的有效性，结果如下所示。

在不同的数据规模下，我们的预训练方法的表现均比不用预训练的基线模型有不同程度的提升，监督数据越少，提升效果越显著。

文本摘要生成

在文本摘要生成（Gigaword Corpus）任务上，我们将 MASS 同 BERT+LM（编码器用 BERT 预训练，解码器用标准语言模型 LM 预训练）以及 DAE（去噪自编码器）进行了比较。从下表可以看到，MASS 的效果明显优于 BERT+LM 以及 DAE。

对话生成

在对话生成（Cornell Movie Dialog Corpus）任务上，我们将 MASS 同 BERT+LM 进行了比较，结果如下表所示。MASS 的 PPL 低于 BERT+LM。

在不同的序列到序列自然语言生成任务中，MASS 均取得了非常不错的效果。接下来，我们还将测试 MASS 在自然语言理解任务上的性能，并为该模型增加支持监督数据预训练的功能，以期望在更多自然语言任务中取得提升。未来，我们还希望将 MASS 的应用领域扩展到包含语音、视频等其它序列到序列的生成任务中。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

微软

微软

+关注

关注
4

文章
6599

浏览量
104094
编码器

编码器

+关注

关注
45

文章
3645

浏览量
134564
自然语言

自然语言

+关注

关注
1

文章
288

浏览量
13351

原文标题：【ICML 2019】微软最新通用预训练模型MASS，超越BERT、GPT！

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

KerasHub统一、全面的预训练模型库

深度学习领域正在迅速发展，在处理各种类型的任务中，预训练模型变得越来越重要。Keras 以其用户友好型 API 和对易用性的重视而闻名，始终处于这一动向的前沿。Keras 拥有专用的内

发表于 12-20 10:32 •107次阅读

LLM和传统机器学习的区别

和训练方法 LLM：预训练和微调： LLM通常采用预训练（Pre-training）和微调（Fine-tuning）的

发表于 11-08 09:25 •516次阅读

使用PyTorch在英特尔独立显卡上训练模型

《PyTorch 2.5重磅更新：性能优化+新特性》中的一个新特性就是：正式支持在英特尔独立显卡上训练模型！

发表于 11-01 14:21 •469次阅读

使用PyTorch<b class='flag-5'>在</b>英特尔独立显卡<b class='flag-5'>上</b><b class='flag-5'>训练</b>模型

直播预约 |数据智能系列讲座第4期：预训练的基础模型下的持续学习

神经网络，特别是预训练的基础模型研究得到了广泛的应用，但其仍然主要依赖于在大量样本上的批量式训练。本报告将探讨实现模型的增量式

发表于 10-18 08:09 •232次阅读

直播预约 |数据智能系列讲座第4期：<b class='flag-5'>预</b><b class='flag-5'>训练</b>的基础模型下的持续学习

苹果揭示AI新动向:Apple Intelligence模型在谷歌云端芯片上预训练

苹果公司在最新的技术论文中披露了一项重要信息，其全新的人工智能系统Apple Intelligence所依赖的模型并非传统上大型科技公司首选的NVIDIA GPU，而是选择了

发表于 07-30 15:00 •552次阅读

ai大模型训练方法有哪些？

AI大模型训练方法是一个复杂且不断发展的领域。以下是ai大模型训练方法：数据预处理和增强数据清洗：去除噪声和不完整的数据。数据标准化：将数据缩放到统

发表于 07-16 10:11 •1514次阅读

预训练和迁移学习的区别和联系

预训练和迁移学习是深度学习和机器学习领域中的两个重要概念，它们在提高模型性能、减少训练时间和降低对数据量的需求方面发挥着关键作用。本文将从定

发表于 07-11 10:12 •1075次阅读

大语言模型的预训练

能力，逐渐成为NLP领域的研究热点。大语言模型的预训练是这一技术发展的关键步骤，它通过在海量无标签数据上进行训练，使模型学习到语言的

发表于 07-11 10:11 •438次阅读

LLM预训练的基本概念、基本原理和主要优势

在人工智能和自然语言处理（NLP）领域，大型语言模型（Large Language Model，简称LLM）的兴起极大地推动了技术的进步和应用的发展。LLM通过在大规模文本数据上进行预训练

发表于 07-10 11:03 •1081次阅读

预训练模型的基本原理和应用

预训练模型（Pre-trained Model）是深度学习和机器学习领域中的一个重要概念，尤其是在自然语言处理（NLP）和计算机视觉（CV）

发表于 07-03 18:20 •2870次阅读

【大语言模型：原理与工程实践】大语言模型的预训练

数据格式的转换、数据字段的匹配和整合等。通过数据级净化，可以进一步提高数据的质量和可用性，为后续的数据分析和建模提供更有价值的数据支持。在得到了大语言模型的数据之后，就是对其进行预训练

发表于 05-07 17:10

【大语言模型：原理与工程实践】大语言模型的基础技术

处理各种自然语言任务时都表现出了惊人的能力。这促使一个新的研究方向诞生——基于Transformer 的预训练语言模型。这类模型的核心思想是

发表于 05-05 12:17

谷歌模型训练软件有哪些功能和作用

谷歌模型训练软件主要是指ELECTRA，这是一种新的预训练方法，源自谷歌AI。ELECTRA不仅拥有BERT的优势，而且在效率

发表于 02-29 17:37 •794次阅读

混合专家模型 (MoE)核心组件和训练方法介绍

) 的 Transformer 模型在开源人工智能社区引起了广泛关注。在本篇博文中，我们将深入探讨 MoEs 的核心组件、训练方法，以及在推理过程中需要考量的各种因素。让我们开始吧！

发表于 01-13 09:37 •1266次阅读

顶刊TIP 2023！浙大提出：基于全频域通道选择的的无监督异常检测

Density-based方法：基于密度的方法通常采用预训练的模型来提取输入图像的有意义嵌入向量，测试图像时通过计算嵌入表示与参考表示分布之间的相似度以得到异常分数。这种

发表于 01-11 16:02 •1321次阅读

搜索历史

微软在ICML 2019上提出了一个全新的通用预训练方法MASS

评论

KerasHub统一、全面的预训练模型库

LLM和传统机器学习的区别

使用PyTorch在英特尔独立显卡上训练模型

直播预约 |数据智能系列讲座第4期：预训练的基础模型下的持续学习

苹果揭示AI新动向:Apple Intelligence模型在谷歌云端芯片上预训练

ai大模型训练方法有哪些？

预训练和迁移学习的区别和联系

大语言模型的预训练

LLM预训练的基本概念、基本原理和主要优势

预训练模型的基本原理和应用

【大语言模型：原理与工程实践】大语言模型的预训练

【大语言模型：原理与工程实践】大语言模型的基础技术

谷歌模型训练软件有哪些功能和作用

混合专家模型 (MoE)核心组件和训练方法介绍

顶刊TIP 2023！浙大提出：基于全频域通道选择的的无监督异常检测