0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

微软在ICML 2019上提出了一个全新的通用预训练方法MASS

DPVg_AI_era 来源:lq 2019-05-11 09:19 次阅读

微软亚洲研究院的研究员在 ICML 2019 上提出了一个全新的通用预训练方法 MASS,在序列到序列的自然语言生成任务中全面超越 BERT 和 GPT。本文带来论文作者的技术解读。

从 2018 年开始,预训练(pre-train) 毫无疑问成为 NLP 领域最热的研究方向。

借助于 BERT 和 GPT 等预训练模型,人类在多个自然语言理解任务中取得了重大突破。然而,在序列到序列的自然语言生成任务中,目前主流预训练模型并没有取得显著效果。

为此,微软亚洲研究院的研究员在 ICML 2019 上提出了一个全新的通用预训练方法 MASS,在序列到序列的自然语言生成任务中全面超越 BERT 和 GPT。在微软参加的 WMT19 机器翻译比赛中,MASS 帮助中 - 英、英 - 立陶宛两个语言对取得了第一名的成绩。

BERT 在自然语言理解(比如情感分类、自然语言推理、命名实体识别、SQuAD 阅读理解等)任务中取得了很好的结果,受到了越来越多的关注。然而,在自然语言处理领域,除了自然语言理解任务,还有很多序列到序列的自然语言生成任务,比如机器翻译、文本摘要生成、对话生成、问答、文本风格转换等。在这类任务中,目前主流的方法是编码器 - 注意力 - 解码器框架,如下图所示。

编码器 - 注意力 - 解码器框架

编码器(Encoder)将源序列文本 X 编码成隐藏向量序列,然后解码器(Decoder)通过注意力机制(Attention)抽取编码的隐藏向量序列信息,自回归地生成目标序列文本 Y。

BERT 通常只训练一个编码器用于自然语言理解,而 GPT 的语言模型通常是训练一个解码器。如果要将 BERT 或者 GPT 用于序列到序列的自然语言生成任务,通常只有分开预训练编码器和解码器,因此编码器 - 注意力 - 解码器结构没有被联合训练,记忆力机制也不会被预训练,而解码器对编码器的注意力机制在这类任务中非常重要,因此 BERT 和 GPT 在这类任务中只能达到次优效果。

新的预训练方法 ——MASS

专门针对序列到序列的自然语言生成任务,微软亚洲研究院提出了新的预训练方法:屏蔽序列到序列预训练(MASS: Masked Sequence to Sequence Pre-training)。MASS 对句子随机屏蔽一个长度为 k 的连续片段,然后通过编码器 - 注意力 - 解码器模型预测生成该片段。

屏蔽序列到序列预训练 MASS 模型框架

如上图所示,编码器端的第 3-6 个词被屏蔽掉,然后解码器端只预测这几个连续的词,而屏蔽掉其它词,图中 “_” 代表被屏蔽的词。

MASS 预训练有以下几大优势:

(1)解码器端其它词(在编码器端未被屏蔽掉的词)都被屏蔽掉,以鼓励解码器从编码器端提取信息来帮助连续片段的预测,这样能促进编码器 - 注意力 - 解码器结构的联合训练;

(2)为了给解码器提供更有用的信息,编码器被强制去抽取未被屏蔽掉词的语义,以提升编码器理解源序列文本的能力;

(3)让解码器预测连续的序列片段,以提升解码器的语言建模能力。

统一的预训练框架

MASS 有一个重要的超参数 k(屏蔽的连续片段长度),通过调整 k 的大小,MASS 能包含 BERT 中的屏蔽语言模型训练方法以及 GPT 中标准的语言模型预训练方法,使 MASS 成为一个通用的预训练框架。

当 k=1 时,根据 MASS 的设定,编码器端屏蔽一个单词,解码器端预测一个单词,如下图所示。解码器端没有任何输入信息,这时 MASS 和 BERT 中的屏蔽语言模型的预训练方法等价。

当 k=m(m 为序列长度)时,根据 MASS 的设定,编码器屏蔽所有的单词,解码器预测所有单词,如下图所示,由于编码器端所有词都被屏蔽掉,解码器的注意力机制相当于没有获取到信息,在这种情况下 MASS 等价于 GPT 中的标准语言模型。

MASS 在不同 K 下的概率形式如下表所示,其中 m 为序列长度,u 和 v 为屏蔽序列的开始和结束位置,x^u:v 表示从位置 u 到 v 的序列片段,x^\u:v 表示该序列从位置 u 到 v 被屏蔽掉。可以看到,当K=1 或者 m 时,MASS 的概率形式分别和 BERT 中的屏蔽语言模型以及 GPT 中的标准语言模型一致。

我们通过实验分析了屏蔽 MASS 模型中不同的片段长度(k)进行预训练的效果,如下图所示。

当 k 取大约句子长度一半时(50% m),下游任务能达到最优性能。屏蔽句子中一半的词可以很好地平衡编码器和解码器的预训练,过度偏向编码器(k=1,即 BERT)或者过度偏向解码器(k=m,即 LM/GPT)都不能在该任务中取得最优的效果,由此可以看出 MASS 在序列到序列的自然语言生成任务中的优势。

序列到序列自然语言生成任务实验

预训练流程

MASS 只需要无监督的单语数据(比如 WMT News Crawl Data、Wikipedia Data 等)进行预训练。MASS 支持跨语言的序列到序列生成(比如机器翻译),也支持单语言的序列到序列生成(比如文本摘要生成、对话生成)。当预训练 MASS 支持跨语言任务时(比如英语 - 法语机器翻译),我们在一个模型里同时进行英语到英语以及法语到法语的预训练。需要单独给每个语言加上相应的语言嵌入向量,用来区分不同的语言。我们选取了无监督机器翻译、低资源机器翻译、文本摘要生成以及对话生成四个任务,将 MASS 预训练模型针对各个任务进行精调,以验证 MASS 的效果。

无监督机器翻译

在无监督翻译任务上,我们和当前最强的 Facebook XLM 作比较(XLM 用 BERT 中的屏蔽预训练模型,以及标准语言模型来分别预训练编码器和解码器),对比结果如下表所示。

可以看到,MASS 的预训练方法在 WMT14 英语 - 法语、WMT16 英语 - 德语一共 4 个翻译方向上的表现都优于 XLM。MASS 在英语 - 法语无监督翻译上的效果已经远超早期有监督的编码器 - 注意力 - 解码器模型,同时极大缩小了和当前最好的有监督模型之间的差距。

低资源机器翻译

低资源机器翻译指的是监督数据有限情况下的机器翻译。我们在 WMT14 英语 - 法语、WMT16 英语 - 德语上的不同低资源场景上(分别只有 10K、100K、1M 的监督数据)验证我们方法的有效性,结果如下所示。

在不同的数据规模下,我们的预训练方法的表现均比不用预训练的基线模型有不同程度的提升,监督数据越少,提升效果越显著。

文本摘要生成

在文本摘要生成(Gigaword Corpus)任务上,我们将 MASS 同 BERT+LM(编码器用 BERT 预训练,解码器用标准语言模型 LM 预训练)以及 DAE(去噪自编码器)进行了比较。从下表可以看到,MASS 的效果明显优于 BERT+LM 以及 DAE。

对话生成

在对话生成(Cornell Movie Dialog Corpus)任务上,我们将 MASS 同 BERT+LM 进行了比较,结果如下表所示。MASS 的 PPL 低于 BERT+LM。

在不同的序列到序列自然语言生成任务中,MASS 均取得了非常不错的效果。接下来,我们还将测试 MASS 在自然语言理解任务上的性能,并为该模型增加支持监督数据预训练的功能,以期望在更多自然语言任务中取得提升。未来,我们还希望将 MASS 的应用领域扩展到包含语音、视频等其它序列到序列的生成任务中。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6564

    浏览量

    103944
  • 编码器
    +关注

    关注

    45

    文章

    3584

    浏览量

    134111
  • 自然语言
    +关注

    关注

    1

    文章

    286

    浏览量

    13329

原文标题:【ICML 2019】微软最新通用预训练模型MASS,超越BERT、GPT!

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    LLM和传统机器学习的区别

    训练方法 LLM: 训练和微调: LLM通常采用训练(Pre-training)和微调(Fine-tuning)的
    的头像 发表于 11-08 09:25 253次阅读

    直播预约 |数据智能系列讲座第4期:训练的基础模型下的持续学习

    神经网络,特别是训练的基础模型研究得到了广泛的应用,但其仍然主要依赖于大量样本的批量式训练。本报告将探讨实现模型的增量式
    的头像 发表于 10-18 08:09 154次阅读
    直播预约 |数据智能系列讲座第4期:<b class='flag-5'>预</b><b class='flag-5'>训练</b>的基础模型下的持续学习

    苹果揭示AI新动向:Apple Intelligence模型谷歌云端芯片训练

    苹果公司最新的技术论文中披露了项重要信息,其全新的人工智能系统Apple Intelligence所依赖的模型并非传统大型科技公司首选的NVIDIA GPU,而是选择了
    的头像 发表于 07-30 15:00 478次阅读

    ai大模型训练方法有哪些?

    AI大模型训练方法复杂且不断发展的领域。以下是ai大模型训练方法: 数据预处理和增强 数据清洗:去除噪声和不完整的数据。 数据标准化:将数据缩放到统
    的头像 发表于 07-16 10:11 1339次阅读

    训练和迁移学习的区别和联系

    训练和迁移学习是深度学习和机器学习领域中的两重要概念,它们提高模型性能、减少训练时间和降低对数据量的需求方面发挥着关键作用。本文将从定
    的头像 发表于 07-11 10:12 818次阅读

    大语言模型的训练

    能力,逐渐成为NLP领域的研究热点。大语言模型的训练是这技术发展的关键步骤,它通过海量无标签数据上进行训练,使模型学习到语言的
    的头像 发表于 07-11 10:11 380次阅读

    LLM训练的基本概念、基本原理和主要优势

    人工智能和自然语言处理(NLP)领域,大型语言模型(Large Language Model,简称LLM)的兴起极大地推动了技术的进步和应用的发展。LLM通过大规模文本数据上进行训练
    的头像 发表于 07-10 11:03 991次阅读

    训练模型的基本原理和应用

    训练模型(Pre-trained Model)是深度学习和机器学习领域中的重要概念,尤其是自然语言处理(NLP)和计算机视觉(CV)
    的头像 发表于 07-03 18:20 2304次阅读

    【大语言模型:原理与工程实践】大语言模型的训练

    数据格式的转换、数据字段的匹配和整合等。通过数据级净化,可以进步提高数据的质量和可用性,为后续的数据分析和建模提供更有价值的数据支持。 得到了大语言模型的数据之后,就是对其进行训练
    发表于 05-07 17:10

    【大语言模型:原理与工程实践】大语言模型的基础技术

    处理各种自然语言任务时都表现出了惊人的能力。这促使新的研究方向诞生——基于Transformer 的训练语言模型。这类模型的核心思想是
    发表于 05-05 12:17

    谷歌模型训练软件有哪些功能和作用

    谷歌模型训练软件主要是指ELECTRA,这是种新的训练方法,源自谷歌AI。ELECTRA不仅拥有BERT的优势,而且效率
    的头像 发表于 02-29 17:37 741次阅读

    混合专家模型 (MoE)核心组件和训练方法介绍

    ) 的 Transformer 模型开源人工智能社区引起了广泛关注。本篇博文中,我们将深入探讨 MoEs 的核心组件、训练方法,以及推理过程中需要考量的各种因素。 让我们开始吧!
    的头像 发表于 01-13 09:37 1164次阅读
    混合专家模型 (MoE)核心组件和<b class='flag-5'>训练方法</b>介绍

    种通过视图合成增强训练的2D扩散模型的可扩展技术

    现有的3D物体检测方法通常需要使用完全注释的数据进行训练,而使用训练的语义特征可以带来些优势。
    的头像 发表于 12-14 10:00 414次阅读
    <b class='flag-5'>一</b>种通过视图合成增强<b class='flag-5'>预</b><b class='flag-5'>训练</b>的2D扩散模型的可扩展技术

    详细解读YOLOV7网络架构设计

    YOLOV7提出了辅助头的训练方法,主要目的是通过增加训练成本,提升精度,同时不影响推理的时间,因为辅助头只会出现在
    发表于 11-27 10:45 729次阅读
    详细解读YOLOV7网络架构设计

    用语言对齐多模态信息,北大腾讯等提出LanguageBind,刷新多个榜单

    目前的 VL 训练方法通常仅适用于视觉和语言模态,而现实世界中的应用场景往往包含更多的模态信息,如深度图、热图像等。如何整合和分析不同模态的信息,并且能够多个模态之间建立准确的语义对应关系,成为了多模态领域的
    的头像 发表于 11-23 15:46 666次阅读
    用语言对齐多模态信息,北大腾讯等<b class='flag-5'>提出</b>LanguageBind,刷新多个榜单