三种LM任务形式：单向LM，双向LM，序列到序列LM-电子发烧友网

今天分享一个论文UniLM[1]，核心点是掌握三种LM任务形式：单向LM，双向LM，序列到序列LM；

1. 生成任务

NLP任务大致可以分为NLU和NLG两种；Bert在NLU任务上效果很好，但是天生不适合处理生成任务。

原因在于Bert的预训练过程是使用的MLM，和生成任务的目标并不一致。

生成任务目标是每次蹦出来一个词，只能看到当前位置之前的词汇。

而Bert采用的是双向的语言模型，除了mask的单词，两个方向的词汇都可以被看到。

所以对Bert的一个改进思路就是让它在具有NLU能力的时候，同时兼备NLG能力。

2. 三种LM任务

UniLM做的就是这样一个事情。

具体的实现方式是设计了一系列的完形填空任务，这些完形填空任务的不同之处在于对上下文的定义。

从左到右的LM：使用mask单词的左侧单词来预测被遮掩的单词

从右到左的LM：和上面第一个相比就是方向的变化，使用mask单词的右侧单词来预测遮掩的单词

双向LM：就是当前mask的左右词汇都可以看到

sequence-to-sequence LM：这个就是UniLM能够具有生成能力的关键。我们的输入是source句子和target句子，mask单词在target上，那么当前mask的上下文就是source句子的所有单词和target句子中mask单词左侧的词汇可以被看到

我们把从左到右LM和从右到左LM我们归为一种任务叫单向LM；

有个点需要注意，三个任务是一起优化的，具体来讲是这样做的：

在训练的时候，1/3的时候使用双向LM，1/3的时候使用序列到序列 LM，1/6的时候使用从左到右的LM，1/6的时间使用从右到做的LM。

我们是使用不同的Mask矩阵来对应不同任务输入数据形式。

文中使用的是这样一张图来展示：

UniLM不同mask

3. 其他细枝末节

Gelu 激励函数

24层TRM，最大长度512，1024Hidden Size，16Heads，340M参数量

初始化使用Bert Large

15%被mask，其中80%真正替换mask，10%随机替换，10%不动。替换的时候，80% 的时候替换单个token，20%的时候替换bigram 或者 trigram

第四个步骤类似中文实体词的mask，也算是一点改进。

有个细节点需要注意的是，作者强调，不同的segment embedding用来区分不同LM任务。

Bert的时候，区分上下句子，我们使用0和1，在这里，我们使用这个segment embedding用来区分任务：

比如说，双向对应0和1；单向left-right对应2；单向right-left对应3；序列对应4和5；

4. 总结

掌握以下几个细节点就可以：

联合训练三种任务：单向LM，双向LM，序列LM

使用不同的attention矩阵控制三种任务形式的参与

segment embedding可以区分不同的任务形式

mask的时候15% 的有被替换的概率，其中80% 被真正替换。在这80%真正替换的里面有80%单个token被替换，20%的二元或者三元tokens被替换

参考资料

[1]

Unified Language Model Pre-training for Natural Language Understanding and Generation: https://arxiv.org/pdf/1905.03197.pdf,

责任编辑：xj

原文标题：如何让BERT具有文本生成能力

文章出处：【微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

自然语言

自然语言

+关注

关注
1

文章
288

浏览量
13351
nlp

nlp

+关注

关注
1

文章
488

浏览量
22039

原文标题：如何让BERT具有文本生成能力

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

LM74810评估模块：LM74810EVM

电子发烧友网站提供《LM74810评估模块：LM74810EVM.pdf》资料免费下载

发表于 11-29 16:28 •0次下载

<b class='flag-5'>LM</b>74810评估模块：<b class='flag-5'>LM</b>74810EVM

LM74800评估模块：LM74800EVM-CD

电子发烧友网站提供《LM74800评估模块：LM74800EVM-CD.pdf》资料免费下载

发表于 11-29 16:27 •0次下载

<b class='flag-5'>LM</b>74800评估模块：<b class='flag-5'>LM</b>74800EVM-CD

LM324和LM358器件应用设计指南

电子发烧友网站提供《LM324和LM358器件应用设计指南.pdf》资料免费下载

发表于 09-04 10:58 •7次下载

<b class='flag-5'>LM</b>324和<b class='flag-5'>LM</b>358器件应用设计指南

LM339能用LM324代替吗

LM339简介 LM339是一款四路比较器集成电路，由美国国家半导体公司（National Semiconductor）生产。它具有以下特点： 1.1. 四路比较器：LM339包含四个独立的比较器

发表于 08-26 17:07 •1317次阅读

LM148、LM248和LM348运算放大器数据表

电子发烧友网站提供《LM148、LM248和LM348运算放大器数据表.pdf》资料免费下载

发表于 06-18 11:29 •0次下载

<b class='flag-5'>LM</b>148、<b class='flag-5'>LM</b>248和<b class='flag-5'>LM</b>348运算放大器数据表

LM118-N/LM218-N/LM318-N运算放大器数据表

电子发烧友网站提供《LM118-N/LM218-N/LM318-N运算放大器数据表.pdf》资料免费下载

发表于 06-13 10:09 •0次下载

<b class='flag-5'>LM</b>118-N/<b class='flag-5'>LM</b>218-N/<b class='flag-5'>LM</b>318-N运算放大器数据表

LM101A/LM201A/LM301A运算放大器数据表

电子发烧友网站提供《LM101A/LM201A/LM301A运算放大器数据表.pdf》资料免费下载

发表于 06-13 10:06 •0次下载

<b class='flag-5'>LM</b>101A/<b class='flag-5'>LM</b>201A/<b class='flag-5'>LM</b>301A运算放大器数据表

LM118、LM218和LM318精密、快速运算放大器数据表

电子发烧友网站提供《LM118、LM218和LM318精密、快速运算放大器数据表.pdf》资料免费下载

发表于 06-12 10:47 •0次下载

<b class='flag-5'>LM</b>118、<b class='flag-5'>LM</b>218和<b class='flag-5'>LM</b>318精密、快速运算放大器数据表

LM321LV、LM358LV、LM324LV运算放大器数据表

电子发烧友网站提供《LM321LV、LM358LV、LM324LV运算放大器数据表.pdf》资料免费下载

发表于 06-04 09:23 •4次下载

<b class='flag-5'>LM</b>321LV、<b class='flag-5'>LM</b>358LV、<b class='flag-5'>LM</b>324LV运算放大器数据表

LM339、LM239、LM139、LM2901 四路差分比较器数据表

电子发烧友网站提供《LM339、LM239、LM139、LM2901 四路差分比较器数据表.pdf》资料免费下载

发表于 05-07 16:20 •0次下载

有关LM3914N和LM3914N-1应用的疑问

据手册中，LM3914N-1的封装形式按NS叫法为NA18A，LM3914N的封装形式按NS叫法为N18A。仅此而已，在数据手册中再无别的区别。三

发表于 04-28 11:36

1A降压稳压器LM1575/LM2575/LM2575HV数据表

电子发烧友网站提供《1A降压稳压器LM1575/LM2575/LM2575HV数据表.pdf》资料免费下载

发表于 03-28 13:50 •1次下载

三电压轨简单电源序列发生器LM3880-Q1 数据表

电子发烧友网站提供《三电压轨简单电源序列发生器LM3880-Q1 数据表.pdf》资料免费下载

发表于 03-27 13:50 •0次下载

三电压轨简单电源序列发生器LM3880数据表

电子发烧友网站提供《三电压轨简单电源序列发生器LM3880数据表.pdf》资料免费下载

发表于 03-26 13:45 •0次下载

lm358电压上限和下限比较 LM358和LM358P区别是什么

LM358的电压上限为32V，而下限为0V。LM358与LM358P的主要区别在于它们的制造工艺和一些电气特性。

发表于 01-28 17:16 •1.1w次阅读

搜索历史

三种LM任务形式：单向LM，双向LM，序列到序列LM

评论