0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

XLNet vs BERT,对比得明明白白!

WpOh_rgznai100 来源:lq 2019-07-27 07:14 次阅读

【导语】几周前,XLNet 团队发布了新型预训练语言模型 XLNet,这个新模型在各项基准测试中都优于谷歌之前发布的BERT模型,其中模型XLNet-Large 的数据量更是 BERT 模型的 10 倍左右。那 XLnet 和 BERT 到底要选谁?

这次 XLnet 团队进行了一次对比实验,为了确保对比的公正性,在对比实验中作者采用相同的环境和配置,相同的训练数据,并确保在 BERT 和 XLNet 两个模型的训练方法中,几乎每个超参数(hyperparameter)都是相同的,这些超参数都是由 BERT作者发布,并在BERT中使用的。即是说,这些超参数是为BERT模型设计选择的,很可能是针对BERT最优化的,而非XLNet。具体超参数设置如下(两个模型的超参数完全相同):

Batch-size: 256

训练步数:1M

优化器:Adam,学习率 1e-4,warmup 1万,线性衰减

训练语料库:Wikipedia + BooksCorpus,在处理Wikipedia时使用了与BERT repo相同的工具,但出于某种原因,我们的Wiki语料库仅有20亿单词,BERT使用了25亿单词,因此XLNet的训练数据略少于BERT。

模型结构参数:24层,1024个隐层,16 heads

微调(finetuning)超参数搜索空间

此外,作者还修改了一些数据相关的实现细节,以便与BERT模型进行一对一的比较。

在之前的实验中,预训练环节,未被mask的token无法看到分类token CLS和分隔token SEP,而现阶段的实现中可以看到了,与BERT模型保持一致。

在微调环节,与BERT一样,用“BERT格式”取代了普通的 XLNet格式,即使用[CLS, A, SEP, B, SEP]取代了[A, SEP, B, SEP, CLS]。

另外,我们考虑了BERT模型的三种变体,并报告了各个单独任务的最佳微调结果。三种变体如下:

模型1(Model-I):BERT 作者发布的原始BERT模型

模型2(Model-II):同样来自作者的中文全词覆盖模型

模型3(Model-III):由于考虑到下句预测(NSP)可能会影响表现,我们使用BERT已发布的代码针对没有NSP loss的新模型进行了预训练

注意:由于通过不同变体可以获得各个任务的最佳表现,以上设置也许会让BERT模型更占优势。

GLUE 和 SQuAD上的开发设置结果,及 RACE 上的测试设置结果如下(并未使用数据增强、集成或多任务学习):

不同模型对比。XLNet-Large (as in paper)所使用的训练数据更多一些,batch size也稍大。BERT模型,针对每个数据集我们只报告3个变体中微调最优的结果。

表格中有些观测结果非常有趣:

使用相同的数据,以及几乎完全相同的训练方法来训练时,针对所有数据集,XLNet都以相当的优势胜过了BERT模型。

投入10倍多数据(对比XLNet-Large-wikibooks与XLNet-Large)的性能提升,要小于在11个基准测试中将其中8个从BERT模型换成XLNet模型的性能提升。

在某些基准测试(比如CoLA和MRPC)中,使用较少数据训练的模型,其表现要优于使用较多数据训练的模型。

我们相信,从以上结果中我们也许可以得到一些结果了。

XLNet的性能提高了:观测结果1与我们早期基于基础模型的对比实验结果一致,证明在指定相同的训练条件时,XLNet模型要优于BERT模型。

XLNet-Large可以优化到更佳:观测结果2与观测结果3似乎表明,我们之前发布的XLNet-Large(使用更多数据训练)并没有充分利用数据规模。因此,我们会继续研究相关方法,正确扩展使用XLNet模型进行语言预训练的规模。根据目前有限的观测结果,我们推测以下训练细节可能发挥着重要作用:

数据相关:数据规模、数据来源、数据清洗、数据编码、数据格式化

优化相关:学习率(以及计划)、batch size、训练步骤数、优化器

重要的是:这些超参数可能彼此有高阶交互效果。

Facebook AI近期 GLUE 排行榜,可能也说明了训练细节的重要性。

总之,本实验将算法/模型的影响,与类似训练细节、大型计算及大数据这样的其他因素明确分离开来。根据以上结果,XLNet 团队认为:算法与模型至少是与其他因素同等重要的,它们很可能都是实现自然语言理解最终目标所必需的条件。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 代码
    +关注

    关注

    30

    文章

    4708

    浏览量

    68176
  • 语言模型
    +关注

    关注

    0

    文章

    496

    浏览量

    10234
  • 数据集
    +关注

    关注

    4

    文章

    1200

    浏览量

    24608

原文标题:XLNet:公平PK,BERT你已经被超过!

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    U盘免费检测软件_闪存盘测试工具v2.09绿色版【明明白白买U盘】

    检测软件_闪存盘测试工具v2.09绿色版【明明白白买U盘】</strong></font><br/><
    发表于 04-13 12:35

    LabVIEW入门与提高范例教程

    `这个年代上个图,看个明明白白比什么都重要,只有眼睛看到的才会稍微有点真实感,你下载了才会真的觉得真实,不参假!~~由于论坛上传附件有要求,只能把他分为四个部分,请谅解谢谢[hide][/hide]`
    发表于 10-21 10:17

    太厉害了,终于有人能把IGBT讲得明明白白

    太厉害了,终于有人能把IGBT讲得明明白白资料分享来自网络资源
    发表于 09-22 22:14

    介绍XLNet的原理及其与BERT的不同点

    1、什么是XLNet?  首先,XLNet是一个类似于bert的模型,而不是一个完全不同的模型。但它是一个非常有前途和潜力的。总之,XLNet是一种广义的自回归预训练方法。  那么,什
    发表于 11-01 15:29

    了解画面比例,明明白白选购投影幕

    了解画面比例,明明白白选购投影幕  随着时代的发展,投影幕已经成为了不少人构建家庭影院必定选购的商品。可是面对不同比例的投影幕,比
    发表于 02-10 10:33 586次阅读

    明明白白C指针

    发表于 09-04 20:51 0次下载

    明明白白学C#(大学霸)

    这本C#教程从入门到精通,非常适合国人的学习习惯,能够帮助您在最短时间内掌握C#学习,简洁明了,如果有需要的话,大家可以下载了
    发表于 05-06 15:06 0次下载

    PSoC 4XX8 BLE 4.2系列数据手册

    很不错的psoc4数据手册,明明白白,清清楚楚。
    发表于 12-10 13:55 11次下载

    你是嵌入式硬件设计的大神还是小白?

    提到“嵌入式”,想必各位攻城狮都不会陌生,今儿不管您水平几何,咱们一起聊聊这“嵌入式”,大神&小白,您自个儿就明明白白
    的头像 发表于 09-18 17:51 3337次阅读
    你是嵌入式硬件设计的大神还是小白?

    碾压Bert?“屠榜”的XLnet对NLP任务意味着什么

    张俊林新作,一文带你剖析XLnet的运行机制,与BERT对比异同。
    的头像 发表于 06-25 14:11 2469次阅读

    XLNetBert比,有什么不同?要进行改进吗?

    本文首先讲讲我对XLNetBert比,有什么异同?有什么模型方面的改进?的理解
    的头像 发表于 07-26 14:39 5089次阅读
    <b class='flag-5'>XLNet</b>和<b class='flag-5'>Bert</b>比,有什么不同?要进行改进吗?

    语言建模中XLNetBERT好在哪里

    XLNet可能会改变语言建模,这就是为什么它是任何NLP从业者的重要补充。在本文中,我们将讨论XLNet背后的原理,它使它比BERT更好。为了更好地理解它,我们还将研究它之前的相关技术。
    的头像 发表于 04-20 09:30 2538次阅读

    什么是XLNet,它为什么比BERT效果好

    介绍最基本的XLNet的原理,理解XLNetBERT的直觉上的不同点。作者:Xu LIANG编译:ronghuaiyang首发:AI公园公众号
    的头像 发表于 12-10 19:10 668次阅读

    基于serialX串口驱动移植freemodbus

    之前,笔者写过多篇 serialX 的文章,已经把它的原理和理念完完全全明明白白讲了,包括它的优势以及使用它需要注意的方面和可能遇到的问题。
    的头像 发表于 10-13 14:54 738次阅读

    为什么国外喜欢使用lora?看完你就明明白白!

    近年来,随着物联网的快速发展,各种无线通信技术也得到了广泛应用。其中,LoRa技术以其独特的优势脱颖而出,在欧美等发达国家和地区备受青睐。 LoRa是一种基于扩频技术的超远距离无线通信方案,由Semtech公司开发,并由LoRa联盟制定开放标准LoRaWAN。它工作在免费的ISM频段,如欧洲的433MHz和868MHz,美国的915MHz等,无需申请昂贵的频谱资源。 LoRa最大的特点就是超低功耗和超长距离。得益于扩频技术,LoRa发射功率可低至20mW,电池供电的终端设备可以工作5-10年之久。传
    的头像 发表于 07-02 09:06 385次阅读