0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

了解BERT原理、技术、实践,只需3分钟

DPVg_AI_era 来源:lp 2019-03-01 08:58 次阅读

本文对BERT的原理、技术细节以及如何应用于实际场景中,做了简明扼要的介绍。看完本文相信您会对BERT为什么被认为是当前最好的NLP模型、实现原理以及适用场景有所了解。

目前最好的自然语言预训练方法无疑是BERT。它的工作流程分为两步:

首先,使用大量未标记的数据,以预训练、也就是无人监督的方式学习语言表达。

然后,使用少量经过标记的训练数据对模型进行fine-tune,以监督学习的方式,执行多种监督任务。

预训练机器学习模型已经在包括视觉、自然语言处理在内的各个领域取得了成功。

详解BERT及其原理

BERT是Bidirectional Encoder Representations from Transformers的缩写,是一种新型的语言模型,通过联合调节所有层中的双向Transformer来训练预训练深度双向表示。

它基于谷歌2017年发布的Transformer架构,通常的Transformer使用一组编码器和解码器网络,而BERT只需要一个额外的输出层,对预训练进行fine-tune,就可以满足各种任务,根本没有必要针对特定任务对模型进行修改。

BERT将多个Transformer编码器堆叠在一起。Transformer基于著名的多头注意力(Multi-head Attention)模块,该模块在视觉和语言任务方面都取得了巨大成功。

BERT的先进性基于两点:首先,使用Masked Langauge Model(MLM)和Next Sentense Prediction(NSP)的新预训练任务;其次,大量数据和计算能力满足BERT的训练强度。

相比之下,像Word2Vec、ELMO、OpenAI GPT等传统SOTA生成预训练方法,使用从左到右的单向训练,或者浅双向,均无法做到BERT的双向性。

MLM

MLM可以从文本执行双向学习,即允许模型从单词前后相邻的单词,学习每个单词的上下文,这是传统方法做不到的。

MLM预训练任务将文本转换为符号,并使用符号表示作为训练的输入和输出。15%的符号随机子集在训练期间被屏蔽(类似被隐藏起来),目标函数则用来预测符号识别的正确率。

这与使用单向预测作为目标、或使用从左到右和从右到左训练,来近似双向性的传统训练方法形成了对比。

但是MLM中的BERT屏蔽策略,将模型偏向于实际的单词,还没有数据显示这种偏见对训练所产生的影响。

NSP

NSP使得BERT可以通过预测上下句之间是否连贯来得出句子之间的关系。

给出50%正确上下句配对,并补充50%的随机上下句配对,然后对模型进行训练。

MLM和NSP是同时进行的。

数据和TPU/GPU runtime

BERT的训练总共使用了33亿单词。其中25亿来自维基百科,剩下8亿来自BooksCorpus。

训练使用TPU完成,GPU估算如下所示。

使用2500-392000标记的样品进行fine-tune。重要的是,100K以上训练样本的数据集在各种超参数上表现出强大的性能。

每个fine-tune实验在单个云TPU上运行1小时,在GPU上需要运行几个小时不等。

结果显示,BERT优于11项NLP任务。在SQUAD和SWAG两个任务中,BERT成为第一个超越人类的NLP模型!

BERT能够解决的实际任务类型

BERT预训练了104种语言,已在TensorFlow和Pytorch中实现并开源。Clone地址:

https://github.com/google-research/Bert

BERT可以针对几种类型的任务进行fine-tune。例如文本分类、文本相似性、问答、文本标签、如词性、命名实体识别等。

但是,预训练BERT是很贵的,除非使用类似于Nvidia V100这样的TPU或GPU。

BERT人员还发布了一个单独的多语种模型,该模型使用整个维基百科的100种语言进行训练,性能比单语种的低几个百分点。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    45

    文章

    3645

    浏览量

    134630
  • 自然语言
    +关注

    关注

    1

    文章

    288

    浏览量

    13355
  • nlp
    nlp
    +关注

    关注

    1

    文章

    488

    浏览量

    22049

原文标题:3分钟看懂史上最强NLP模型BERT

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    OPPO闪充,15分钟充满一部手机电量

    在充电5分钟通话两小时的基础上,OPPO又把这项技术提升到了10个小时的高度,2500毫安时电池充电更是只需要15分钟
    发表于 02-24 08:11 3853次阅读

    3分钟带你了解博智慧达激光焊缝跟踪技术

    3分钟带你了解博智慧达激光焊缝跟踪技术
    发表于 08-30 10:58

    3分钟到4小时定时器

    3分钟到4小时定时器:电路原理详见电路图。
    发表于 12-13 22:20 1878次阅读
    <b class='flag-5'>3</b><b class='flag-5'>分钟</b>到4小时定时器

    新型有机电池ORB 充电只需1分钟

     新型有机电池ORB 充电只需1分钟 CNET 科技资讯网8月8日国际报道 NEC的研究人员上周四表示,他们已经开发了一种新型的充电电池。这种电池基
    发表于 11-06 10:44 727次阅读

    深圳现身会炒菜机器人:最快只需3分钟炒好酸辣土豆丝

    炒菜机器人概念并不新,但现在最新产品是它只有迷你冰箱那样大小,最短3分钟炒一道酸辣土豆丝,最长15分钟做一道鲫鱼汤。把菜切好了直接放进机器人的容器中,按下确定键,就能等着吃菜了。
    发表于 11-22 18:34 2178次阅读

    三星改革智能手机充电技术,充满只需分钟

    现在的手机电池续航短的问题一直手机领域研究的重点。近日,三星爆出猛料,宣布已经成功研制出石墨烯电池,以后充电只需要十分钟
    发表于 12-02 11:24 2091次阅读

    华为推出一款快速充电电池,只需5分钟就可以充满50%电量

    关键词:快速充电 , 华为 , 手机充电 快速充电技术正取得重大进展。周五在日本举行的电池会议上,华为推出了一款快速充电电池,只需5分钟就可以充满50%电量。对于容量较低的电池,它只需
    的头像 发表于 02-18 07:02 2320次阅读

    1024块TPU在燃烧!将BERT预训练模型的训练时长从3天缩减到了76分钟

    BERT是一种先进的深度学习模型,它建立在语义理解的深度双向转换器上。当我们增加batch size的大小(如超过8192)时,此前的模型训练技巧在BERT上表现得并不好。BERT预训练也需要很长时间才能完成,如在16个TPUv
    的头像 发表于 04-04 16:27 1.2w次阅读

    OPPO Reno Ace曝光搭载65W超级闪充只需要30分钟就能充满电

    据OPPO介绍,搭载65W闪充的OPPO Reno Ace只需30分钟就能充满电,宣传标语也从以前的“充电5分钟,通话2小时”改成“充电5分钟,开黑2小时”。从此前官方的宣传来看,新机
    发表于 09-25 08:50 1314次阅读

    OPPO Reno 3 Pro将搭载增强版的VOOC 4.0最快56分钟充满电

    VOOC 3.0 30分钟可将手机充满50%,大概70多分钟可将手机全部充满,而VOOC 4.0只需20分钟即可将手机电量充满一半,56分钟
    发表于 12-13 13:55 1165次阅读

    3分钟了解嵌入式的硬件构架资料下载

    电子发烧友网为你提供3分钟了解嵌入式的硬件构架资料下载的电子资料下载,更有其他相关的电路图、源代码、课件教程、中文资料、英文资料、参考设计、用户指南、解决方案等资料,希望可以帮助到广大的电子工程师们。
    发表于 04-04 08:55 3次下载
    <b class='flag-5'>3</b><b class='flag-5'>分钟</b><b class='flag-5'>了解</b>嵌入式的硬件构架资料下载

    3分钟了解ePort关键设计技巧

    ePort-M模块到手,通信接口不了解?TX线需要串接电阻?信号线不懂处理、走线麻烦?3分钟带你了解ePort关键设计技巧,轻松上手!
    的头像 发表于 05-29 12:00 920次阅读
    <b class='flag-5'>3</b><b class='flag-5'>分钟</b><b class='flag-5'>了解</b>ePort关键设计技巧

    3分钟了解ePort关键设计技巧

    ePort-M模块到手,通信接口不了解?TX线需要串接电阻?信号线不懂处理、走线麻烦?3分钟带你了解ePort关键设计技巧,轻松上手!通信接口了解
    的头像 发表于 09-26 11:38 1328次阅读
    <b class='flag-5'>3</b><b class='flag-5'>分钟</b><b class='flag-5'>了解</b>ePort关键设计技巧

    【产品应用】3分钟了解ePort关键设计技巧

    ePort-M模块到手,通信接口不了解?TX线需要串接电阻?信号线不懂处理、走线麻烦?3分钟带你了解ePort关键设计技巧,轻松上手!通信接口了解
    的头像 发表于 06-06 10:17 1255次阅读
    【产品应用】<b class='flag-5'>3</b><b class='flag-5'>分钟</b><b class='flag-5'>了解</b>ePort关键设计技巧

    快乐解说MCU:三分钟,带你了解低功耗MCU

    快乐解说MCU:三分钟,带你了解低功耗MCU
    的头像 发表于 09-18 10:56 1373次阅读