图解2018年领先的两大NLP模型：BERT和ELMo

谷歌推出BERT模型被认为是NLP新时代的开始，NLP终于找到了一种方法，可以像计算机视觉那样进行迁移学习。本文用图解的方式，生动易懂地讲解了BERT和ELMo等模型。

2018年已经成为自然语言处理机器学习模型的转折点。我们对如何以最能捕捉潜在意义和关系的方式、最准确地表示单词和句子的理解正在迅速发展。

此外，NLP社区开发了一些非常强大的组件，你可以免费下载并在自己的模型和pipeline中使用。

ULM-FiT跟甜饼怪没有任何关系，但我想不出其它的了...

最新的一个里程碑是BERT的发布，这一事件被描述为NLP新时代的开始。BERT是一个NLP模型，在几个语言处理任务中打破了记录。在描述模型的论文发布后不久，该团队还公开了模型的源代码，并提供了已经在大量数据集上预训练过的下载版本。

这是一个重大的进展，因为任何需要构建语言处理模型的人都可以将这个强大的预训练模型作为现成的组件使用，从而节省了从头开始训练模型所需的时间、精力、知识和资源。

图示的两个步骤显示了BERT是如何运作的。你可以下载步骤1中预训练的模型(在未经注释的数据上训练)，然后只需在步骤2中对其进行微调。

BERT建立在最近NLP领域涌现的许多聪明方法之上——包括但不限于半监督序列学习(作者是AndrewDai和QuocLe)、ELMo(作者是MatthewPeters和来自AI2和UWCSE的研究人员)、ULMFiT(作者是fast.ai创始人JeremyHoward和SebastianRuder)，OpenAItransformer(作者是OpenAI研究员Radford、Narasimhan、Salimans和Sutskever)，以及Transformer(作者是Vaswanietal.)。

要正确理解BERT是什么，我们需要了解一些概念。让我们先看看如何使用BERT，然后再看模型本身涉及的概念。

例子：句子分类

最直接的使用BERT的方法就是使用它来对单个文本进行分类。这个模型看起来是这样的：

要训练一个这样的模型，主要需要训练分类器，在训练阶段对BERT模型的更改非常小。这种训练过程称为微调(Fine-Tuning)，并且具有半监督序列学习(Semi-supervisedSequenceLearning)和ULMFiT的根源。

具体来说，由于我们讨论的是分类器，这属于机器学习的监督学习范畴。这意味着我们需要一个标记数据集来训练模型。比如说，对于一个垃圾邮件分类器，标记数据集是一个电子邮件列表及其标签(将每封电子邮件标记为“垃圾邮件”或“非垃圾邮件”)。

模型架构

现在，你已经有了一个如何使用BERT的示例用例，接下来让我们进一步了解它是如何工作的。

论文中提供了两种尺寸的BERT模型：

BERTBASE-大小与OpenAITransformer相当
BERTLARGE-一个非常庞大的模型，实现了最先进的结果

BERT基本上是一个训练好的TransformerEncoder堆栈。Transformer模型是BERT的一个基本概念，我们将在下文中讨论。

这两种BERT模型都有大量的编码器层(论文中称之为TransformerBlocks)——Base版本有12层，Large版本有24层。它们也比初始论文里的Transformer的默认配置(6个编码器层，512个隐藏单元，8个attentionheads)有更大的前馈网络(分别为768个和1024个隐藏单元)，attentionheads(分别为12个和16个)。

模型输入

第一个输入token是一个特殊的[CLS]token，这里的CLS代表分类。

就像transformer的普通编码器一样，BERT以一串单词作为输入。每一层应用self-attention，并通过前馈网络传递其结果，然后将结果传递给下一个编码器。

在架构方面，到目前为止，这与Transformer完全相同(除了大小之外，不过大小是我们可以设置的配置)。在输出端，我们才开始看到两者的区别。

模型输出

每个位置输出大小为hidden_size的向量(BERTBase中为768)。对于上面看到的句子分类示例，我们只关注第一个位置的输出(我们将那个特殊的[CLS]标记传递给它)。

这个向量可以作为我们选择的分类器的输入。论文中利用单层神经网络作为分类器，取得了很好的分类效果。

如果你有更多的标签(例如，如果是电子邮件，你可以将邮件标记为“垃圾邮件”、“非垃圾邮件”、“社交”和“促销”)，只需调整分类器网络，使其有更多的输出神经元，然后通过softmax。

与卷积网络的相似之处

对于具有计算机视觉背景的人来说，这种向量传递的方式很容易让人联想到VGGNet之类的网络的卷积部分与网络末端完全连接的分类部分之间的事情。

嵌入的新时代

这些新进展带来了词汇编码方式的新变化。词汇嵌入一直是领先的NLP模型处理语言的主要能力。Word2Vec、Glove等方法已广泛应用于此类任务。让我们先回顾一下如何使用它们。

词汇嵌入的回顾

对于要由机器学习模型处理的单词，它们需要以某种数字形式表示，以便模型可以在其计算中使用。Word2Vec表明我们可以用一个向量(一个数字列表)以捕捉语义或意义关系(如判断单词的近义、反义关系)、以及语法或语法关系(例如,“had”和“has”、“was”and“is”有同样的语法关系)的方式恰当地表示单词。

研究人员很快发现，使用经过大量文本数据进行预训练的嵌入(embeddings)是一个好主意，而不是与小数据集的模型一起训练。因此，通过使用Word2Vec或GloVe进行预训练，可以下载单词列表及其嵌入。如下图是单词“stick”的GloVe嵌入示例(嵌入向量大小为200)

单词“stick”的GloVe嵌入

因为这些向量很大，并且数字很多，所以本文后面用下面这个基本图形来表示向量：

ELMo:上下文很重要

如果我们使用GloVe表示，那么不管上下文是什么，“stick”这个词都会由这个向量表示。很多研究人员就发现不对劲了。“stick”“有多种含义，取决于它的上下文是什么。那么，为什么不根据它的上下文给它一个嵌入呢——既要捕捉该上下文中的单词含义，又要捕捉其他上下文信息？因此，语境化的词嵌入(contextualizedword-embeddings)就出现了。

语境化词嵌入可以根据单词在句子的上下文中表示的不同含义，给它们不同的表征

ELMo不是对每个单词使用固定的嵌入，而是在为每个单词分配嵌入之前查看整个句子。它使用针对特定任务的双向LSTM来创建嵌入。

ELMo为NLP中的预训练提供了重要的一步。ELMoLSTM在大型数据集上进行训练，然后我们可以将其用作所处理语言的其他模型中的组件使用。

ELMo的秘诀是什么?

ELMo通过训练预测单词序列中的下一个单词来获得语言理解能力——这项任务被称为语言建模。这很方便，因为我们有大量的文本数据，这样的模型可以从这些数据中学习，不需要标签。

ELMo预训练的一个步骤

我们可以看到每个展开的LSTM步骤的隐藏状态从ELMo的头部后面突出来。这些在预训练结束后的嵌入过程中会派上用场。

ELMo实际上更进一步，训练了双向LSTM——这样它的语言模型不仅考虑下一个单词，而且考虑前一个单词。

ELMo通过将隐藏状态(和初始嵌入)以某种方式组合在一起(连接后加权求和)，提出语境化词嵌入。

ULM-FiT：NLP中的迁移学习

ULM-FiT引入了一些方法来有效地利用模型在预训练期间学到的知识——不仅是嵌入，也不仅是语境化嵌入。ULM-FiT提出了一个语言模型和一个流程(process)，以便针对各种任务有效地优化该语言模型。

NLP终于找到了一种方法，可以像计算机视觉那样进行迁移学习。

Transformer：超越LSTM

Transformer的论文和代码的发布，以及它在机器翻译等任务上取得的成果，开始使一些业内人士认为Transformers是LSTM的替代品。而且，Transformer在处理长期以来性方便比LSTM更好。

Transformer的编码器-解码器结构使其非常适合于机器翻译。但是如何使用它来进行句子分类呢？如何使用它来预训练可以针对其他任务进行微调的语言模型(在NLP领域，使用预训练模型或组件的监督学习任务被称为下游任务)。

OpenAITransformer：为语言建模预训练Transformer解码器

事实证明，我们不需要一个完整的Transformer来采用迁移学习，也不需要为NLP任务采用一个可微调的语言模型。我们只需要Transformer的解码器。解码器是一个很好的选择，因为它是语言建模(预测下一个单词)的首选，因为它是为屏蔽未来的token而构建的——在逐字生成翻译时，这是一个有用的特性。

OpenAITransformer由Transformer的解码器堆栈组成

模型堆叠了12个解码器层。由于在这种设置中没有编码器，这些解码器层将不会有普通transformer解码器层所具有的编码器-解码器注意力子层。但是，它仍具有自注意层。

通过这个结构，我们可以继续在相同的语言建模任务上训练模型：使用大量(未标记的)数据集预测下一个单词。只是，我们可以把足足7000本书的文本扔给它，让它学习！书籍非常适合这类任务，因为它允许模型学习相关信息，即使它们被大量文本分隔——假如使用推特或文章进行训练，就无法获得这些信息。

OpenAITransformer用由7000本书组成的数据集进行训练，以预测下一个单词。

将学习转移到下游任务

既然OpenAItransformer已经经过了预训练，并且它的层已经被调优以合理地处理语言，那么我们就可以开始将其用于下游任务。让我们先来看看句子分类(将邮件分为“垃圾邮件”或“非垃圾邮件”)：

如何使用预训练的OpenAI transformer来进行句子分割

OpenAI论文中概述了一些用于处理不同类型任务输入的输入转换。下图描绘了模型的结构和执行不同任务的输入转换。

这是不很是聪明?

BERT：从解码器到编码器

OpenAItransformer为我们提供了一个基于Transformer的可微调预训练模型。但是在从LSTM到Transformer的转换过程中缺少了一些东西。ELMo的语言模型是双向的，而OpenAITransformer只训练一个正向语言模型。我们能否建立一个基于transformer的模型，它的语言模型既考虑前向又考虑后向(用技术术语来说，“同时受左右上下文的制约”)?

BERT聪明的语言建模任务遮盖了输入中15%的单词，并要求模型预测丢失的单词。

找到合适的任务来训练Transformer的编码器堆栈不容易，BERT采用了“maskedlanguagemodel”的概念(文献中也成为完形填空任务)来解决这个问题。

除了遮盖15%的输入，BERT还混入了一些东西，以改进模型后来的微调方式。有时它会随机地将一个单词替换成另一个单词，并要求模型预测该位置的正确单词。

两句话任务

如果你回顾OpenAItransformer处理不同任务时所做的输入转换，你会注意到一些任务需要模型说出关于两个句子的一些信息(例如，它们是否只是同件事情的相互转述?假设一个维基百科条目作为输入，一个关于这个条目的问题作为另一个输入，我们能回答这个问题吗?)

为了让BERT更好的处理多个句子之间的关系，预训练过程增加了一个额外的任务：给定两个句子(A和B)，B可能是A后面的句子，还是A前面的句子？

BERT预训练的第二个任务是一个两句话分类任务。

特定任务的模型

BERT的论文展示了在不同的任务中使用BERT的多种方法。

BERT用于特征提取

fine-tuning方法并不是使用BERT的唯一方法。就像ELMo一样，你可以使用经过预训练的BERT来创建语境化的单词嵌入。然后，你可以将这些嵌入提供给现有的模型——论文中证明了，在诸如名称-实体识别之类的任务上，这个过程产生的结果与对BERT进行微调的结果相差不远。

哪个向量最适合作为语境化化嵌入？我认为这取决于任务。论文考察了6个选项(与得分96.4的fine-tuned模型相比)：

结语

试用BERT的最佳方式是通过使用托管在谷歌Colab上的CloudTPUsnotebook的BERTFineTuning。如果你以前从未使用过云TPU，那么这也是一个很好的起点，可以尝试使用它们。BERT代码也适用于TPU、CPU和GPU。

下一步是查看BERTrepo中的代码:

该模型是在modeling.py（BertModel类）中构建的，与原始Transformer编码器完全相同。
run_classifier.py是fine-tuning过程的一个示例。它还构建了监督模型的分类层。如果要构建自己的分类器，请查看文件中的create_model()方法。
有几个预训练模型可供下载。包括BERTBase和BERTLarge，以及英语，中文等语言的单语言模型，以及涵盖102种语言的多语言模型，这些语言在维基百科上训练。
BERT不是将单词看作token。相反，它关注的是词块(WordPieces)。tokennization.py是将单词转换成适合BERT的WordPieces的工具。

BERT也有PyTorch实现。AllenNLPlibrary使用这个实现，允许在任何模型中使用BERT嵌入。

本文来自新智元编译

阅读全文

机器学习(130423) 机器学习(130423)

ChatGPT爆火背后，NLP呈爆发式增长！

自然语言处理技术，用于计算机中模拟人类的对话和文本理解。主要源于AI大模型化的NLP技术突破是将深度学习技术与传统的NLP方法结合在一起，从而更好地提高NLP技术的准确性和效率。大模型化的NLP技术能够更好地支持企业进行大规模的语料内容分析，并为企业更好地进行文本分析提供帮助。语言是人类区

2023-02-13 09:47:00

2771

新一代人工智能新课题：神经网络的深度解析

基于神经网络中层信息量指标，分析不同神经网络模型的处理能力。我们分析比较了四种在 NLP 中常用的深度学习模型，即 BERT， Transformer， LSTM，和 CNN。在各 NLP 任务中，BERT 模型往往表现最好，Transformer 模型次之。

2020-09-11 16:56:24

1160

大语言模型背后的Transformer，与CNN和RNN有何不同

for Language Understanding》，BERT模型横空出世，并横扫NLP领域11项任务的最佳成绩。而在BERT中发挥重要作用的结构就是Transformer，之后又相继出现XLNET、roBERT等模型击

2023-12-25 08:36:00

1282

2018年深圳电子展

2018年深圳电子展第91届中国（深圳）电子展——新技术、新产品打造一站式选型采购平台· 时间：2018年4月9日-11日· 地点：深圳会展中心(深圳市福田中心区福华三路)· 组织单位主办单位

2017-11-09 08:56:27

BERT中的嵌入层组成以及实现方式介绍

解决nlp相关任务的深度学习模型一样，BERT将每个输入token(输入文本中的单词)通过token嵌入层传递，以便将每个token转换为向量表示。与其他深度学习模型不同，BERT有额外的嵌入层，以

2022-11-02 15:14:30

BERT原理详解

BERT原理详解

2019-07-02 16:45:22

Elmo驱动器的简单调试过程与运动程序

此使用手册包括两种型号的Elmo驱动器Gold Solo Trombone G-SOLTR012/400EEH和Gold Oboe G-OBO6/230FEHN2的接线图、简易调试过程和运动程序

2021-09-02 08:15:12

NLP学习:HanLP使用实验

语音翻译问题所造成的出错连词，所有这些词也只出现一次，这部分可以考虑最后删去也不会影响结果。改善未出现词是个关键步骤，因为此后模型会用到词向量，如果未出现词过多，会影响词向量效果。问题：不过最后

2018-11-14 11:07:19

NLP的tfidf作词向量

NLP之tfidf作词向量

2020-06-01 17:28:24

NLP的面试题目

NLP面试题目6-10

2020-05-21 15:02:41

J-BERT N4903A高性能串行BERT手册

Brochure for the Keysight J-BERT N4903A High-Performance Serial BERT: 4 pages

2019-09-26 12:17:52

与ARM相比较，Thumb代码的两大优势是什么

为什么要使用thumb模式，与ARM相比较，Thumb代码的两大优势是什么？

2022-11-02 14:17:55

串行BERT用户指南

A guide on using the Serial BERT

2019-09-23 11:01:40

串行BERT编程指南

A guide on programming the Serial BERT

2019-09-24 17:15:00

了解实际电源的两种模型及其等效变换

。 2 .了解实际电源的两种模型及其等效变换。 3 .了解非线性电阻元件的伏安特性和静态电阻、动态电阻的概念以及简单的非线性电阻电路的图解分析法。第1章电路的分析方法、1.3.3电压源和电流源的等效变换、图...

2021-09-06 07:57:33

介绍XLNet的原理及其与BERT的不同点

1、什么是XLNet？　　首先，XLNet是一个类似于bert的模型，而不是一个完全不同的模型。但它是一个非常有前途和潜力的。总之，XLNet是一种广义的自回归预训练方法。　　那么，什么是自回归

2022-11-01 15:29:55

回收M8040A 64 Gbaud 高性能 BERT

回收M8040A 64 Gbaud 高性能 BERT曾S：***；Q号：3140751627；M8040A 64 Gbaud 高性能 BERTM8030A 多通道比特误码率测试仪M8062A

2021-07-03 11:08:45

安森美半导体连续三年获选为2018年世界最道德企业之一

远超美国大型股票指数，过去5年期间领先10.72%，3年期间领先4.88%。Ethisphere将此称为道德溢价。2018年获奖企业的最佳做法和见解将以报告形式发表，并于本年三月及四月作网络播放。注册以接收报告。

2018-10-11 14:35:39

嵌入式主板比较常见的两大类

。标准的嵌入式系统架构有两大体系，RISC处理器和CISC处理器体系。嵌入式主板分为比较常见的两大类：1、基于X86的嵌入式主板，Intel的X86 处理器就属于CISC体系，(一般使用INTEL、AMD、威盛、或其他产家的...

2021-12-16 06:41:20

意法半导体2018年股东大会全部提案获批

本帖最后由 kuailesuixing 于 2018-6-4 14:34 编辑任命Jean-Marc Chery为意法半导体管理委员会唯一成员，出任总裁兼首席执行官中国，2018年6月4日

2018-06-04 14:28:11

用PVC管自制遥控火车模型的教程图解

想好做什么样的。【背景是切割垫，每一小格是1cmX1cm的方块，方便大家比较大小。】火车模型教程开始：这些是主要的材料自制遥控火车模型的教程图解取一小块PVC管槽，用铁尺和笔刀将其两边切整齐，在距其中

2012-12-29 15:03:47

电机调试的方法elmo驱动器相关的手册

elmo驱动器具有很强大的功能，之前只接触到ARM板控制，因需要使用PLC，通过一个月琳琳散散的攻克也只拿下部分，作为控制电机基本上满足实验室需要。关于emlo驱动器的相关电子档编程手册、硬件介绍

2021-09-14 06:07:33

请问elmo电机驱动器和上位机怎么通信

请问elmo电机驱动器和上位机怎么通信

2017-10-18 13:02:02

放大电路的图解分析法和小信号模型分析法的解析

本文介绍了放大电路的分析方法，图解分析法和小信号模型分析法。静态工作点的图解分析采用该方法分析静态工作点，必须已知三极管的输入输出特性曲线。

2017-11-23 11:02:42

NLP的介绍和如何利用机器学习进行NLP以及三种NLP技术的详细介绍

本文用简洁易懂的语言，讲述了自然语言处理（NLP）的前世今生。从什么是NLP到为什么要学习NLP，再到如何利用机器学习进行NLP，值得一读。这是该系列的第一部分，介绍了三种NLP技术：文本嵌入、机器翻译、Dialogue 和 Conversations。

2018-06-10 10:26:10

76462

最先进的NLP模型很脆弱!最先进的NLP模型是虚假的!

这两个问题都很棘手，显然，为期一天的研讨会肯定讨论不出什么结果。但是在会议现场，一些有远见卓识的NLP研究人员还是探讨了不少方法和想法，其中有一些尤其值得关注。在下文中，我们会介绍它们中的三个主题：巧妙地使用更多归纳偏置；努力构建有“常识”的NLP模型；使用没见过的分布和没见过的任务。

2018-08-27 09:47:31

4210

仔细讨论NLP模型的泛化问题

前段时间的文章《顶会见闻系列：ACL 2018，在更具挑战的环境下理解数据表征及方法评价》中，我们介绍了 ACL 大会上展现出的 NLP 领域的最新研究风向和值得关注的新进展。

2018-09-10 10:45:32

4193

发电机模型制作图解

2018-09-17 10:47:00

11723

BERT在机器阅读理解测试SQuAD1.1中表现出惊人的成绩

如何来实现上下文全向预测呢？BERT 的作者建议使用 Transformer 模型。这个模型在《Attention Is All You Need》一文中，被首次提出。论文发表后，立刻引起业界轰动，成为深度学习 NLP 的里程碑式的进展。

2018-10-18 10:31:18

11746

NLP领域取得最重大突破！BERT模型开启了NLP的新时代！

BERT 提出一种新的预训练目标：遮蔽语言模型（masked language model，MLM），来克服上文提到的单向性局限。MLM 的灵感来自 Cloze 任务（Taylor, 1953）。MLM 随机遮蔽模型输入中的一些 token，目标在于仅基于遮蔽词的语境来预测其原始词汇 id。

2018-10-18 10:55:22

4317

Google最强模型BERT出炉

在不少人看来，BERT 对自然语言处理的研究具有里程碑式的意义。

2018-10-27 10:37:23

4691

BERT模型的PyTorch实现

BertModel是一个基本的BERT Transformer模型，包含一个summed token、位置和序列嵌入层，然后是一系列相同的self-attention blocks（BERT-base是12个blocks, BERT-large是24个blocks）。

2018-11-13 09:12:19

13506

用图解的方式，生动易懂地讲解了BERT和ELMo等模型

最新的一个里程碑是BERT的发布，这一事件被描述为NLP新时代的开始。BERT是一个NLP模型，在几个语言处理任务中打破了记录。在描述模型的论文发布后不久，该团队还公开了模型的源代码，并提供了已经在大量数据集上预训练过的下载版本。

2018-12-16 10:17:03

10693

2018年度完美收官的十篇机器学习文章都讲了哪些内容

本文的内容主要是对当前 NLP 领域的三大模型的综述。2018 年是自然语言处理领域(NLP) 取得突破性进展的一年，以Google 团队提出的BERT 模型为典型代表。再加上此前研究人员提出

2018-12-25 10:13:41

2524

一文看尽2018看尽AI现状，展望未来趋势

当然，ELMo也在试验中展示出了强大功效。把ELMo用到已有的NLP模型上，能够带来各种任务上的性能提升。比如在机器问答数据集SQuAD上，用ELMo能让此前最厉害的模型成绩在提高4.7个百分点。

2018-12-25 16:26:52

2578

回顾2018年深度学习NLP十大创新思路

Sebastian Ruder 是一位 NLP 方向的博士生、研究科学家，目前供职于一家做 NLP 相关服务的爱尔兰公司 AYLIEN，同时，他也是一位活跃的博客作者，发表了多篇机器学习、NLP 和深度学习相关的文章。

2019-01-08 11:25:32

3307

回顾2018自然语言处理NLP最全的应用与合作

2018年见证了 NLP 许多新的应用发展。Elvis Saravia 是计算语言学专家，也是2019 计算语言学会年度大会北美分部的项目委员之一。

2019-01-13 09:08:41

4578

详解谷歌最强NLP模型BERT

面我们介绍了 Word Embedding，怎么把一个词表示成一个稠密的向量。Embedding几乎是在 NLP 任务使用深度学习的标准步骤。我们可以通过 Word2Vec、GloVe 等从未标注数据无监督的学习到词的 Embedding，然后把它用到不同的特定任务中。

2019-01-20 09:24:14

2700

史上最强通用NLP模型诞生

OpenAI今天在官博上介绍了他们的新NLP模型，刷新了7大数据集的SOTA(当前最佳结果)，并且能够在不进行任何与领域知识相关数据训练的情况下，直接跨任务执行最基础的阅读理解、机器翻译、问答和文本总结等不同NLP任务。

2019-02-18 14:19:16

3954

NLP中的深度学习技术概述

该项目是对基于深度学习的自然语言处理（NLP）的概述，包括用来解决不同 NLP 任务和应用的深度学习模型（如循环神经网络、卷积神经网络和强化学习）的理论介绍和实现细节，以及对 NLP 任务（机器翻译、问答和对话系统）当前最优结果的总结。

2019-03-01 09:13:57

4424

1024块TPU在燃烧！将BERT预训练模型的训练时长从3天缩减到了76分钟

BERT是一种先进的深度学习模型，它建立在语义理解的深度双向转换器上。当我们增加batch size的大小（如超过8192）时，此前的模型训练技巧在BERT上表现得并不好。BERT预训练也需要很长时间才能完成，如在16个TPUv3上大约需要三天。

2019-04-04 16:27:10

11046

为大家介绍三个NLP领域的热门词汇

预训练是通过大量无标注的语言文本进行语言模型的训练，得到一套模型参数，利用这套参数对模型进行初始化，再根据具体任务在现有语言模型的基础上进行精调。预训练的方法在自然语言处理的分类和标记任务中，都被证明拥有更好的效果。目前，热门的预训练方法主要有三个：ELMo，OpenAI GPT和BERT。

2019-04-04 16:52:42

3164

一套新的自然语言处理（NLP）评估基准，名为 SuperGLUE

实现 NLP 的方法有很多，主流的方法大多围绕多任务学习和语言模型预训练展开，由此孕育出很多种不同模型，比如 BERT、MT-DNN、ALICE 和 Snorkel MeTaL 等等。在某个模型的基础上，研究团队还可以借鉴其它模型的精华或者直接结合两者。

2019-04-29 18:02:14

5799

谷歌大脑CMU联手推出XLNet,20项任务全面超越BERT

谷歌大脑和CMU联合团队提出面向NLP预训练新方法XLNet，性能全面超越此前NLP领域的黄金标杆BERT，在20个任务上实现了性能的大幅提升，刷新了18个任务上的SOTA结果，可谓全面屠榜！

2019-06-22 11:19:28

2748

碾压Bert?“屠榜”的XLnet对NLP任务意味着什么

张俊林新作，一文带你剖析XLnet的运行机制，与BERT对比异同。

2019-06-25 14:11:04

2259

哈工大讯飞联合实验室发布基于全词覆盖的中文BERT预训练模型

同理，由于谷歌官方发布的BERT-base（Chinese）中，中文是以字为粒度进行切分，没有考虑到传统NLP中的中文分词（CWS）。我们将全词Mask的方法应用在了中文中，即对组成同一个词的汉字

2019-07-18 14:36:18

5555

XLNet和Bert比，有什么不同？要进行改进吗？

本文首先讲讲我对XLNet和Bert比，有什么异同？有什么模型方面的改进？的理解

2019-07-26 14:39:20

4874

BERT再次制霸GLUE排行榜！BERT王者归来了！

不过，XLNet的王座没坐太久。就在今天，Facebook公布一个基于BERT开发的加强版预训练模型RoBERTa——在GLUE、SQuAD和RACE三个排行榜上全部实现了最先进的结果！

2019-08-02 08:53:21

5261

微软亚研提出VL-BERT，现取得了当前单模型的最好效果

来自中科大、微软亚研院的研究者们提出了一种新型的通用视觉-语言预训练模型（Visual-Linguistic BERT，简称 VL-BERT），该模型采用简单而强大的 Transformer 模型作为主干网络，并将其输入扩展为同时包含视觉与语言输入的多模态形式，适用于绝大多数视觉-语言下游任务。

2019-09-03 15:04:50

5147

BERT的自注意力模式

BERT代表Transformer的双向编码器表示。该模型基本上是一个多层双向Transformer编码器 (Devlin, Chang, Lee, & Toutanova, 2019)，有多个关于它的工作原理的优秀指南，包括图解的Transformer.。

2020-04-19 11:37:12

3314

语言建模中XLNet比BERT好在哪里

XLNet可能会改变语言建模，这就是为什么它是任何NLP从业者的重要补充。在本文中，我们将讨论XLNet背后的原理，它使它比BERT更好。为了更好地理解它，我们还将研究它之前的相关技术。

2020-04-20 09:30:18

2404

Elmo电机驱动器的增益调整方法详细说明

本文档的主要内容详细介绍的是Elmo电机驱动器的增益调整方法详细说明。

2020-05-13 08:00:00

金融市场中的NLP 情感分析

的机器学习，而不是使用深层神经网络。 2018年，在一些NLP任务中，一种名为BERT的最先进（STOA）模型的表现超过了人类的得分。在这里，我将几个模型应用于情绪分析任务，以了解它们在我所处的金融市场中有多大用处。代码在jupyter notebook中，在git repo中可用//

2020-11-02 16:18:03

1738

如何在BERT中引入知识图谱中信息

引言随着BERT等预训练模型横空出世，NLP方向迎来了一波革命，预训练模型在各类任务上均取得了惊人的成绩。随着各类预训练任务层出不穷，也有部分研究者考虑如何在BERT这一类模型中引入或者强化知识

2020-11-03 17:52:11

3795

图解BERT预训练模型！

BERT的发布是这个领域发展的最新的里程碑之一，这个事件标志着NLP 新时代的开始。BERT模型打破了基于语言处理的任务的几个记录。在 BERT 的论文发布后不久，这个团队还公开了模型的代码，并提供了模型的下载版本

2020-11-24 10:08:22

3200

比Bert体积更小速度更快的 TinyBERT

TinyBERT 是华为不久前提出的一种蒸馏 BERT 的方法，本文梳理了 TinyBERT 的模型结构，探索了其在不同业务上的表现，证明了 TinyBERT 对...

2020-12-10 20:35:29

207

一文看懂NLP里的模型框架 Encoder-Decoder和Seq2Seq

Encoder-Decoder 是 NLP 领域里的一种模型框架。它被广泛用于机器翻译、语音识别等任务。本文将详细介绍 Encoder-Decoder、Seq2Seq 以及...

2020-12-10 22:19:50

861

如何优雅地使用bert处理长文本

了不同NLP任务下使用COGLTX的代码：论文题目： CogLTX: Applying BERT to Long Texts 论文链接： http://keg.cs.tsinghua.edu.cn

2020-12-26 09:17:27

8296

在BERT中引入知识图谱中信息的若干方法

2020-12-26 10:14:06

2824

结合BERT模型的中文文本分类算法

针对现有中文短文夲分类算法通常存在特征稀疏、用词不规范和数据海量等问题，提出一种基于Transformer的双向编码器表示（BERT）的中文短文本分类算法，使用BERT预训练语言模型对短文本进行句子

2021-03-11 16:10:39

如何让Bert模型在下游任务中提高性能？

随着Transformer 在NLP中的表现，Bert已经成为主流模型，然而大家在下游任务中使用时，是不是也会发现模型的性能时好时坏，甚至相同参数切换一下随机种子结果都不一样，又或者自己不管

2021-03-12 18:19:43

2928

两个NLP模型的预测分析

中冗余的边drop掉。通过分析剩余边上具有怎样的先验知识，实现对GNN的预测过程加以解释。 0. Abstract GNN 能够将结构归纳偏置（structural inductive biases）整合到 NLP 模型中。然而，却鲜有工作对于这种结构偏置的原理加以解释，特别是

2021-04-04 17:11:00

2010

一种基于BERT模型的社交电商文本分类算法

基于BERT模型的社交电商文本分类算法。首先，该算法采用BERT（ Bidirectional Encoder Representations from Transformers）预训练语言模型来完成社交电商文本的句子层面的特征向量表示，随后有针对性地将获得的特征向量输入分类器进行分类，最后采

2021-04-13 15:14:21

基于BERT+Bo-LSTM+Attention的病历短文分类模型

病历文本的提取与自动分类的方法具有很大的临床价值。文中尝试提出一种基于BERT十 BI-LSTM+ Attention融合的病历短文本分类模型。使用BERT预处理获取短文本向量作为模型输入，对比BERT与 word2vec模型的预训练效果，对比Bⅰ-LSTM十 Atten

2021-04-26 14:30:20

基于BERT的中文科技NLP预训练模型

深度学习模型应用于自然语言处理任务时依赖大型、高质量的人工标注数据集。为降低深度学习模型对大型数据集的依赖，提出一种基于BERT的中文科技自然语言处理预训练模型 ALICE。通过对遮罩语言模型进行

2021-05-07 10:08:16

深度分析RNN的模型结构，优缺点以及RNN模型的几种应用

强大的Bert模型家族，都是站在RNN的肩上，不断演化、变强的。这篇文章，阐述了RNN的方方面面，包括模型结构，优缺点，RNN模型的几种应用，RNN常使用的激活函数，RNN的缺陷，以及GRU，LSTM是如何试图解决这些问题，RNN变体等。这篇文章最大特点是图解版本，

2021-05-13 10:47:46

22438

知识图谱与BERT相结合助力语言模型

中，我们给大家介绍过百度的ERNIE。其实清华大学NLP实验室，比百度更早一点，也发表了名为ERNIE的模型，即Enhanced Language Representation

2021-05-19 15:47:41

3355

文本分类任务的Bert微调trick大全

1 前言大家现在打比赛对预训练模型非常喜爱，基本上作为NLP比赛基线首选（图像分类也有预训练模型）。预训练模型虽然很强，可能通过简单的微调就能给我们带来很大提升，但是大家会发现比赛做到后期

2021-07-18 09:49:32

2165

大模型时代的AI之变与开发之根

自2018年谷歌发布Bert以来，预训练大模型以强大的算法效果，席卷了NLP为代表的各大AI榜单与测试数据集。随着产学研各界的深入研究，大模型在AI产学研各界的地位得到不断加强。到2021年，我们

2021-09-29 08:54:42

2406

超大Transformer语言模型的分布式训练框架

大模型的预训练计算。大模型是大势所趋近年来，NLP 模型的发展十分迅速，模型的大小每年以1-2个数量级的速度在提升，背后的推动力当然是大模型可以带来更强大更精准的语言语义理解和推理能力。截止到去年，OpenAI发布的GPT-3模型达到了175B的大小，相比2018年94M的ELMo模型，三年的时间整整增大了

2021-10-11 16:46:05

2226

大模型的未来在哪？究竟什么是好的大模型？

自2018年谷歌发布BERT以来，预训练大模型经过三年的发展,以强大的算法效果，席卷了NLP为代表的各大AI榜单与测试数据集。2020年OpenAI发布的NLP大模型GPT-3，实现了千亿级数据参数

2021-10-27 08:46:54

3789

2021 OPPO开发者大会：NLP预训练大模型

2021 OPPO开发者大会：NLP预训练大模型 2021 OPPO开发者大会上介绍了融合知识的NLP预训练大模型。责任编辑：haq

2021-10-27 14:18:41

1492

2021年OPPO开发者大会融合知识的NLP预训练大模型

2021年OPPO开发者大会刘海锋：融合知识的NLP预训练大模型，知识融合学习运用在小布助手里面。

2021-10-27 14:48:16

2251

如何改进双塔模型才能更好的提升你的算法效果

接收的论文一直未公开，在arxiv上不停地刷，也只翻到了零碎的几篇。于是，我想到该写一下双塔模型了，刚进美团的第一个月我就用到了Sentence-BERT。为什么呢？因为双塔模型在NLP和搜广推中的应用实在太广泛了。不管是校招社招，面试NLP或推荐算法岗，这已经是必问的知识点了

2021-11-05 15:38:20

2738

如何使用BERT模型进行抽取式摘要

　　最近在梳理文本摘要相关内容，翻到一篇19年关于基于BERT模型进行抽取式摘要的老文「BertSum」，在这里分享给大家。该论文一开始挂在arXiv时，为《Fine-tune BERT

2022-03-12 16:41:35

4185

如何实现更绿色、经济的NLP预训练模型迁移

NLP中，预训练大模型Finetune是一种非常常见的解决问题的范式。利用在海量文本上预训练得到的Bert、GPT等模型，在下游不同任务上分别进行finetune，得到下游任务的模型。然而，这种方式

2022-03-21 15:33:30

1843

如何使用TensorRT 8.0进行实时自然语言处理

　　大规模语言模型（ LSLMs ）如 BERT 、 GPT-2 和 XL-Net 为许多自然语言处理（ NLP ）任务带来了令人兴奋的精度飞跃。自 2018 年 10 月发布以来， BERT （来自变形金刚的双向编码器表示）及其众多变体仍然是最流行的语言模型之一，仍然提供最先进的准确性。

2022-04-02 10:31:18

1545

什么是BERT？为何选择BERT？

由于绝大多数 BERT 参数专门用于创建高质量情境化词嵌入，因此该框架非常适用于迁移学习。通过使用语言建模等自我监督任务（不需要人工标注的任务）训练 BERT，可以利用 WikiText 和 BookCorpus 等大型无标记数据集

2022-04-26 14:24:13

3463

一种基于乱序语言模型的预训练模型-PERT

由于乱序语言模型不使用[MASK]标记，减轻了预训练任务与微调任务之间的gap，并由于预测空间大小为输入序列长度，使得计算效率高于掩码语言模型。PERT模型结构与BERT模型一致，因此在下游预训练时，不需要修改原始BERT模型的任何代码与脚本。

2022-05-10 15:01:27

1173

参天生长大模型：昇腾AI如何强壮模型开发与创新之根？

自2018年谷歌发布BERT以来，预训练大模型经过几年的发展，以强大的算法效果，席卷了以NLP为代表的各大AI榜单与测试数据集。2020年OpenAI发布的NLP大模型GPT-3，实现了千亿级参数

2022-08-11 09:10:39

1338

如何在GPU资源受限的情况下训练transformers库上面的大模型

自BERT出现以来，nlp领域已经进入了大模型的时代，大模型虽然效果好，但是毕竟不是人人都有着丰富的GPU资源，在训练时往往就捉襟见肘，出现显存out of memory的问题，或者训练时间非常非常的久

2022-08-31 18:16:05

1924

NVIDIA 与飞桨团队合作开发基于 ResNet50 的模型示例

为了让飞桨开发者可以快速复现顶尖的精度和超高的性能，NVIDIA 与飞桨团队合作开发了基于 ResNet50 的模型示例，并将持续开发更多的基于 NLP 和 CV 等领域的经典模型，后续陆续发布的模型有 BERT、PP-OCR、PP-YOLO 等，欢迎持续关注。

2022-10-18 10:03:26

803

谷歌提出Flan-T5，一个模型解决所有NLP任务

（需要有Decoder部分，所以「不包括BERT这类纯Encoder语言模型」），论文的核心贡献是提出一套多任务的微调方案（Flan），来极大提升语言模型的泛化性。

2022-11-24 11:21:56

1040

elmo whistle调试转接板

方案介绍用于elmo驱动器whistle系列调试，pcb尚未经过实际测试，但已检查过连接关系，以及孔位。附有elmo驱动官方文件，ad工程，立创工程，制板文件等，可能存在的问题：1、固定需孔位按需调整。2、电容位置按需调整。

2022-12-28 16:31:19

ChatGPT反思大语言模型的技术精要

在Bert和GPT模型出现之前，NLP领域流行的技术是深度学习模型，而NLP领域的深度学习，主要依托于以下几项关键技术：以大量的改进LSTM模型及少量的改进CNN模型作为典型的特征抽取

2023-01-11 14:33:51

1726

elmo直线电机驱动调试细则

elmo驱动直线电机调试步骤及参数整定

2023-01-29 17:26:11

总结FasterTransformer Encoder(BERT)的cuda相关优化技巧

FasterTransformer BERT 包含优化的 BERT 模型、高效的 FasterTransformer 和 INT8 量化推理。

2023-01-30 09:34:48

1283

浅谈ChatGPT的技术架构

GPT家族与BERT模型都是知名的NLP模型，都基于Transformer技术。GPT-1只有12个Transformer层，而到了GPT-3，则增加到96层。

2023-02-21 09:42:46

2501

NLP入门之Bert的前世今生

对于每个词只能有一个固定的向量表示，今天我们来介绍一个给NLP领域带来革新的预训练语言大模型Bert，对比word2vec和Glove词向量模型，Bert是一个动态的词向量语言模型，接下来将带领大家一起来聊聊Bert的前世今生，感受一下Bert在自然语言处理领域的魅力吧。

2023-02-22 10:29:47

527

理解什么是NLP Subword算法

Subword算法如今已经成为了一个重要的NLP模型性能提升方法。自从2018年BERT横空出世横扫NLP界各大排行榜之后，各路预训练语言模型如同雨后春笋般涌现，其中Subword算法在其中已经成为标配。所以作为NLP界从业者，有必要了解下Subword算法的原理。

2023-02-22 14:16:32

357

BLIP-2：下一代多模态模型的雏形

众所周知，NLP领域一直领先于CV领域的发展。得益于更丰富的语料库，NLP领域的已经拥有了一些具有初步推理能力模型的研究，特别是LLM大模型的出现。

2023-03-02 13:54:42

1619

深入浅出Prompt Learning要旨及常用方法

第三范式：基于预训练模型 + finetuning 的范式，如 BERT + finetuning 的 NLP 任务，相比于第二范式，模型准确度显著提高，但是模型也随之变得更大，但小数据集就可训练出好模型；

2023-03-03 11:00:20

563

大模型在不同任务中的优缺点

如果自己是一个大模型的小白，第一眼看到 GPT、PaLm、LLaMA 这些单词的怪异组合会作何感想？假如再往深里入门，又看到 BERT、BART、RoBERTa、ELMo 这些奇奇怪怪的词一个接一个蹦出来，不知道作为小白的自己心里会不会抓狂？

2023-05-23 17:19:10

2872

PyTorch教程-15.9。预训练 BERT 的数据集

实验室在 SageMaker Studio Lab 中打开笔记本为了预训练第 15.8 节中实现的 BERT 模型，我们需要以理想的格式生成数据集，以促进两项预训练任务：掩码语言建模和下一句预测

2023-06-05 15:44:40

442

Multi-CLS BERT：传统集成的有效替代方案

在 GLUE 和 SuperGLUE 数据集上进行了实验，证明了 Multi-CLS BERT 在提高整体准确性和置信度估计方面的可靠性。它甚至能够在训练样本有限的情况下超越更大的 BERT 模型。最后还提供了 Multi-CLS BERT 的行为和特征的分析。

2023-07-04 15:47:23

416

后发而先至的腾讯混元大模型，到底有哪些技术亮点？

腾讯集团副总裁蒋杰在采访中介绍：“在腾讯内部，混元已经内测很久了，不是现在第一天才有。”腾讯是国内最早研究大模型的企业之一。2021年，腾讯推出了千亿规模的NLP大模型。2022年，腾讯推出万亿参数的 NLP 稀疏大模型。换言之，他们的大模型研究，是国内领先的。

2023-09-12 17:25:54

885

基于BERT算法搭建一个问答搜索引擎

鼎鼎大名的 Bert 算法相信大部分同学都听说过，它是Google推出的NLP领域“王炸级”预训练模型，其在NLP任务中刷新了多项记录，并取得state of the art的成绩。但是有很多深度

2023-10-30 11:46:10

302

Elmo埃莫运动控制产品册

电子发烧友网站提供《Elmo埃莫运动控制产品册.pdf》资料免费下载

2022-01-13 14:10:48

教您如何精调出自己的领域大模型

BERT和 GPT-3 等语言模型针对语言任务进行了预训练。微调使它们适应特定领域，如营销、医疗保健、金融。在本指南中，您将了解 LLM 架构、微调过程以及如何为 NLP 任务微调自己的预训练模型。

2024-01-19 10:25:28

351

已全部加载完成

搜索历史

图解2018年领先的两大NLP模型：BERT和ELMo

评论