自然语言处理的ELMO使用-电子发烧友网

1、概述

word embedding 是现在自然语言处理中最常用的 word representation 的方法，常用的word embedding 是word2vec的方法，然而word2vec本质上是一个静态模型，也就是说利用word2vec训练完每个词之后，词的表示就固定了，之后使用的时候，无论新句子上下文的信息是什么，这个词的word embedding 都不会跟随上下文的场景发生变化，这种情况对于多义词是非常不友好的。例如英文中的 Bank这个单词，既有河岸的意思，又有银行的意思，但是在利用word2vec进行word embedding 预训练的时候会获得一个混合多种语义的固定向量表示。即使在根据上下文的信息能明显知道是“银行”的情况下，它对应的word embedding的内容也不会发生改变。

ELMO的提出就是为了解决这种语境问题，动态的去更新词的word embedding。ELMO的本质思想是：事先用语言模型在一个大的语料库上学习好词的word embedding，但此时的多义词仍然无法区分，不过没关系，我们接着用我们的训练数据（去除标签）来fine-tuning 预训练好的ELMO 模型。作者将这种称为domain transfer。这样利用我们训练数据的上下文信息就可以获得词在当前语境下的word embedding。作者给出了ELMO 和Glove的对比

自然语言处理的ELMO使用

对于Glove训练出来的word embedding来说，多义词play，根据他的embedding 找出的最接近的其他单词大多数几种在体育领域，这主要是因为训练数据中包含play的句子大多数来源于体育领域，之后在其他语境下，play的embedding依然是和体育相关的。而使用ELMO，根据上下文动态调整后的embedding不仅能够找出对应的“表演”相同的句子，还能保证找出的句子中的play对应的词性也是相同的。接下来看看ELMO是怎么实现这样的结果的。

2、模型结构

ELMO 基于语言模型的，确切的来说是一个 Bidirectional language models，也是一个 Bidirectional LSTM结构。我们要做的是给定一个含有N个tokens的序列

t1, t2, ... , tN

其前向表示为：

自然语言处理的ELMO使用