0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一文带你简单理解LSTM神经网络

电子设计 来源:电子设计 作者:电子设计 2021-01-20 22:55 次阅读

递归神经网络

在传统神经网络中,模型不会关注上一时刻的处理会有什么信息可以用于下一时刻,每一次都只会关注当前时刻的处理。举个例子来说,我们想对一部影片中每一刻出现的事件进行分类,如果我们知道电影前面的事件信息,那么对当前时刻事件的分类就会非常容易。实际上,传统神经网络没有记忆功能,所以它对每一刻出现的事件进行分类时不会用到影片已经出现的信息,那么有什么方法可以让神经网络能够记住这些信息呢?答案就是Recurrent Neural Networks(RNNs)递归神经网络。

递归神经网络的结果与传统神经网络有一些不同,它带有一个指向自身的环,用来表示它可以传递当前时刻处理的信息给下一时刻使用,结构如下:

pIYBAGAIQQ-AcSdVAABU7tq9d4A454.png

其中, Xt 为输入,A 为模型处理部分, ht 为输出。

为了更容易地说明递归神经网络,我们把上图展开,得到:

o4YBAGAIQU-AP-wnAAFv8_Qf97U175.png

这样的一条链状神经网络代表了一个递归神经网络,可以认为它是对相同神经网络的多重复制,每一时刻的神经网络会传递信息给下一时刻。如何理解它呢?假设有这样一个语言模型,我们要根据句子中已出现的词预测当前词是什么,递归神经网络的工作原理如下:

pIYBAGAIQY-AR-60AAEwuwPaQgI637.png

其中,W 为各类权重,x 表示输入,y 表示输出,h 表示隐层处理状态。

递归神经网络因为具有一定的记忆功能,可以被用来解决很多问题,例如:语音识别、语言模型、机器翻译等。但是它并不能很好地处理长时依赖问题。

长时依赖问题

长时依赖是这样的一个问题,当预测点与依赖的相关信息距离比较远的时候,就难以学到该相关信息。例如在句子”我出生在法国,……,我会说法语“中,若要预测末尾”法语“,我们需要用到上下文”法国“。理论上,递归神经网络是可以处理这样的问题的,但是实际上,常规的递归神经网络并不能很好地解决长时依赖,好的是LSTMs可以很好地解决这个问题。

LSTM 神经网络

Long Short Term Mermory network(LSTM)是一种特殊的RNNs,可以很好地解决长时依赖问题。那么它与常规神经网络有什么不同?
首先我们来看RNNs具体一点的结构:

o4YBAGAIQhmAF8PaAALDHWy9qlE458.png

所有的递归神经网络都是由重复神经网络模块构成的一条链,可以看到它的处理层非常简单,通常是一个单tanh层,通过当前输入及上一时刻的输出来得到当前输出。与神经网络相比,经过简单地改造,它已经可以利用上一时刻学习到的信息进行当前时刻的学习了。

LSTM的结构与上面相似,不同的是它的重复模块会比较复杂一点,它有四层结构:

o4YBAGAIQmSACJm6AAOBOOunrrE030.png

其中,处理层出现的符号及表示意思如下:

o4YBAGAIQrOAE0HkAABgfmDk8Kc927.png

LSTMs的核心思想

理解LSTMs的关键就是下面的矩形方框,被称为memory block(记忆块),主要包含了三个门(forget gate、input gate、output gate)与一个记忆单元(cell)。方框内上方的那条水平线,被称为cell state(单元状态),它就像一个传送带,可以控制信息传递给下一时刻。

o4YBAGAIQveAdj3mAADMQBhyKMk954.png

这个矩形方框还可以表示为:

pIYBAGAIQzeAXPVOAAA9OhrBYLo440.png

这两个图可以对应起来看,下图中心的 ct 即cell,从下方输入( ht−1 , xt )到输出 ht的一条线即为cell state, ft,it,ot 分别为遗忘门、输入门、输出门,用sigmoid层表示。上图中的两个tanh层则分别对应cell的输入与输出。

LSTM可以通过门控单元可以对cell添加和删除信息。通过门可以有选择地决定信息是否通过,它有一个sigmoid神经网络层和一个成对乘法操作组成,如下:

pIYBAGAIQ3yAAPxaAAAUYxfcoJw475.png

该层的输出是一个介于0到1的数,表示允许信息通过的多少,0 表示完全不允许通过,1表示允许完全通过。

逐步解析LSTM

LSTM第一步是用来决定什么信息可以通过cell state。这个决定由“forget gate”层通过 sigmoid 来控制,它会根据上一时刻的输出 ht−1 和当前输入 xt 来产生一个0到1 的 ft 值,来决定是否让上一时刻学到的信息 Ct−1 通过或部分通过。如下:

pIYBAGAIQ7uAJh9kAAD-CrKq7tY692.png

举个例子来说就是,我们在之前的句子中学到了很多东西,一些东西对当前来讲是没用的,可以对它进行选择性地过滤。

第二步是产生我们需要更新的新信息。这一步包含两部分,第一个是一个“input gate”层通过sigmoid来决定哪些值用来更新,第二个是一个tanh层用来生成新的候选值pIYBAGAIQ_iAaxvgAAABwIVoaPY048.png,它作为当前层产生的候选值可能会添加到cell state中。我们会把这两部分产生的值结合来进行更新。

o4YBAGAIRDiAUXItAAE2k80YWAA481.png

现在我们对老的cell state进行更新,首先,我们将老的cell state乘以 ft 来忘掉我们不需要的信息,然后再与 it ∗ pIYBAGAIQ_iAaxvgAAABwIVoaPY048.png相加,得到了候选值。
一二步结合起来就是丢掉不需要的信息,添加新信息的过程:

举个例子就是,在前面的句子中我们保存的是张三的信息,现在有了新的李四信息,我们需要把张三的信息丢弃掉,然后把李四的信息保存下来。

最后一步是决定模型的输出,首先是通过sigmoid层来得到一个初始输出,然后使用tanh将 Ct 值缩放到-1到1间,再与sigmoid得到的输出逐对相乘,从而得到模型的输出。

这显然可以理解,首先sigmoid函数的输出是不考虑先前时刻学到的信息的输出,tanh函数是对先前学到信息的压缩处理,起到稳定数值的作用,两者的结合学习就是递归神经网络的学习思想。至于模型是如何学习的,那就是后向传播误差学习权重的一个过程了。

上面是对LSTM一个典型结构的理解,当然,它也会有一些结构上的变形,但思想基本不变,这里也就不多讲了。

来源:电子创新网

审核编辑 黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4733

    浏览量

    100397
  • LSTM
    +关注

    关注

    0

    文章

    43

    浏览量

    3733
收藏 人收藏

    评论

    相关推荐

    BP神经网络和人工神经网络的区别

    BP神经网络和人工神经网络(Artificial Neural Networks,简称ANNs)之间的关系与区别,是神经网络领域中个基础且重要的话题。本文将从定义、结构、算法、应用及
    的头像 发表于 07-10 15:20 684次阅读

    如何理解RNN与LSTM神经网络

    在深入探讨RNN(Recurrent Neural Network,循环神经网络)与LSTM(Long Short-Term Memory,长短期记忆网络神经网络之前,我们首先需要明
    的头像 发表于 07-09 11:12 436次阅读

    全连接前馈神经网络与前馈神经网络的比较

    Neural Network, FCNN)和前馈神经网络(Feedforward Neural Network, FNN)因其结构简单、易于理解和实现,成为了研究者们关注的热点。本文将从概念、模型结构、优缺点以及应用场景等方面
    的头像 发表于 07-09 10:31 7952次阅读

    rnn是递归神经网络还是循环神经网络

    RNN(Recurrent Neural Network)是循环神经网络,而非递归神经网络。循环神经网络种具有时间序列特性的神经网络,能
    的头像 发表于 07-05 09:52 458次阅读

    递归神经网络是循环神经网络

    递归神经网络(Recurrent Neural Network,简称RNN)和循环神经网络(Recurrent Neural Network,简称RNN)实际上是同个概念,只是不同的翻译方式
    的头像 发表于 07-04 14:54 583次阅读

    循环神经网络的基本概念

    循环神经网络的基本概念、循环机制、长短时记忆网络LSTM)、门控循环单元(GRU)等方面进行介绍。 循环神经网络的基本概念 循环神经网络
    的头像 发表于 07-04 14:31 517次阅读

    循环神经网络和卷积神经网络的区别

    结构。它们在处理不同类型的数据和解决不同问题时具有各自的优势和特点。本文将从多个方面比较循环神经网络和卷积神经网络的区别。 基本概念 循环神经网络种具有循环连接的
    的头像 发表于 07-04 14:24 976次阅读

    用于自然语言处理的神经网络有哪些

    自然语言处理(Natural Language Processing, NLP)是人工智能领域的个重要分支,旨在让计算机能够理解和处理人类语言。随着深度学习技术的飞速发展,神经网络模型在NLP领域
    的头像 发表于 07-03 16:17 695次阅读

    反向传播神经网络和bp神经网络的区别

    反向传播神经网络(Backpropagation Neural Network,简称BP神经网络)是种多层前馈神经网络,它通过反向传播算法来调整
    的头像 发表于 07-03 11:00 578次阅读

    bp神经网络和卷积神经网络区别是什么

    结构、原理、应用场景等方面都存在定的差异。以下是对这两种神经网络的比较: 基本结构 BP神经网络种多层前馈神经网络,由输入层、隐藏层和
    的头像 发表于 07-03 10:12 864次阅读

    卷积神经网络和bp神经网络的区别

    不同的神经网络模型,它们在结构、原理、应用等方面都存在定的差异。本文将从多个方面对这两种神经网络进行详细的比较和分析。 引言 神经网络
    的头像 发表于 07-02 14:24 2180次阅读

    神经网络在数学建模中的应用

    理解和解决实际问题。本文将详细介绍神经网络在数学建模中的应用,包括神经网络的基本原理、数学建模中神经网络的应用场景、神经网络的优缺点以及如
    的头像 发表于 07-02 11:29 771次阅读

    利用深度循环神经网络对心电图降噪

    具体的软硬件实现点击 http://mcu-ai.com/ MCU-AI技术网页_MCU-AI 我们提出了种利用由长短期记忆 (LSTM) 单元构建的深度循环神经网络来降 噪心电图信号 (ECG
    发表于 05-15 14:42

    助听器降噪神经网络模型

    抑制任务是语音增强领域的个重要学科, 随着深度神经网络的兴起,提出了几种基于深度模型的音频处理新方法[1,2,3,4]。然而,这些通常是为离线处理而开发的,不需要考虑实时性。当使用神经网络
    发表于 05-11 17:15

    卷积神经网络通俗理解

    卷积神经网络(Convolutional Neural Networks, CNN)是类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度
    的头像 发表于 11-26 16:26 994次阅读