0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

LSTM几个关键“门”与操作

Dbwd_Imgtec 来源:未知 作者:李倩 2018-10-09 16:17 次阅读

1. 摘要

对于RNN解决了之前信息保存的问题,例如,对于阅读一篇文章,RNN网络可以借助前面提到的信息对当前的词进行判断和理解,这是传统的网络是不能做到的。但是,对于RNN网络存在长期依赖问题,比如看电影的时候,某些细节需要依赖很久以前的一些信息,而RNN网络并不能很好的保存很久之前的信息,随着时间间隔不断增大,RNN网络会丧失学习到很远的信息能力,也就是说记忆容量是有限的。例如,对于阅读一本书,从头到尾一字不漏的阅读,肯定是越远的东西忘得越多。所以引入了LSTM网络,对于LSTM来解决梯度消失梯度爆炸问题。

LSTM其实也是RNN的一种变体,大体结构几乎是一样的,但他们又有区别他的“记忆细胞”被改造过,该记忆的信息会一直传递下去,而不该记忆的东西会被“门”截断。

2. LSTM网络

对于RNN网络都是具有重复神经网络模块的链式形式,在一个标准RNN中这个重复的模块只要一个非常简单的结构,例如一个tanh层。

对于LSTM同样是这样的结构,但是重复的模块变得复杂了。

对于图中的一些细节,

在LSTM网络的图中,每一条黑线表示向量的传输,从一个节点的输出传入其它节点的输出。对于粉红色的圈代表着节点的操作,如向量的求和等。黄色的矩阵是学习到的网络层。Concatenate的线表示向量的连接,Copy的线表示内容复制,然后输出到不同的位置。

3. LSTM的关键点

对于LSTM的关键是细胞状态,细胞的状态类似于传送带,直接在整个链路上运行,只有一些少量的线性交互。

4. 细胞状态的控制

LSTM是通过“门”来控制细胞状态的,通过“门”来选择性通过,去除或者增加信息到细胞状态。它包含一个sigmoid网络层和一个pointwise乘法操作。Sigmoid层输入0到1之间的概率值,藐视每个部分有多少量可以通过,0代表不允许任何量通过,1代表允许任何量通过。LSTM是拥有三个门,来保护和控制细胞状态的。

5. LSTM几个关键“门”与操作

STEP 1: 决定从“细胞状态”中丢弃什么信息即“忘记门”。比如一篇小说的推导,小说中可能有几个人物,在读小说时候我们都会记住,但有些是不重要的这时候我就选择忘掉,而把重要的东西记住。总之,如果要决定之前的记忆以多大的程度被忘掉或者需要被保留,我们需要通过sigmoid函数去参考上一次的结果与当前考到的内容。

ft是输出0到1的概率,表示已多大的程度忘记之前的信息。h表示上一次输出的结果,x表示当前输入的信息。

STEP 2: 决定放什么信息到“细胞状态”中。从step 1中我们在传送带上忘记了一些东西,那我们应该补充点东西,对细胞转态进行更新。也就是说哪些东西要记住,这一步就是君顶放什么心信息到“细胞状态”中。

这里的Sigmoid层是决定什么值需要更新,也就是这一时刻我们新学到我们学到的东西哪些应该要记住,以多大的程度选择记住;Tanh层创建了一个新的候选值Ct,表示我们新学到的东西。

STEP 3: 更新细胞状态。前面两步就是为细胞状态的更新做准备的,更新C(t-1)为Ct。也就是把旧状态与ft相乘,丢掉我们确定需要丢弃的信息,加上it*Ct。这就是新的候选值,根据我们决定更新每个状态的程度进行变化。

从数学的角度来看,与RNN相比,在求偏导的时候RNN是进行链式相乘的,有一个效果不好,那么就会影响整个系统,效果影响到整个网络。而在LSTM中,从以上的公式可看出,做完Tanh后没在进行求和,所以再求偏导的时候,就算有一个效果不好也不会影响到整个网络,因为这里是进行加法运算的,所以很大程度上解决了梯度消失梯度爆炸问题。

STEP 4: 基于“细胞状态”输出。首先运行一个Sigmoid层来确定细胞状态的哪个部分将输出,接着用Tanh来处理细胞状态,这是一个从-1到1的值。然后再讲它和Sigmoid门的输出相乘,输出我们确定输出的那个部分。比如我们可能需要单复数信息来确定输出“他”还是“他们”。最终输出我们想要输出的部分。

6. LSTM主要变体

变种1:通过使用coupled忘记和输出门,之前是分开确定需要忘记和添加的信息,这里是一同作出决定。

变种二:Gated Recurrent Unit (GRU),2014年提出的,他将忘记门和输出门合成一个单一的更新门,同样还混合了细胞状态和隐藏转态,和其他一起改动,与标准的LSTM简单。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4772

    浏览量

    100833
  • rnn
    rnn
    +关注

    关注

    0

    文章

    89

    浏览量

    6895

原文标题:谈谈LSTM(Long Short-Term Memory)长短期记忆网络

文章出处:【微信号:Imgtec,微信公众号:Imagination Tech】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    什么是LSTM神经网络

    简单理解LSTM神经网络
    发表于 01-28 07:16

    高质量的双量子比特操作

    高质量的双量子比特操作(比如常见的CNOT,控制非门)是可扩展量子计算信息处理的关键。因为,在型量子计算里,可靠的单量子
    发表于 07-29 08:48

    深度解析LSTM的全貌

    原来,LSTM是神经网络的扩展,非常简单。深度学习在过去的几年里取得了许多惊人的成果,均与LSTM息息相关。因此,在本篇文章中我会用尽可能直观的方式为大家介绍LSTM——方便大家日后自己进行相关的探索。
    的头像 发表于 02-02 10:39 1w次阅读
    深度解析<b class='flag-5'>LSTM</b>的全貌

    LSTM的核心构成,实际中“”的效果如何?

    是否真的具有我们上述描述的意义呢?这也是我们这篇论文的出发点。为了探究这个问题,我们分析了IWSLT14德语-英语的翻译任务,这个翻译任务的模型是基于LSTM的端到端(sequence-to-sequence)结构。
    的头像 发表于 07-02 15:53 9968次阅读
    <b class='flag-5'>LSTM</b>的核心构成,实际中“<b class='flag-5'>门</b>”的效果如何?

    一种具有强记忆力的 E3D-LSTM网络,强化了LSTM的长时记忆能力

    标准 LSTM 单元结构 首先简要介绍一下标准 LSTM 结构,和 RNN 相比 LSTM 增加了更复杂的结构(图中黄色模块),主要解决 RNN 中存在的梯度消失问题,从而提高网
    的头像 发表于 09-01 07:35 1.1w次阅读
    一种具有强记忆力的 E3D-<b class='flag-5'>LSTM</b>网络,强化了<b class='flag-5'>LSTM</b>的长时记忆能力

    AXI协议的几个关键特性

    AXI 协议有几个关键特性,旨在改善数据传输和事务的带宽和延迟
    的头像 发表于 05-06 09:49 1142次阅读

    LSTM模型的基本组成

    的梯度消失或梯度爆炸问题。LSTM通过引入三个“”控制结构——遗忘、输入门和输出门,以及一个记忆细胞(memory cell),实现了对信息的有效存储和更新。本文将对LSTM模型的
    的头像 发表于 07-10 17:01 1322次阅读

    LSTM神经网络在时间序列预测中的应用

    LSTM是一种特殊的循环神经网络(RNN),它能够学习长期依赖关系。与传统的RNN相比,LSTM通过引入门控机制(输入门、遗忘、输出门)来解决梯度消失和梯度爆炸的问题,使其能够处理更长的序列数据。
    的头像 发表于 11-13 09:54 645次阅读

    使用LSTM神经网络处理自然语言处理任务

    ,NLP任务的处理能力得到了显著提升。 LSTM网络简介 LSTM网络是一种特殊的RNN,它通过引入门控机制来解决传统RNN在处理长序列数据时的梯度消失和梯度爆炸问题。LSTM的核心组件包括输入门、遗忘
    的头像 发表于 11-13 09:56 402次阅读

    LSTM神经网络的优缺点分析

    能够学习到长期依赖关系,这使得它在处理长序列数据时更为有效。LSTM通过引入门控机制(输入门、遗忘和输出门)来控制信息的流
    的头像 发表于 11-13 09:57 1437次阅读

    LSTM神经网络的调参技巧

    长短时记忆网络(Long Short-Term Memory, LSTM)是一种特殊的循环神经网络(RNN),它能够学习长期依赖信息。在实际应用中,LSTM网络的调参是一个复杂且关键的过程,直接影响
    的头像 发表于 11-13 10:01 615次阅读

    LSTM神经网络在语音识别中的应用实例

    神经网络简介 LSTM是一种特殊的循环神经网络(RNN),它能够学习长期依赖关系。在传统的RNN中,信息会随着时间的流逝而逐渐消失,导致网络难以捕捉长距离的依赖关系。LSTM通过引入门控机制(输入门、遗忘和输出门),有效地解决
    的头像 发表于 11-13 10:03 568次阅读

    LSTM神经网络的结构与工作机制

    的结构与工作机制的介绍: 一、LSTM神经网络的结构 LSTM神经网络的结构主要包括以下几个部分: 记忆单元(Memory Cell) : 记忆单元是LSTM网络的核心,负责在整个序列
    的头像 发表于 11-13 10:05 400次阅读

    LSTM神经网络在图像处理中的应用

    LSTM通过引入门控机制来解决传统RNN的梯度消失和梯度爆炸问题。这些门控机制包括输入门、遗忘和输出门,它们控制着信息的流动,使得网络能够记住或忘记信息。 LSTM在图像处理中的应用 1. 图像分类
    的头像 发表于 11-13 10:12 446次阅读

    深度学习框架中的LSTM神经网络实现

    处理、语音识别和时间序列预测等领域,LSTM已经成为一种流行的选择。 LSTM的基本原理 LSTM网络的核心是三个门控机制:输入门(Input Gate)、遗忘(Forget Gat
    的头像 发表于 11-13 10:16 381次阅读