电子发烧友App

硬声App

0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示
创作
电子发烧友网>电子资料下载>人工智能>简单理解LSTM神经网络

简单理解LSTM神经网络

2021-03-04 | pdf | 782.98KB | 次下载 | 2积分

资料介绍

递归神经网络

在传统神经网络中,模型不会关注上一时刻的处理会有什么信息可以用于下一时刻,每一次都只会关注当前时刻的处理。举个例子来说,我们想对一部影片中每一刻出现的事件进行分类,如果我们知道电影前面的事件信息,那么对当前时刻事件的分类就会非常容易。实际上,传统神经网络没有记忆功能,所以它对每一刻出现的事件进行分类时不会用到影片已经出现的信息,那么有什么方法可以让神经网络能够记住这些信息呢?答案就是Recurrent Neural Networks(RNNs)递归神经网络。

递归神经网络的结果与传统神经网络有一些不同,它带有一个指向自身的环,用来表示它可以传递当前时刻处理的信息给下一时刻使用,结构如下:


其中, Xt 为输入,A 为模型处理部分, ht 为输出。

为了更容易地说明递归神经网络,我们把上图展开,得到:


这样的一条链状神经网络代表了一个递归神经网络,可以认为它是对相同神经网络的多重复制,每一时刻的神经网络会传递信息给下一时刻。如何理解它呢?假设有这样一个语言模型,我们要根据句子中已出现的词预测当前词是什么,递归神经网络的工作原理如下:


其中,W 为各类权重,x 表示输入,y 表示输出,h 表示隐层处理状态。

递归神经网络因为具有一定的记忆功能,可以被用来解决很多问题,例如:语音识别、语言模型、机器翻译等。但是它并不能很好地处理长时依赖问题。

长时依赖问题

长时依赖是这样的一个问题,当预测点与依赖的相关信息距离比较远的时候,就难以学到该相关信息。例如在句子”我出生在法国,……,我会说法语“中,若要预测末尾”法语“,我们需要用到上下文”法国“。理论上,递归神经网络是可以处理这样的问题的,但是实际上,常规的递归神经网络并不能很好地解决长时依赖,好的是LSTMs可以很好地解决这个问题。

LSTM 神经网络

Long Short Term Mermory network(LSTM)是一种特殊的RNNs,可以很好地解决长时依赖问题。那么它与常规神经网络有什么不同?
首先我们来看RNNs具体一点的结构:


所有的递归神经网络都是由重复神经网络模块构成的一条链,可以看到它的处理层非常简单,通常是一个单tanh层,通过当前输入及上一时刻的输出来得到当前输出。与神经网络相比,经过简单地改造,它已经可以利用上一时刻学习到的信息进行当前时刻的学习了。

LSTM的结构与上面相似,不同的是它的重复模块会比较复杂一点,它有四层结构:


其中,处理层出现的符号及表示意思如下:


LSTMs的核心思想

理解LSTMs的关键就是下面的矩形方框,被称为memory block(记忆块),主要包含了三个门(forget gate、input gate、output gate)与一个记忆单元(cell)。方框内上方的那条水平线,被称为cell state(单元状态),它就像一个传送带,可以控制信息传递给下一时刻。


这个矩形方框还可以表示为:


这两个图可以对应起来看,下图中心的 ct 即cell,从下方输入( ht−1 , xt )到输出 ht的一条线即为cell state, ft,it,ot 分别为遗忘门、输入门、输出门,用sigmoid层表示。上图中的两个tanh层则分别对应cell的输入与输出。

LSTM可以通过门控单元可以对cell添加和删除信息。通过门可以有选择地决定信息是否通过,它有一个sigmoid神经网络层和一个成对乘法操作组成,如下:


该层的输出是一个介于0到1的数,表示允许信息通过的多少,0 表示完全不允许通过,1表示允许完全通过。

逐步解析LSTM

LSTM第一步是用来决定什么信息可以通过cell state。这个决定由“forget gate”层通过 sigmoid 来控制,它会根据上一时刻的输出 ht−1 和当前输入 xt 来产生一个0到1 的 ft 值,来决定是否让上一时刻学到的信息 Ct−1 通过或部分通过。如下:


举个例子来说就是,我们在之前的句子中学到了很多东西,一些东西对当前来讲是没用的,可以对它进行选择性地过滤。

第二步是产生我们需要更新的新信息。这一步包含两部分,第一个是一个“input gate”层通过sigmoid来决定哪些值用来更新,第二个是一个tanh层用来生成新的候选值,它作为当前层产生的候选值可能会添加到cell state中。我们会把这两部分产生的值结合来进行更新。


现在我们对老的cell state进行更新,首先,我们将老的cell state乘以 ft 来忘掉我们不需要的信息,然后再与 it相加,得到了候选值。
一二步结合起来就是丢掉不需要的信息,添加新信息的过程:

举个例子就是,在前面的句子中我们保存的是张三的信息,现在有了新的李四信息,我们需要把张三的信息丢弃掉,然后把李四的信息保存下来。

最后一步是决定模型的输出,首先是通过sigmoid层来得到一个初始输出,然后使用tanh将 Ct 值缩放到-1到1间,再与sigmoid得到的输出逐对相乘,从而得到模型的输出。

这显然可以理解,首先sigmoid函数的输出是不考虑先前时刻学到的信息的输出,tanh函数是对先前学到信息的压缩处理,起到稳定数值的作用,两者的结合学习就是递归神经网络的学习思想。至于模型是如何学习的,那就是后向传播误差学习权重的一个过程了。

上面是对LSTM一个典型结构的理解,当然,它也会有一些结构上的变形,但思想基本不变,这里也就不多讲了。



来源:电子创新网

下载该资料的人也在下载 下载该资料的人还在阅读
更多 >

评论

查看更多

下载排行

本周

  1. 1HFSS电磁仿真设计应用详解PDF电子教程免费下载
  2. 24.30 MB   |  128次下载  |  1 积分
  3. 2雷达的基本分类方法
  4. 1.25 MB   |  4次下载  |  4 积分
  5. 3电感技术讲解
  6. 827.73 KB  |  2次下载  |  免费
  7. 4从 MSP430™ MCU 到 MSPM0 MCU 的迁移指南
  8. 1.17MB   |  2次下载  |  免费
  9. 5有源低通滤波器设计应用说明
  10. 1.12MB   |  2次下载  |  免费
  11. 6RA-Eco-RA2E1-48PIN-V1.0开发板资料
  12. 35.59 MB  |  2次下载  |  免费
  13. 7面向热插拔应用的 I2C 解决方案
  14. 685.57KB   |  1次下载  |  免费
  15. 8爱普生有源晶体振荡器SG3225EEN应用于储能NPC、新能源
  16. 317.46 KB  |  1次下载  |  免费

本月

  1. 12024年工控与通信行业上游发展趋势和热点解读
  2. 2.61 MB   |  763次下载  |  免费
  3. 2HFSS电磁仿真设计应用详解PDF电子教程免费下载
  4. 24.30 MB   |  128次下载  |  1 积分
  5. 3继电保护原理
  6. 2.80 MB   |  36次下载  |  免费
  7. 4正激、反激、推挽、全桥、半桥区别和特点
  8. 0.91 MB   |  32次下载  |  1 积分
  9. 5labview实现DBC在界面加载配置
  10. 0.57 MB   |  21次下载  |  5 积分
  11. 6在设计中使用MOSFET瞬态热阻抗曲线
  12. 1.57MB   |  15次下载  |  免费
  13. 7GBT 4706.1-2024家用和类似用途电器的安全第1部分:通用要求
  14. 7.43 MB   |  14次下载  |  免费
  15. 8AD18学习笔记
  16. 14.47 MB   |  8次下载  |  2 积分

总榜

  1. 1matlab软件下载入口
  2. 未知  |  935113次下载  |  10 积分
  3. 2开源硬件-PMP21529.1-4 开关降压/升压双向直流/直流转换器 PCB layout 设计
  4. 1.48MB  |  420061次下载  |  10 积分
  5. 3Altium DXP2002下载入口
  6. 未知  |  233084次下载  |  10 积分
  7. 4电路仿真软件multisim 10.0免费下载
  8. 340992  |  191360次下载  |  10 积分
  9. 5十天学会AVR单片机与C语言视频教程 下载
  10. 158M  |  183329次下载  |  10 积分
  11. 6labview8.5下载
  12. 未知  |  81578次下载  |  10 积分
  13. 7Keil工具MDK-Arm免费下载
  14. 0.02 MB  |  73804次下载  |  10 积分
  15. 8LabVIEW 8.6下载
  16. 未知  |  65985次下载  |  10 积分