0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

LSTM之父Jürgen Schmidhuber再发新作!

ml8z_IV_Technol 来源:未知 作者:李倩 2018-05-30 10:01 次阅读

LSTM之父Jürgen Schmidhuber,借鉴了人类认知世界的模式,为机器建造了一个世界观模型,本文带你一起来读LSTM之父的一篇最新力作,同时,手把手教你训练出一个有简单世界观的AI赛车手。

LSTM之父Jürgen Schmidhuber再发新作!

这一次,他借鉴了人类认知世界的模式,为机器建造了一个世界观模型。

诸多证据表明,人脑为了处理日常生活中的海量信息,学会了对这些时空信息作出抽象化的处理。借此,我们能够在面对周遭复杂的信息时,进行迅速而准确的分析。而我们在当前所“看”到的这个世界,也受到了大脑对未来世界预测的影响。

比方说,棒球选手可以毫不费力地击中时速100英里的棒球,正是得益于大脑对棒球运动轨迹的精确判断。

那么,我们能不能让机器也学会这样的世界观呢?机器有了世界观后又将具备怎么样的能力呢?

今天,我们就带你一起来读LSTM之父的一篇最新力作。同时,也会手把手教你训练出一个有简单世界观的AI赛车手。到底有多厉害,试了就知道!

提出问题

让我们通过一个具体案例来探究这个问题:如何让机器拥有世界观?

假设我们要训练出一个AI赛车手,让它擅长在2D赛道上驾驶汽车。示例如下图。

在每个时间节点,这个AI赛车手都会观察它的周围环境(64×64像素彩色图像),然后决定并执行操作——设定方向(-1到1)、加速(0到1)或制动(0到1)。在它执行操作后,它所处的环境会返回下一个观测结果。以此类推,这个过程讲不断重复。

它的目标是,在尽可能短的时间内走完赛道。

解决方案

我们给出一个由三部分组成的解决方案。

变分自编码器(VAE)

当你在开车的时候做决定时,你并不会主动分析你视图中的每一个“像素”——相反,你的大脑会将视觉信息凝聚成较少数量的“隐藏”实体,比如道路的笔直程度、即将到来的弯道以及你在道路中的相对位置,从而判断出你需要操作的下一个动作。

这正是VAE的要义所在——将64x64x3(RGB)输入图像压缩成一个长度为32的特征向量(z)。

借此,我们的AI赛车手可以用更少的信息去表示周围的环境,从而提高学习效率。

递归神经网络(RNN)

没有递归神经网络的AI赛车手可能会把车开成这样。。。

回想一下。当你开车的时候,其实是会对下一秒可能出现的情况进行持续预估的。

而RNN就能够模拟这种前瞻性思维。

与VAE类似,RNN试图捕捉到汽车在其所处环境中当前状态的隐藏特性,但这次的目的是要基于先前的“z”和先前的动作来预测下一个“z”的样子。

控制器(Controller)

目前为止,我们还没有提到任何有关选择动作的事情。因为,这些选择都是控制器要做的。

控制器是一个密集连接的神经网络,输入是z(VAE的当前隐藏状态——长度为32)和h(RNN的隐藏状态——长度为256)的串联,3个输出神经元对应于三个动作,并被缩放到适当的范围内。

为了理解这三个组成部分所担任的不同角色,以及他们是如何一起工作的,我们可以想象他们之间的一段对话:

世界模型体系结构图

VAE:(关注最新的64 * 64 * 3的观测结果)这看起来像一条直路,前方稍微向左弯曲,汽车朝向道路方向(z)。

RNN:基于该描述(z)和控制器在上一个时间节点(动作)选择加速的情况,我将更新我的隐藏状态(h),以便预测下一个观测结果仍然是笔直的道路,但要略微左转一点。

Controller:基于VAE(z)的描述和RNN(h)反馈的当前隐藏状态,我的神经网络下一个输出的动作为[0.34,0.8,0]。

然后,这个操作会被传递给环境,该环境会返回更新后的观测结果,并重新开始循环。

现在,让我们来实际演练一下吧!

实现代码来了

如果你使用的是高规格笔记本电脑,则可以在本地运行此解决方案,但我建议你在谷歌云计算平台(Google Cloud Compute)上用功能更强大的计算机来运行,从而在短时间内完成。

以下步骤已经在Linux(Ubuntu 16.04)上进行了测试——在Mac或Windows上只需要更改软件包安装的相关命令即可。

第一步:下载代码

在命令行中输入以下内容:

git clone https://github.com/AppliedDataSciencePartners/WorldModels.git

第二步:创建虚拟环境

创建一个Python3虚拟环境(这里使用的是virutalenv和virtualenvwrapper):

sudo apt-get install python-pipsudo pip install virtualenvsudo pip install virtualenvwrapperexport WORKON_HOME=~/.virtualenvssource /usr/local/bin/virtualenvwrapper.shmkvirtualenv --python=/usr/bin/python3 worldmodels

第三步:安装程序包

sudo apt-get install cmake swig python3-dev zlib1g-dev python-openglmpich xvfb xserver-xephyr vnc4servercd WorldModelspip install -r requirements.txt

第四步:生成随机训练数据

对于这个塞车问题,VAE和RNN都可以使用随机生成的训练数据——也就是在每个时间节点随机采取动作所生成的观测数据。实际上,我们可以使用伪随机动作,使车在初始状态就能加速离开起跑线。

由于VAE和RNN独立于决策控制器,我们需要确保遇到各种各样的观测结果,并且选择不同行动来应对,并将结果保存为训练数据。

要生成随机策略,请从命令行运行以下命令:

python 01_generate_data.py car_racing --total_episodes 2000 –start_batch 0 --time_steps 300

如果你的服务器没有显示结果,你可以运行以下命令:

xvfb-run -a -s "-screen 0 1400x900x24" python 01_generate_data.pycar_racing --total_episodes 2000 --start_batch 0 --time_steps 300

以上命令将会产生2000个策略,保存在200个批次中,每个批次10个)。

在./data文件夹中,你会看到以下文件(*为批次号):

obs_data_*.npy(此文件将64 * 64 * 3图像存储为numpy数组)

action_data_*.npy(此文件存储三维动作)

第五步:训练VAE

这里我们只需要用obs_data_*.npy就可以训练VAE。确保你已经完成了第四步,否则这个文件不在./data文件夹下。

在命令行中运行下列语句:

python 02_train_vae.py --start_batch 0 --max_batch 9 --new_model

在每一批从0到9的数据中都会训练出一个新的变分自编码器VAE。模型的权重保存在./vae/weights.h5中。“--new_model”参数表明从头开始训练模型。

如果文件夹中已经存在weights.h5,也没有声明“--new_model”参数,脚本将直接导入这个文件中的权重,继续训练现有的模型。这样的话,你就可以实现模型的迭代训练,而不需要对每批数据都重新运行。

VAE架构的相关参数都在./vae/arch.py文件里声明。

第六步:生成循环神经网络RNN数据

现在我们就可以利用这个训练好的VAE模型生成RNN模型的训练集。

RNN模型要求把经由VAE编码后的图像数据(z)和动作(a)作为输入,把一个时间步长前的由VAE模型编码后的图像数据作为输出。

运行这行命令可以生成这些数据:

python 03_generate_rnn_data.py --start_batch 0 --max_batch 9

这一步需要把第0至9批的obs_data_*.npy和action_data_*.npy文件转成在RNN中训练所需要的格式。

这两组文件保存在./data(*是批量编号)

rnn_input_*.npy(存储了[z a]串联向量)

rnn_output_*.npy(存储了前一个时间步长的z向量)

第七步:训练RNN模型

训练RNN只需要用到rnn_input_*.npy和rnn_output_*.npy文件。确认你已经完成了第六步,否则这个文件不在./data文件夹下。

在命令行运行:

python 04_train_rnn.py --start_batch 0 --max_batch 9 --new_model

在每一批从0到9的数据中都会训练出一个新的VAE。模型的权重保存在./rnn/weights.h5。“--new_model”表明从头开始训练模型。

和VAE训练很相似的是,如果文件夹中已经存在weights.h5,也没有声明“--new_model”标志,脚本将直接导入文件中的权重,继续训练现有的模型。这样的话,你就可以实现RNN模型的迭代训练,而不需要对每批数据都重新运行。

RNN循环神经网络模型的具体参数都在./rnn/arch.py文件里声明。

第八步:训练控制器

到了最有趣的部分了!

到目前为止,我们已经使用深度学习搭建了VAE模型和RNN模型。VAE能把高维的图片降至低维的隐藏数据,RNN用来预测隐藏空间中数据的时序变化。正因为我们可以对每个模型都采用随机抽取的数据来创建训练集,模型才有可能达到预期效果。

为了训练控制器,我们将采用强化学习的方法,它使用了名叫CMA-ES(自适应协方差矩阵进化算法)的进化算法。

输入是一个288(32+256)维向量,输出是一个3维向量,因此我们要训练的参数有288 * 3 + 1 (bias) = 867个。

CMA-ES算法,首先随机生成867个参数(即一个群体)的副本,然后对环境中每个群体成员变量做测试,并记录其平均得分。正如自然选择中的法则一样,产生最高得分的权重变量允许其继续“繁殖”,并生出下一代。

运行下列代码将在你的机器上启动这个过程,并为变量选择合适的值。

python 05_train_controller.py car_racing --num_worker 16 –num_worker_trial 4 --num_episode 16 --max_length 1000 --eval_steps 25

或者在服务器上运行,但不显示结果:

xvfb-run -s "-screen 0 1400x900x24" python 05_train_controller.py car_racing --num_worker 16 --num_worker_trial 2 --num_episode 4 –max_length 1000 --eval_steps 25

--num_worker 16:worker的个数不要超过可用内核的数量

--num_work_trial 2:每个worker测试的群体成员的数量(num_worker * num_work_trial表示每一代群体的总规模)

--num_episode 4:为群体的每个成员进行打分的次数(分数将是该次打分的平均得分)

--max_length 1000:一次打分中最大时间步长

--eval_steps 25:每隔25步对权重进行评估

默认情况下,控制器每次运行都会从零开始,将进程的当前状态保存到controller目录的pickle文件中。这样你就可以通过指定相关文件,从上一次保存的地方继续训练。

每生成一代后,算法的当前状态和最佳权重的集合将会输出到./controller文件夹。

第九步:可视化结果

经过200代的训练,我已经训练出一个平均得分约为833.13的角色。我在谷歌云上使用配置为Ubuntu 16.04, 18 vCPU, 67.5GB RAM的机器,采用的是本文给出的步骤和参数。

在论文中,作者试图在2000代训练后达到约906的平均得分,这是迄今为止该环境下的最高分。他利用了稍高的规格设置(例如10,000集训练数据,群体大小设为64,64台核心机器,每次试验16次)。

如果你想可视化控制器的当前状态,那你只需要运行下列代码:

python model.py car_racing –filename ./controller/car_racing.cma.4.32.best.json --render_mode –record_video

--filename:想要添加到控制器的权重json的路径

--render_mode :在屏幕上显示环境

--record_video:输出mp4文件到./video文件夹,展现出每个片段

--final_mode:运行100次控制器测试,输出平均得分

就是这样啦!

第十步:幻觉学习

到这一步已经很了不起了——但下一步则更令人兴奋哦,同时对人工智能未来的发展也很有启发意义。

增加难度,我们可以让赛车在行进过程中避免火球的袭击。

作者展示了角色将怎样实际地学会如何在自己的VAE / RNN模型启发的幻觉梦境中玩游戏,而不是在实际的游戏环境中。

我们唯一需要做出的改变是,训练RNN使其也可以预测出在下一个时间步长中赛车被火球击中的概率。这样,VAE / RNN组合模型可以作为一个独立的环境被封装起来,并用于训练控制器。这就是“世界模式”的概念。

我们将幻觉学习的概念总结如下:

角色的初始训练数据不过是与真实环境的随机互动。通过这一互动,它对世界“如何运作”形成了一种潜在的理解——世界运作的物理规律,以及自己的行为会如何影响世界的状态。

然后,它可以利用这种理解为一个给定的任务建立一个最佳策略,甚至无需在现实环境中进行测试,因为它可以使用自己的一套环境模型作为各种测试的“试验场”。

就像婴儿学走路一样。小婴儿通过自己的探索建立一个初步的世界观,明白自己的动作会带来的后果,然后一步步调整自己的策略。在这一过程中,婴儿甚至能够在脑海中进行自我模拟。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 控制器
    +关注

    关注

    112

    文章

    16392

    浏览量

    178451
  • 神经网络
    +关注

    关注

    42

    文章

    4773

    浏览量

    100877
  • 机器
    +关注

    关注

    0

    文章

    784

    浏览量

    40752

原文标题:LSTM之父最新力作:教你如何训练一个有世界观的AI赛车手

文章出处:【微信号:IV_Technology,微信公众号:智车科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    版主新作。废旧笔记本屏幕改成显示器。申请加精。

    `版主新作。废旧笔记本屏幕改成显示器。申请加精。由于个人原因。很久没在论坛露脸了。对不起大家。最近一直觉得没有拿得出手的diy作品。今天趁放假把跟随了我很多很多很多年的彻底报废了的笔记本电脑的屏幕
    发表于 04-06 19:54

    新作

    `最新作品, 基于STC89c52rc+`
    发表于 04-10 18:13

    新作

    新作品, 基于STC89c52rc+
    发表于 04-10 18:13

    JU38200WA000,JU38250WN000 日本CHINO晶闸管

    JU38200WA000,JU38250WN000日本CHINO晶闸管JU38200WA000,JU38250WN000日本CHINO晶闸管代理日本CHINO千野仪器仪表详询请致电
    发表于 03-05 15:31

    调整器JU40100WA000 JU119k098

    调整器JU40100WA000 JU119k098调整器JU40100WA000 JU119k098吴 经 理:132,466.75433工-作-q:16625,43848CHINO千
    发表于 01-20 11:45

    什么是LSTM神经网络

    简单理解LSTM神经网络
    发表于 01-28 07:16

    22JU6.pdf 电子管资料数据手册

    22JU6.pdf 电子管资料数据手册
    发表于 08-01 15:47 5次下载

    深度解析LSTM的全貌

    原来,LSTM是神经网络的扩展,非常简单。深度学习在过去的几年里取得了许多惊人的成果,均与LSTM息息相关。因此,在本篇文章中我会用尽可能直观的方式为大家介绍LSTM——方便大家日后自己进行相关的探索。
    的头像 发表于 02-02 10:39 1w次阅读
    深度解析<b class='flag-5'>LSTM</b>的全貌

    图灵奖为什么没颁给LSTM之父rgen Schmidhuber

    因为他坚持认为现在大火的GAN就是PM的变种,两者的区别就在于方向是反的,为此,Jürgen Schmidhuber还和GAN的提出者Ian Goodfellow有过线上线下激烈的交锋,业界至今记忆犹新。
    的头像 发表于 04-08 11:54 9244次阅读

    LSTM的硬件加速方式

    Long-short term memory,简称LSTM,被广泛的应用于语音识别、机器翻译、手写识别等。LSTM涉及到大量的矩阵乘法和向量乘法运算,会消耗大量的FPGA计算资源和带宽。为了实现硬件加速,提出了稀疏LSTM
    发表于 08-24 10:32 3030次阅读
    <b class='flag-5'>LSTM</b>的硬件加速方式

    人工智能300年!LSTM之父万字长文:详解现代AI和深度学习发展史

    来源:新智元 编辑:昕朋 好困 导读 最近,LSTM之父rgen Schmidhuber梳理了17世纪以来人工智能的历史。在这篇万字长文中,Sc
    的头像 发表于 01-10 12:25 660次阅读

    PyTorch教程-10.1. 长短期记忆 (LSTM)

    10.1. 长短期记忆 (LSTM)¶ Colab [火炬]在 Colab 中打开笔记本 Colab [mxnet] Open the notebook in Colab Colab
    的头像 发表于 06-05 15:44 848次阅读
    PyTorch教程-10.1. 长短期记忆 (<b class='flag-5'>LSTM</b>)

    人工智能300年!LSTM之父万字长文:详解现代AI和深度学习发展史

    来源:新智元编辑:昕朋好困导读最近,LSTM之父JürgenSchmidhuber梳理了17世纪以来人工智能的历史。在这篇万字长文中,Schmidhuber为读者提供了一个大事年表,其中包括神经网络
    的头像 发表于 01-13 11:02 969次阅读
    人工智能300年!<b class='flag-5'>LSTM</b><b class='flag-5'>之父</b>万字长文:详解现代AI和深度学习发展史

    C++之父新作带你勾勒现代C++地图

    为了帮助大家解决这些痛点问题,让大家领略现代C++之美,掌握其中的精髓,更好地使用C++,C++之父Bjarne Stroustrup坐不住了,他亲自操刀写就了这本《C++之旅》!
    的头像 发表于 10-30 16:35 875次阅读
    C++<b class='flag-5'>之父</b><b class='flag-5'>新作</b>带你勾勒现代C++地图

    LSTM神经网络的优缺点分析

    长短期记忆(Long Short-Term Memory, LSTM)神经网络是一种特殊的循环神经网络(RNN),由Hochreiter和Schmidhuber在1997年提出。LSTM因其在处理
    的头像 发表于 11-13 09:57 1551次阅读