近日,谷歌DeepMind强化学习研究团队负责人、AlphaGo项目首席研究员Dave Silver在Deep Learning Indaba活动的主题演讲中归纳出了强化学习中要注意的10大要点。一起来看看,也许能少走点弯路。
近日,在南非斯泰伦博斯举行的Deep Learning Indaba活动上,谷歌DeepMind强化学习研究团队负责人、AlphaGo项目首席研究员Dave Silver在主题演讲中归纳出强化学习中要注意的10大要点。
活动主办方将Dave Silver演讲的PPT截图和文字要点发在了推特上,引发了广泛讨论。
Silver的演讲中提出的强化学习10大要点涵盖涉及算法评估、状态控制、建模函数等方面的心得和建议,非常值得开发者和机器学习爱好者参考学习。一起看看他是怎么说的吧!
1、在评估中产生进步
客观、量化的估计会产生进步,对评估尺度的选择会决定进步的方向。这可能是项目推进过程中做出的最重要的决定。
目标驱动型研究:确认评估标准与最终目标密切相关。避免主观评估
假设驱动型研究:提出假设,在宽泛的条件下验证假设,与相似结果对比,而不是与最先进的结果对比。重要的是对结果的理解,而不是追求排名。
2、算法的可扩展性决定是否成功
算法的可扩展性是指其性能随资源的梯度变化。这里的资源可能是计算、存储和数据。算法的可扩展性决定了能否项目能否成功,它几乎永远比算法的起点重要。最终,好的算法总是无限资源条件下的最优解决方案。
3、稳定算法的通用性
算法通用性是指算法在不同深度学习环境下的表现。应避免对当前任务的过拟合。积极寻求可以适用于未来未知环境下的算法。
结论:要广泛验证,建立现实的机器学习环境。
4、 信任智能体的经验
经验(包括观察、动作、奖励)是指深度学习的数据。信任这些经验,将其作为唯一知识来源。尽管这些经验看上去不可学习,但最终长期来看,经验终将取得成功。
5、状态是主观的
智能体应该基于经验建立自身的状态,智能体的状态是关于其先前状态和新观察数据的函数。任何时候不要定义某一环境下的“真实”状态。
6、控制数据流
智能体处于大量数据流传感器环境中,智能体的行为会对数据流造成影响。
控制特征——控制数据流——控制未来——实现任何回报的最大化。
7、价值函数可以对世界建模
价值函数是对未来的高效归纳和缓存。多关注固定时间段的查找,而非指数级的前瞻。可以独立计算和学习。利用多价值函数可以在不同时间范围内,对世界各个方面进行高效建模。
应避免使用原始的时间步长对世界进行建模。
8、从想象的经验中进行学习
想象接下来会发生什么,从想象的经验中进行学习,同时关注在当前时刻的值函数估计。
9、加强函数逼近器
差异化网络架构是一种有力工具,可以用来:以丰富的方式表示状态,实现差异化存储、差异化规划、层级控制。
将算法的复杂性融入网络架构,可以降低算法的复杂度,增加网络架构的可表达性。
10、要学习“如何学习”
人工智能的发展史呈现出一条清晰的发展脉络。
第一代:“美好的”老式人工智能。手动控制预测,不学习任何内容。
第二代:浅度学习。手动控制特征,学习预测。
第三代:深度学习。手动控制算法(优化器、目标、架构),学习特征和端对端预测。
第四代:Meta学习。无手动环节,学习算法、特征和端对端预测。
-
谷歌
+关注
关注
27文章
6142浏览量
105099 -
强化学习
+关注
关注
4文章
266浏览量
11213 -
DeepMind
+关注
关注
0文章
129浏览量
10819
原文标题:AlphaGo首席研究员亲授!十张PPT,十大强化学习黄金法则!
文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
评论