DeepMind终于公开了它联合UCL的“高级深度强化学习课程”！-电子发烧友网

一直走在深度学习研究最前沿的DeepMind，终于公开了它联合UCL的“高级深度强化学习课程”！18节课24小时，一天看完Deep RL及其2018最新进展。

今天，DeepMind 官推贴出一则告示，将 DeepMind 研究人员今年在 UCL 教授的深度强化学习课程“Advanced Deep Learning and Reinforcement Learning” 资源全部公开。

一共18节课，走过路过不能错过。

深度强化学习是人工智能领域的一个新的研究热点，从AlphaGo开始，DeepMind便在这一领域独占鳌头。

深度强化学习以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合，并能够通过端对端的学习方式实现从原始输入到输出的直接控制。自提出以来，在许多需要感知高维度原始输入数据和决策控制的任务中都取得了实质性的突破。

2018年，南京大学的AI单机训练一天，击败《星际争霸》最高难度内置Bot，OpenAI 打 DOTA2 超越了Top 1%的人类玩家，深度强化学习不断在进展。

结合算法的发展和实际应用场景，DeepMind在UCL教授的这门课程内容也是最前沿的。

还有关键一点，那就是视频的质量和清晰度超赞啊（需要科学上网）。

DeepMind亲授“高级深度强化学习课程”

这门课程是DeepMind与伦敦大学学院（UCL）的合作项目，由于DeepMind的研究人员去UCL授课，内容由两部分组成，一是深度学习（利用深度神经网络进行机器学习），二是强化学习（利用强化学习进行预测和控制），最后两条线结合在一起，也就成了DeepMind的拿手好戏——深度强化学习。

关于深度强化学习，DeepMind一直在努力，比如最新发表的研究让 AI 行动符合人类意图。

这门课也是结合案例讲解的，值得一提，最后一课“第18节：深度强化学习的经典案例”，讲师是 David Silver，这位AlphaGo背后的英雄以及AlphaZero灵魂人物，他讲的课程无论如何也应该听一听。

David Silver在UCL讲课的视频截图

在深度学习部分，课程简要介绍了神经网络和使用TensorFlow的监督学习，然后讲授卷积神经网络、递归神经网络、端到端并基于能量的学习、优化方法、无监督学习以及注意力和记忆。讨论的应用领域包括对象识别和自然语言处理。

强化学习部分将涵盖马尔科夫决策过程、动态规划、无模型预测和控制、价值函数逼近、策略梯度方法、学习与规划的集成以及探索/开发困境。讨论的可能应用包括学习玩经典的棋盘游戏和电子游戏。

总体来说，这是一门偏向实践的课程，需要PyTorch和编码基础，学完以后，学生能够在TensorFlow上熟练实现深度学习、强化学习以及深度强化学习相关的一系列算法。

因此，除了深度学习、强化学习和深度强化学习的基础知识，深度神经网络的训练以及优化方法，这门课更加注重如何在TensorFlow中实现深度学习算法，以及如何在复杂动态环境中应用强化学习。

18节课一共24小时，一天看完深度强化学习进展

课程团队

深度学习1：介绍基于机器学习的AI

深度学习2：介绍TensorFlow

深度学习3：神经网络基础

强化学习1：强化学习简介

强化学习2：开发和利用

强化学习3：马尔科夫决策过程和动态编程

强化学习4：无模型的预测和控制

深度学习4：图像识别、端到端学习和Embeddings之外

强化学习5：函数逼近和深度强化学习

强化学习6：策略梯度和Actor Critics

深度学习5：机器学习的优化方法

强化学习7：规划和模型

深度学习6：NLP的深度学习

强化学习8：深度强化学习中的高级话题

深度学习7：深度学习中的注意力和记忆

强化学习9：深度RL智能体简史

深度学习8：无监督学习和生成式模型

强化学习10：经典游戏的案例学习

18节课一共24小时，一天看完高级深度强化学习

下面我们介绍第14节“深度强化学习中的高级话题”。讲课人是DeepMind研究科学家Hado Van Hasselt。Hado Van Hasselt的研究兴趣包括人工智能、机器学习、深度学习，尤其是强化学习。加入DeepMind之前，他在阿尔伯塔大学与Richard Sutton教授合作过。

Hado Van Hasselt是许多前沿论文的共同作者，包括Double Q-learning、DuelingDQN、rainbow DQN、强化学习的Ensemble算法等。

在这一节，Hasselt讲了深度强化学习中一些积极的研究主题，这些主题很好地突出了这一领域中正在取得的进展。

前面已经介绍过的强化学习研究主题包括：学习在bandit问题中做决策；序列决策问题；model-free的预测和控制；deep RL中的函数逼近；策略梯度和actor-critic方法；以及从模型中学习。

而高级话题，是这些。

最主要的问题是：如何将未来的奖励最大化？

这个大问题可以分解成一些子问题：

学习什么？（预测、模型、策略……）

如何学习这些？（TD、规划……）

如何表示这些学习到的知识？（深度网络、sample buffers，……）

如何利用这些学习到的知识？

其中一些活跃研究主题包括：

在完全序列，函数逼近设置中的“探索”（Exploration）

利用延迟奖励的credit assignment

局部规划或不精确的模型

样本效率模型

Appropriate generalization

构建有用、通用且信息丰富的agent state

Case study：rainbow DQN(Hasselt et al. 2018)

在这个研究中，Hasselt等人提出rainbow DQN，整合了DQN算法的6种变体，并证明它们很大程度上是互补。DQN的基本想法是利用target networks和experience replay。

这节课接下来的大部分内容围绕这个case，介绍了最新的技术和思想，请观看视频获得更详细的解释。

理解了分布（distribution），或许能对任务有所帮助。这是分布式强化学习的想法。分布式强化学习也意味着representation（例如深度神经网络）被迫要学习更多。

这可以加快学习：因为学习更多意味着更少的样本。

以下是分布式强化学习的具体案例。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4787

浏览量
101348
强化学习

强化学习

+关注

关注
4

文章
268

浏览量
11323
DeepMind

DeepMind

+关注

关注
0

文章
131

浏览量
10996

原文标题：DeepMind高赞课程：24小时看完深度强化学习最新进展（视频）

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

BP神经网络与深度学习的关系

），是一种多层前馈神经网络，它通过反向传播算法进行训练。BP神经网络由输入层、一个或多个隐藏层和输出层组成，通过逐层递减的方式调整网络权重，目的是最小化网络的输出误差。二、深度学习的定义与发展

发表于 02-12 15:15 •191次阅读

浅谈适用规模充电站的深度学习有序充电策略

深度强化学习能够有效计及电动汽车出行模式和充电需求的不确定性，实现充电场站充电成本化的目标。通过对电动汽车泊车时间和充电需求特征进行提取，建立适用于大规模电动汽车有序充电的马尔可夫决策过程模型，并

发表于 02-08 15:00 •179次阅读

浅谈适用规模充电站的<b class='flag-5'>深度</b><b class='flag-5'>学习</b>有序充电策略

蚂蚁集团收购边塞科技，吴翼出任强化学习实验室首席科学家

近日，专注于模型赛道的初创企业边塞科技宣布被蚂蚁集团收购。据悉，此次交易完成后，边塞科技将保持独立运营，而原投资人已全部退出。与此同时，蚂蚁集团近期宣布成立强化学习实验室，旨在推动大模型强化学习

发表于 11-22 11:14 •826次阅读

NPU在深度学习中的应用

随着人工智能技术的飞速发展，深度学习作为其核心驱动力之一，已经在众多领域展现出了巨大的潜力和价值。NPU（Neural Processing Unit，神经网络处理单元）是专门为深度学习

发表于 11-14 15:17 •1081次阅读

如何使用 PyTorch 进行强化学习

强化学习（Reinforcement Learning, RL）是一种机器学习方法，它通过与环境的交互来学习如何做出决策，以最大化累积奖励。PyTorch 是一个流行的开源机器

发表于 11-05 17:34 •478次阅读

GPU深度学习应用案例

GPU在深度学习中的应用广泛且重要，以下是一些GPU深度学习应用案例：一、图像识别图像识别是深度学习

发表于 10-27 11:13 •566次阅读

AI大模型与深度学习的关系

AI大模型与深度学习之间存在着密不可分的关系，它们互为促进，相辅相成。以下是对两者关系的介绍：一、深度学习是AI大模型的基础技术支撑：深度

发表于 10-23 15:25 •1627次阅读

谷歌AlphaChip强化学习工具发布，联发科天玑芯片率先采用

近日，谷歌在芯片设计领域取得了重要突破，详细介绍了其用于芯片设计布局的强化学习方法，并将该模型命名为“AlphaChip”。据悉，AlphaChip有望显著加速芯片布局规划的设计流程，并帮助芯片在性能、功耗和面积方面实现更优表现。

发表于 09-30 16:16 •500次阅读

Python在AI中的应用实例

Python在人工智能（AI）领域的应用极为广泛且深入，从基础的数据处理、模型训练到高级的应用部署，Python都扮演着至关重要的角色。以下将详细探讨Python在AI中的几个关键应用实例，包括机器学习、深度

发表于 07-19 17:16 •1569次阅读

深度学习中的时间序列分类方法

时间序列分类（Time Series Classification, TSC）是机器学习和深度学习领域的重要任务之一，广泛应用于人体活动识别、系统监测、金融预测、医疗诊断等多个领域。随着深度

发表于 07-09 15:54 •1267次阅读

深度学习与nlp的区别在哪

方法，它通过模拟人脑的神经网络结构，实现对数据的自动特征提取和学习。深度学习的核心是构建多层的神经网络结构，每一层都包含大量的神经元，这些神经元通过权重连接，实现对输入数据的逐层抽象和

发表于 07-05 09:47 •1108次阅读

深度学习模型训练过程详解

深度学习模型训练是一个复杂且关键的过程，它涉及大量的数据、计算资源和精心设计的算法。训练一个深度学习模型，本质上是通过优化算法调整模型参数，

发表于 07-01 16:13 •1649次阅读

通过强化学习策略进行特征选择

更快更好地学习。我们的想法是找到最优数量的特征和最有意义的特征。在本文中，我们将介绍并实现一种新的通过强化学习策略的特征选择。我们先讨论强化学习，尤其是马尔可夫决策

发表于 06-05 08:27 •457次阅读

FPGA在深度学习应用中或将取代GPU

现场可编程门阵列 (FPGA) 解决了 GPU 在运行深度学习模型时面临的许多问题在过去的十年里，人工智能的再一次兴起使显卡行业受益匪浅。英伟达 (Nvidia) 和 AMD 等公司的股价也大幅

发表于 03-21 15:19

fpga学习需要具备哪些课程

FPGA（Field Programmable Gate Array）学习需要具备一系列的课程知识和实践技能

发表于 03-14 15:51 •1359次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

DeepMind终于公开了它联合UCL的“高级深度强化学习课程”！

评论

BP神经网络与深度学习的关系

浅谈适用规模充电站的深度学习有序充电策略

蚂蚁集团收购边塞科技，吴翼出任强化学习实验室首席科学家

NPU在深度学习中的应用

如何使用 PyTorch 进行强化学习

GPU深度学习应用案例

AI大模型与深度学习的关系

谷歌AlphaChip强化学习工具发布，联发科天玑芯片率先采用

Python在AI中的应用实例

深度学习中的时间序列分类方法

深度学习与nlp的区别在哪

深度学习模型训练过程详解

通过强化学习策略进行特征选择

FPGA在深度学习应用中或将取代GPU

fpga学习需要具备哪些课程