0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

深度学习和强化学习的重要概念和公式

新机器视觉 来源:模型视角 2023-03-08 16:48 次阅读

神经网络(Neural Networks)

神经网络是一类用层构建的模型。常用的神经网络类型包括卷积神经网络和递归神经网络。

结构

关于神经网络架构的描述如下图所示:

33408748-a9c9-11ed-bfe3-dac502259ad0.png

记 为网络的第 层, 为一层中隐藏的第 个 单元,得到:

式中 分别表示权重,偏移和输出。

激活函数

在隐含单元的末端使用激活函数向模型引入非线性复杂性。以下是最常见的几种:

3354c4ce-a9c9-11ed-bfe3-dac502259ad0.png

交叉熵损失(Cross-entropy loss)

在神经网络中,交叉熵损失 是常用的,定义如下:

学习率(Learning rate)

学习率通常记作 ,表示在哪一步权重得到了更新。这个可以是固定的,也可以是自适应变化的。目前最流行的方法是 Adam,这是一种自适应学习率的方法。

反向传播(Backpropagation)

反向传播是一种通过考虑实际输出和期望输出更新神经网络权重的方法。权重 的导数用链式法则计算(chain rule),它的形式如下:

因此权重更新如下:

更新权重

在神经网络中,权重的更新方式如下:

第一步:对训练数据取一批(batch);第二步:进行正向传播以获得相应的损失;第三步:反向传播损失,得到梯度;第四步:使用梯度更新网络的权重。

丢弃(Dropout)

它是一种通过在神经网络中删除单元来防止过度拟合训练数据的技术。实际应用中,单元被删除的概率是 ,或被保留的概率是 。

卷积神经网络(Convolutional Neural Networks)

卷积层需求

记 为输入量大小, 为卷积层神经元大小, 为 zero padding 数量,那么匹配给定体积输入的神经元数量 为:

批量正则化(Batch normalization)

这一步是超参数(hyperparameter) 正则化批量 。记 分别为批量值的平均值和方差,正则化表示如下:

它通常用于完全连接或卷积层之后,且在非线性层之前。目的是允许更高的学习率,减少初始化的强依赖。

递归神经网络(Recurrent Neural Networks)

门类型(Types of gates)

以下是在我们碰到的典型递归神经网络中存在的不同类型的门:

输入门(Input gate) 忘记门(Forget gate) 输出门(Output gate) 门(Gate)
是否写入神经元? 是否擦出神经元? 是否显示神经元? 写入多少

长短期记忆网络(LSTM, Long Short-Term Memory)

长短期记忆网络是RNN模型的一种,它通过添加“忘记”门来避免梯度消失问题。

强化学习与控制(Reinforcement Learning and Control)

强化学习的目标是让代理(agent)学会如何在环境中进化。

马尔科夫决策过程(Markov decision processes)

马尔科夫决策过程(MDP)是一个5元组 ,其中:

是一组状态。

是一组行为。

是 和 的状态转换概率。

是discount系数。

或者 是算法要最大化的奖励函数。

策略(Policy)

策略 是一个映射状态到行为的函数 。

备注:我们说,如果给定一个状态 ,我们执行一个给定的策略 ,得到的行为是 。

价值函数(Value function)

对于给定的策略 和状态 ,我们定义价值函数如下 :

贝尔曼方程(Bellman equation)

最优贝尔曼方程描述了最优策略 的价值函数 :

备注:对于给定的状态 ,我们记最优策略 为:

价值迭代算法(Value iteration algorithm)

算法包含2步:

第一步,初始化价值:

第二步,基于之前的价值进行迭代:

最大似然估计(Maximum likelihood estimate)

状态转移概率的最大似然估计如下:

的行为次数

Q-learning

Q-learning是 一种无模型,公式如下:

审核编辑:汤梓红
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4773

    浏览量

    100877
  • 算法
    +关注

    关注

    23

    文章

    4617

    浏览量

    93032
  • 函数
    +关注

    关注

    3

    文章

    4333

    浏览量

    62728
  • 深度学习
    +关注

    关注

    73

    文章

    5506

    浏览量

    121260
  • 强化学习
    +关注

    关注

    4

    文章

    267

    浏览量

    11266

原文标题:全面整理:深度学习(ANN,CNN,RNN)和强化学习重要概念和公式

文章出处:【微信号:vision263com,微信公众号:新机器视觉】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    什么是深度强化学习?深度强化学习算法应用分析

    什么是深度强化学习? 众所周知,人类擅长解决各种挑战性的问题,从低级的运动控制(如:步行、跑步、打网球)到高级的认知任务。
    发表于 07-01 10:29 1478次阅读
    什么是<b class='flag-5'>深度</b><b class='flag-5'>强化学习</b>?<b class='flag-5'>深度</b><b class='flag-5'>强化学习</b>算法应用分析

    深度强化学习实战

    一:深度学习DeepLearning实战时间地点:1 月 15日— 1 月18 日二:深度强化学习核心技术实战时间地点: 1 月 27 日— 1 月30 日(第一天报到 授课三天;提前
    发表于 01-10 13:42

    深度学习强化学习相结合的深度强化学习DRL

    深度强化学习DRL自提出以来, 已在理论和应用方面均取得了显著的成果。尤其是谷歌DeepMind团队基于深度强化学习DRL研发的AlphaGo,将
    发表于 06-29 18:36 2.8w次阅读

    萨顿科普了强化学习深度强化学习,并谈到了这项技术的潜力和发展方向

    萨顿在专访中(再次)科普了强化学习深度强化学习,并谈到了这项技术的潜力,以及接下来的发展方向:预测学习
    的头像 发表于 12-27 09:07 1.1w次阅读

    如何深度强化学习 人工智能和深度学习的进阶

    传统上,强化学习在人工智能领域占据着一个合适的地位。但强化学习在过去几年已开始在很多人工智能计划中发挥更大的作用。
    的头像 发表于 03-03 14:16 4226次阅读

    深度强化学习你知道是什么吗

    强化学习非常适合实现自主决策,相比之下监督学习与无监督学习技术则无法独立完成此项工作。
    发表于 12-10 14:34 1288次阅读

    深度强化学习的笔记资料免费下载

    本文档的主要内容详细介绍的是深度强化学习的笔记资料免费下载。
    发表于 03-10 08:00 0次下载
    <b class='flag-5'>深度</b><b class='flag-5'>强化学习</b>的笔记资料免费下载

    深度强化学习概念和工作原理的详细资料说明

    深度学习DL是机器学习中一种基于对数据进行表征学习的方法。深度学习DL有监督和非监督之分,都已经
    的头像 发表于 05-16 09:20 3507次阅读

    深度强化学习到底是什么?它的工作原理是怎么样的

    深度学习DL是机器学习中一种基于对数据进行表征学习的方法。深度学习DL有监督和非监督之分,都已经
    的头像 发表于 06-13 11:39 6084次阅读

    DeepMind发布强化学习库RLax

    RLax(发音为“ relax”)是建立在JAX之上的库,它公开了用于实施强化学习智能体的有用构建块。。报道:深度强化学习实验室作者:DeepRL ...
    的头像 发表于 12-10 18:43 745次阅读

    模型化深度强化学习应用研究综述

    深度强化学习(DRL)作为机器学习重要分攴,在 Alphago击败人类后受到了广泛关注。DRL以种试错机制与环境进行交互,并通过最大化累积奖赏最终得到最优策略。
    发表于 04-12 11:01 9次下载
    模型化<b class='flag-5'>深度</b><b class='flag-5'>强化学习</b>应用研究综述

    基于深度强化学习仿真集成的压边力控制模型

    压边为改善板料拉深制造的成品质量,釆用深度强化学习的方法进行拉深过程旳压边力优化控制。提岀一种基于深度强化学习与有限元仿真集成的压边力控制模型,结合
    发表于 05-27 10:32 0次下载

    基于深度强化学习的无人机控制律设计方法

    基于深度强化学习的无人机控制律设计方法
    发表于 06-23 14:59 46次下载

    《自动化学报》—多Agent深度强化学习综述

    多Agent 深度强化学习综述 来源:《自动化学报》,作者梁星星等 摘 要 近年来,深度强化学习(Deep reinforcement le
    发表于 01-18 10:08 1634次阅读
    《自动<b class='flag-5'>化学</b>报》—多Agent<b class='flag-5'>深度</b><b class='flag-5'>强化学习</b>综述

    ESP32上的深度强化学习

    电子发烧友网站提供《ESP32上的深度强化学习.zip》资料免费下载
    发表于 12-27 10:31 0次下载
    ESP32上的<b class='flag-5'>深度</b><b class='flag-5'>强化学习</b>