0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AlphaGo首席研究员谈强化学习十大黄金法则!

DPVg_AI_era 来源:未知 作者:李倩 2018-09-17 08:41 次阅读

近日,谷歌DeepMind强化学习研究团队负责人、AlphaGo项目首席研究员Dave Silver在Deep Learning Indaba活动的主题演讲中归纳出了强化学习中要注意的10大要点。一起来看看,也许能少走点弯路。

近日,在南非斯泰伦博斯举行的Deep Learning Indaba活动上,谷歌DeepMind强化学习研究团队负责人、AlphaGo项目首席研究员Dave Silver在主题演讲中归纳出强化学习中要注意的10大要点。

活动主办方将Dave Silver演讲的PPT截图和文字要点发在了推特上,引发了广泛讨论。

Silver的演讲中提出的强化学习10大要点涵盖涉及算法评估、状态控制、建模函数等方面的心得和建议,非常值得开发者机器学习爱好者参考学习。一起看看他是怎么说的吧!

1、在评估中产生进步

客观、量化的估计会产生进步,对评估尺度的选择会决定进步的方向。这可能是项目推进过程中做出的最重要的决定。

目标驱动型研究:确认评估标准与最终目标密切相关。避免主观评估

假设驱动型研究:提出假设,在宽泛的条件下验证假设,与相似结果对比,而不是与最先进的结果对比。重要的是对结果的理解,而不是追求排名。

2、算法的可扩展性决定是否成功

算法的可扩展性是指其性能随资源的梯度变化。这里的资源可能是计算、存储和数据。算法的可扩展性决定了能否项目能否成功,它几乎永远比算法的起点重要。最终,好的算法总是无限资源条件下的最优解决方案。

3、稳定算法的通用性

算法通用性是指算法在不同深度学习环境下的表现。应避免对当前任务的过拟合。积极寻求可以适用于未来未知环境下的算法。

结论:要广泛验证,建立现实的机器学习环境。

4、 信任智能体的经验

经验(包括观察、动作、奖励)是指深度学习的数据。信任这些经验,将其作为唯一知识来源。尽管这些经验看上去不可学习,但最终长期来看,经验终将取得成功。

5、状态是主观的

智能体应该基于经验建立自身的状态,智能体的状态是关于其先前状态和新观察数据的函数。任何时候不要定义某一环境下的“真实”状态。

6、控制数据流

智能体处于大量数据流传感器环境中,智能体的行为会对数据流造成影响。

控制特征——控制数据流——控制未来——实现任何回报的最大化。

7、价值函数可以对世界建模

价值函数是对未来的高效归纳和缓存。多关注固定时间段的查找,而非指数级的前瞻。可以独立计算和学习。利用多价值函数可以在不同时间范围内,对世界各个方面进行高效建模。

应避免使用原始的时间步长对世界进行建模。

8、从想象的经验中进行学习

想象接下来会发生什么,从想象的经验中进行学习,同时关注在当前时刻的值函数估计。

9、加强函数逼近器

差异化网络架构是一种有力工具,可以用来:以丰富的方式表示状态,实现差异化存储、差异化规划、层级控制。

将算法的复杂性融入网络架构,可以降低算法的复杂度,增加网络架构的可表达性。

10、要学习“如何学习”

人工智能的发展史呈现出一条清晰的发展脉络。

第一代:“美好的”老式人工智能。手动控制预测,不学习任何内容。

第二代:浅度学习。手动控制特征,学习预测。

第三代:深度学习。手动控制算法(优化器、目标、架构),学习特征和端对端预测。

第四代:Meta学习。无手动环节,学习算法、特征和端对端预测。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6142

    浏览量

    105099
  • 强化学习
    +关注

    关注

    4

    文章

    266

    浏览量

    11213
  • DeepMind
    +关注

    关注

    0

    文章

    129

    浏览量

    10819

原文标题:AlphaGo首席研究员亲授!十张PPT,十大强化学习黄金法则!

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    蚂蚁集团收购边塞科技,吴翼出任强化学习实验室首席科学家

    领域的研究与发展。令人瞩目的是,边塞科技的创始人吴翼已正式加入该实验室,并担任首席科学家一职。 吴翼在其个人社交平台上对这一变动进行了回应。他表示,自己最近接受了蚂蚁集团的邀请,负责大模型强化学习领域的
    的头像 发表于 11-22 11:14 272次阅读

    如何使用 PyTorch 进行强化学习

    强化学习(Reinforcement Learning, RL)是一种机器学习方法,它通过与环境的交互来学习如何做出决策,以最大化累积奖励。PyTorch 是一个流行的开源机器学习库,
    的头像 发表于 11-05 17:34 221次阅读

    谷歌AlphaChip强化学习工具发布,联发科天玑芯片率先采用

    近日,谷歌在芯片设计领域取得了重要突破,详细介绍了其用于芯片设计布局的强化学习方法,并将该模型命名为“AlphaChip”。据悉,AlphaChip有望显著加速芯片布局规划的设计流程,并帮助芯片在性能、功耗和面积方面实现更优表现。
    的头像 发表于 09-30 16:16 383次阅读

    年预言:Chiplet的使命

    来源: 晶上世界 无论是人工智能深度学习、大数据实时分析,还是超算中心的复杂模拟,都对芯片算力提出了前所未有的需求。大算力时代,如何驾驭数据洪流? 中国科学院计算技术研究所韩银和研究员为我们揭示了
    的头像 发表于 08-27 11:09 428次阅读
    <b class='flag-5'>十</b>年预言:Chiplet的使命

    中国信通院发布“2024云计算十大关键词”

    7月23日,由中国通信标准化协会主办,中国信息通信研究院(简称“中国信通院”)承办的“2024可信云大会”在京召开。大会上,中国信通院正式发布“2024云计算十大关键词”,中国信通院云计算与大数
    的头像 发表于 08-02 08:28 553次阅读
    中国信通院发布“2024云计算<b class='flag-5'>十大</b>关键词”

    开关电源PCB布局优化,人人都该懂的“黄金法则”是什么?

    问:开关电源板布局的黄金法则优化电路板布局是开关电源设计中的一个关键。良好的布局可确保开关稳压器的稳定运行,并将辐射干扰和传导电磁干扰(EMI)降至。虽然这是电子开发人员所熟知的常识,但很多人还是
    发表于 07-01 17:11

    通过强化学习策略进行特征选择

    更快更好地学习。我们的想法是找到最优数量的特征和最有意义的特征。在本文中,我们将介绍并实现一种新的通过强化学习策略的特征选择。我们先讨论强化学习,尤其是马尔可夫决策
    的头像 发表于 06-05 08:27 322次阅读
    通过<b class='flag-5'>强化学习</b>策略进行特征选择

    DC3漏洞披露计划已接获5635份研究员报告,总数逾5万

    据报道,为应对日益严峻的网络安全威胁,美国五角大楼于2016年正式设立了网络犯罪中心(DC3)。近日,该机构公布数据,自创立至今累计收到5635位研究员递交的5万余份漏洞报告。
    的头像 发表于 03-20 13:55 629次阅读

    谷歌DeepMind资深AI研究员创办AI Agent创企

    近日,刚从谷歌DeepMind离职的资深AI研究员Ioannis Antonoglou宣布创办了一家名为“AI Agent”的创企。Ioannis Antonoglou常驻伦敦,此前曾担任谷歌DeepMind的首席开发人员,自去年9月份以来,他是第4位离开谷歌Gemini
    的头像 发表于 02-04 10:02 746次阅读

    睿创微纳8微米荣获“2023年度山东十大科技创新成果”

    1月11日,两院院士评选“2023年中国/世界十大科技进展新闻”发布会在烟台召开,会上公布“2023年度山东省十大科技创新成果”榜单。
    的头像 发表于 01-16 09:48 507次阅读
    睿创微纳8微米荣获“2023年度山东<b class='flag-5'>十大</b>科技创新成果”

    单发射全彩圆偏振发光结构与器件的研究进展

    》(Nat. Commun.2024,15,251)上。中国科学技术大学化学系博士生周雅洁为论文的第一作者,庄涛涛研究员为论文的通讯作者。
    的头像 发表于 01-11 10:41 661次阅读
    单发射全彩圆偏振发光结构与器件的<b class='flag-5'>研究</b>进展

    2023年度十大科技名词

    ,为公众描绘出一幅科技发展的生动画卷。“2023年度十大科技名词”由全国科学技术名词审定委员会事务中心联合国家语言资源监测与研究平面媒体中心、蜜度微热点研究院、万
    的头像 发表于 01-03 08:27 578次阅读
    2023年度<b class='flag-5'>十大</b>科技名词

    新一代MES十大核心要素

    电子发烧友网站提供《新一代MES十大核心要素.docx》资料免费下载
    发表于 12-29 11:14 0次下载

    2023中国智能制造十大科技进展发布,这项传感技术入选

    十大科技进展”中,有一项来自上海仪器仪表研究所的智能传感技术入选:  现代制造业高速高精智能感知测控关键技术及应用 入选理由:上海大学、上海仪器仪表研究所有限公司、山东创典智能科技有限公司及江苏中天互联科技有限公司通过产学研协同
    的头像 发表于 12-22 08:39 3291次阅读
    2023中国智能制造<b class='flag-5'>十大</b>科技进展发布,这项传感技术入选

    嵌入式开发学习的十三法则分享

    嵌入式开发学习是一个不断积累和总结的过程,来自一个嵌入式开发高级工程师为我们总结的关于嵌入式开发学习的十三法则,大家不妨参考一下: 一、冗余度法则 在嵌入式系统具有足够的冗余度
    发表于 12-21 06:32