0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何切实地设计实现现实世界中的强化学习

倩倩 来源:读芯术 2020-02-06 14:48 次阅读

许多文章解释了强化学习(RL)的概念,但鲜有文章解释如何切实地设计实现现实世界中的强化学习。

小芯这次想分享人工智能范式转变课程,讨论设计权衡问题,并深入研究技术细节。

那么,我们开始吧!

首先,喝酒?

想象一下你身处聚会,有点微醺或酩酊大醉,自愿参加一个饮酒游戏,想要打动一个(或多个)颇具魅力的泛泛之交。

有人蒙住你的眼睛,给你一杯或一瓶啤酒,喊道:“倒酒!”

你会怎么做?

可能会有以下反应:该死,我应该怎么做?怎样能赢!要是输了怎么办!?

游戏规则如下:在10秒内把啤酒灌满,尽可能接近玻璃杯上的标记。可以把啤酒倒进倒出。

RL(强化学习)解决方案面临着类似的任务,高大上且有意义,欢迎了解。

现实世界中的啤酒问题

环保共享单车业务存在一个大问题。一天中,每个单车停放处(杯)的共享单车(啤酒)数量过多或不足。

纽约市单车停放处的单车过剩和不足

对于骑自行车的人来说,这十分不便,并且要花费数百万美元来管理运营,也不划算。不久前,笔者在纽约大学的团队任务是提供人工智能解决方案,将人工干预降到最小,帮助管理自行车库存。

目标:每天将各个单车停放处的数量保持在1至50之间(想想杯子上的标记)。这在共享经济中被称为“再平衡问题”。

限制条件:由于运营限制,团队每天每小时只能移动1、3或10辆单车(可以倒入或倒出的啤酒量)。当然,他们可以选择什么都不做。团队移动的单车越多,价格越昂贵。

惰性RL(强化学习)解决方案

来源:Pexels

团队决定使用RL (强化学习),它克服了传统方法的许多局限(例如基于规则和预测)。

如果想了解RL(强化学习)以及一些关键概念,乔纳森·辉(JonathanHui)撰写了一篇很棒的介绍,托马斯·西蒙尼尼(ThomasSimonini )详细解释了解决方案中应用的RL算法Q-Learning。

事实证明,人类创建了极具惰性的人工智能。当单车存量超过60辆时,它通常会选择不执行任何操作或执行最少操作(移动1或3辆自行车)。似乎有违常理,但这是非常明智的。

根据直觉,可能会移动尽可能多的单车以将其保持在50辆以下,尤其是在停放处停满时。但是,RL(强化学习)识别出移动成本(移动的单车越多,成本越高)以及在某些情况下成功的机会。考虑到所剩时间,根本不可能实现目标。它知道最好的选择是“放弃”。因此,放弃比继续尝试要付出更少的代价!

所以呢?当人工智能做出非常规决策时,类似于谷歌Alpha Go研发的著名Move 37 and 78 ,它们会挑战人类的偏见,帮助打破知识的魔咒,并将人类推向未知的道路。

创造人工智能既是一种发明,也是一种探索人类内心活动的旅程。——DeepMind创始人德米斯·哈萨比斯 (Demis Hassabis)在《经济学人》杂志《2020年的世界》(The World in 2020)一文中所言。

但是,请保持谨慎。人类价值体系无可替代,因此人类不会一落千丈或迷失自我。

哲学知识已经足够了,现在现实一点吧

RL如何管理单车停放处?

下图显示了在有无RL的情况下,一天当中单车的停放量。

· 蓝色线是无RL情况下的单车停放趋势。

· 黄色线是最初RL情况下移出单车的趋势,很昂贵。

· 绿色线是训练有素的RL,它仅移出足以满足目标的单车,更能了解成本。

作者分析

RL如何决定该做什么?

以下是经过98,000次训练后RL解决方案Q表的快照。它解释了RL如何根据停放处(垂直数据)上的自行车数量来决定做什么(水平数据)。RL不太可能选择用红色进行操作。看看底部的红色区域。

作者分析

RL能有多智能?以下图表介绍了RL对停放处的管理情况。通过深入学习,RL可以将整体成功率逐步提高到98%,令人印象深刻。

作者分析

希望大家喜欢这篇文章,并由衷地期待RL在现实世界中展示出的潜力。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1791

    文章

    47044

    浏览量

    238030
  • 强化学习
    +关注

    关注

    4

    文章

    266

    浏览量

    11234
收藏 人收藏

    评论

    相关推荐

    蚂蚁集团收购边塞科技,吴翼出任强化学习实验室首席科学家

    近日,专注于模型赛道的初创企业边塞科技宣布被蚂蚁集团收购。据悉,此次交易完成后,边塞科技将保持独立运营,而原投资人已全部退出。 与此同时,蚂蚁集团近期宣布成立强化学习实验室,旨在推动大模型强化学习
    的头像 发表于 11-22 11:14 535次阅读

    如何使用 PyTorch 进行强化学习

    的计算图和自动微分功能,非常适合实现复杂的强化学习算法。 1. 环境(Environment) 在强化学习,环境是一个抽象的概念,它定义了智能体(agent)可以执行的动作(acti
    的头像 发表于 11-05 17:34 258次阅读

    谷歌AlphaChip强化学习工具发布,联发科天玑芯片率先采用

    近日,谷歌在芯片设计领域取得了重要突破,详细介绍了其用于芯片设计布局的强化学习方法,并将该模型命名为“AlphaChip”。据悉,AlphaChip有望显著加速芯片布局规划的设计流程,并帮助芯片在性能、功耗和面积方面实现更优表现。
    的头像 发表于 09-30 16:16 404次阅读

    使用DSPLIB FFT实现实现实际输入,无需数据缩放

    电子发烧友网站提供《使用DSPLIB FFT实现实现实际输入,无需数据缩放.pdf》资料免费下载
    发表于 09-19 11:27 0次下载
    使用DSPLIB FFT<b class='flag-5'>实现实现实</b>际输入,无需数据缩放

    增强现实和虚拟现实的联系和区别

    信息叠加到现实世界的技术。用户可以通过头戴式显示器、智能手机或平板电脑等设备,看到现实世界与虚拟信息的结合。 虚拟
    的头像 发表于 07-08 11:00 2142次阅读

    增强现实是虚实结合吗为什么

    们提供了一种全新的交互方式,使得虚拟世界现实世界之间的界限变得模糊,实现了虚实结合。 增强现实技术是一种将计算机生成的虚拟信息与
    的头像 发表于 07-08 10:58 451次阅读

    增强现实技术的特点有哪些

    应用到真实世界,从而实现用户对真实世界与虚拟信息的交互。 交互性 增强现实技术的最大特点就是交互性。用户可以通过各种输入设备(如手势、语音
    的头像 发表于 07-08 10:56 885次阅读

    虚拟现实与完全现实的区别

    式,但与现实世界相比,虚拟现实仍然存在许多区别。本文将从多个方面分析虚拟现实现实世界的区别。
    的头像 发表于 07-04 14:08 1833次阅读

    虚拟现实技术和增强现实技术区别与联系

    是一种通过计算机生成的三维环境,使用户能够沉浸在一个虚拟世界实现与虚拟环境的交互。VR技术的核心原理是通过计算机图形学、传感器技术、人机交互技术等手段,模拟现实
    的头像 发表于 07-04 11:44 2159次阅读

    ar增强现实技术的特点是什么

    体验。本文将详细介绍AR技术的特点。 一、AR技术的技术原理 1.1 视觉追踪技术 视觉追踪技术是AR技术的核心,它通过摄像头捕捉现实世界的图像,然后通过计算机算法对图像进行分析和处理,从而
    的头像 发表于 07-04 11:42 824次阅读

    通过强化学习策略进行特征选择

    更快更好地学习。我们的想法是找到最优数量的特征和最有意义的特征。在本文中,我们将介绍并实现一种新的通过强化学习策略的特征选择。我们先讨论强化学习,尤其是马尔可夫决策
    的头像 发表于 06-05 08:27 337次阅读
    通过<b class='flag-5'>强化学习</b>策略进行特征选择

    数字孪生:当数字科技遇上现实世界

    数字孪生是指通过数字化技术,将物理世界的实体与虚拟数字模型相联系,从而实现实时复制和仿真的技术。它的出现,为我们打开了一扇通往未来的大门。数字孪生正在深刻改变着我们的生活和工作方式,带来了前所未有
    的头像 发表于 05-13 16:41 398次阅读

    增强现实ar是什么

    增强现实(Augmented Reality,简称AR)是一种将虚拟信息融入到现实环境的技术,使用户能够在现实世界中看到并与虚拟物体互动。
    的头像 发表于 05-02 15:18 791次阅读

    一文详解Transformer神经网络模型

    Transformer模型在强化学习领域的应用主要是应用于策略学习和值函数近似。强化学习是指让机器在与环境互动的过程,通过试错来学习最优的
    发表于 02-20 09:55 1.3w次阅读
    一文详解Transformer神经网络模型

    AI算法的本质是模拟人类智能,让机器实现智能化

    电子发烧友网报道(文/李弯弯)AI算法是人工智能领域中使用的算法,用于模拟、延伸和扩展人的智能。这些算法可以通过机器学习、深度学习强化学习等技术实现,并被广泛应用于语音识别、自然语言
    的头像 发表于 02-07 00:07 5710次阅读