智能决策从虚拟到现实——强化学习落地-电子发烧友网

迄今为止，大部分人工智能落地的技术都在预测技术方面，而不是决策技术，目前决策技术的应用落地还很少。对此，俞扬以诊断报告作比喻，形象地指出，日常生活中想达到目的，比如看到诊断报告识别问题，我们不可能等着病的发生，而是想办法将病治愈。但是决策方面落地的技术非常少，据俞扬介绍，以往决策的途径可以分成以下三种。

南京大学人工智能学院俞扬教授

第一种是写规则，即通过程序员将决策方式或企业决策的解决方法写入系统中，这是决策技术的现状；第二种是做规划，将要解决的目标写下来，用机器找到决策，虽然机器自动解决问题，但问题的定义还是由人来做，一旦定义出现错误，定义的和真实的情况不符合，那么系统就没有任何途径能够修正这个定义。第三种途径是基于学习的途径，即基于数据驱动的途径，通过环境感知来定义应该解决什么样的问题。俞扬表示，第三种方法看起来更有可能解决真实环境中做决策的问题。

机器学习的三大技术

若将机器做决策放在学习的框架上，则可以分为无监督学习、监督学习和强化学习三大类技术。其中，无监督学习的数据没有任何标记，它所做的事是分析数据，从中发现数据结构是什么。而监督学习是目前落地最多的技术，通过很多标注的数据，告诉机器图像中是什么样的对象，让机器可以在数据中预测、识别到对象。

强化学习是机器学习中的一个重要研究领域，从大量数据中反复学习找到最优解，只从最终产生的结果来倒推模型应该是什么，正好对应做决策。俞扬指出，实际上这两年强化学习在做决策方面有很大突破，突破主要是在规模上，此前大热的AlphaGo与AlphaGo Zero都是经过深度强化学习后，在游戏中“碾压”了人类。

强化学习面临的困境

虽然强化学习发展较快，但目前所有的成功案例都发生在电子环境下。俞扬认为，主要原因是现在的算法效率太低。因此也出现很多批评的声音，说强化学习，特别在引入深度学习后，需要的数据样本量更大，导致这种方法无法直接应用于实际中。

俞扬指出，在很多传统工业，特别是机器人设计中，大家可能会很熟悉做模拟器。模拟器通常用于高成本的行业，在传统工业里，为了减少和真正环境的交互，通常在模拟器里先进行设计。那么，能否让机器在模拟器中学习决策呢？俞扬以购物平台为例，指出机器在了解买家行为的过程中，通过多代理模仿学习，根据买家数据进行观察再行动。他表示，机器学习决策所面临的环境更大程度上更困难，因为它是一个开放环境，而不是和固定的物理定律打交道。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人工智能

人工智能

+关注

关注
1792

文章
47354

浏览量
238825
机器学习

机器学习

+关注

关注
66

文章
8422

浏览量
132743

原文标题：【峰暴】南京大学教授俞扬：让机器帮你做决策！强化学习助力机器更智能

文章出处：【微信号：robotop2025，微信公众号：每日机器人峰汇】欢迎添加关注！文章转载请注明出处。

【「具身智能机器人系统」阅读体验】+初品的体验

解决许多技术的和非技术的挑战，如提高智能体的自主性、处理复杂环境互动的能力及确保行为的伦理和安全性。未来的研究需要将视觉、语音和其他传感技术与机器人技术相结合，以探索更加先进的知识表示和记忆模块，利用强化学习进一步优化决策过程

发表于 12-20 19:17

蚂蚁集团收购边塞科技，吴翼出任强化学习实验室首席科学家

近日，专注于模型赛道的初创企业边塞科技宣布被蚂蚁集团收购。据悉，此次交易完成后，边塞科技将保持独立运营，而原投资人已全部退出。与此同时，蚂蚁集团近期宣布成立强化学习实验室，旨在推动大模型强化学习

发表于 11-22 11:14 •607次阅读

ar与虚拟现实的区别如何优化ar应用的用户界面

可以通过智能手机、平板电脑或专门的AR眼镜看到现实世界和虚拟信息的结合。AR不会完全取代现实世界，而是增强用户的现实体验。

发表于 11-11 10:05 •633次阅读

如何使用 PyTorch 进行强化学习

的计算图和自动微分功能，非常适合实现复杂的强化学习算法。 1. 环境（Environment）在强化学习中，环境是一个抽象的概念，它定义了智能体（agent）可以执行的动作（actions）、观察

发表于 11-05 17:34 •316次阅读

具身智能在虚拟现实中的应用实例

随着人工智能技术的飞速发展，虚拟现实（VR）技术也在不断进步，为人们提供了沉浸式的体验。在这一领域，具身智能的概念逐渐成为研究的热点。具身智能强调智

发表于 10-27 10:25 •531次阅读

谷歌AlphaChip强化学习工具发布，联发科天玑芯片率先采用

近日，谷歌在芯片设计领域取得了重要突破，详细介绍了其用于芯片设计布局的强化学习方法，并将该模型命名为“AlphaChip”。据悉，AlphaChip有望显著加速芯片布局规划的设计流程，并帮助芯片在性能、功耗和面积方面实现更优表现。

发表于 09-30 16:16 •430次阅读

增强现实和虚拟现实的联系和区别

信息叠加到现实世界中的技术。用户可以通过头戴式显示器、智能手机或平板电脑等设备，看到现实世界与虚拟信息的结合。 虚拟现实（VR）：

发表于 07-08 11:00 •2389次阅读

虚拟现实技术的应用领域有哪些

虚拟现实技术（Virtual Reality，简称VR）是一种通过计算机生成的三维环境，使用户能够沉浸其中并与之互动的技术。近年来，随着计算机技术、图形处理技术、传感器技术等的快速发展，虚拟现实技术

发表于 07-04 14:14 •2280次阅读

虚拟现实与完全现实的区别

虚拟现实（Virtual Reality，简称VR）是一种通过计算机技术模拟生成的三维虚拟世界，用户可以通过头戴式显示器、手柄等设备与虚拟世界进行交互。虚拟现实技术的发展为人们带来了全

发表于 07-04 14:08 •1987次阅读

虚拟现实技术和增强现实技术区别与联系

虚拟现实技术和增强现实技术是当今科技发展的两大热门领域，它们在许多方面有着密切的联系，但同时也存在明显的区别。一、虚拟现实技术（Virtual Reality，简称VR）定义与原理 虚拟现

发表于 07-04 11:44 •2327次阅读

增强现实技术(AR)和虚拟现实技术(VR)的区别?

增强现实技术(AR)和虚拟现实技术(VR)是两种不同的技术，它们在许多方面都有明显的区别。以下是对这两种技术的介绍和比较。定义增强现实技术(AR)是一种将虚拟信息叠加到

发表于 07-04 11:40 •1225次阅读

通过强化学习策略进行特征选择

更快更好地学习。我们的想法是找到最优数量的特征和最有意义的特征。在本文中，我们将介绍并实现一种新的通过强化学习策略的特征选择。我们先讨论强化学习，尤其是马尔可夫决策

发表于 06-05 08:27 •371次阅读

5G智能穿戴，解锁虚拟与现实

5G智能穿戴解锁虚拟与现实随着技术不断进步，可穿戴设备的功能越来越强大、形式越来越多样化，如智能手表、智能眼镜、

发表于 02-19 12:01 •3075次阅读

AI算法的本质是模拟人类智能，让机器实现智能化

电子发烧友网报道（文/李弯弯）AI算法是人工智能领域中使用的算法，用于模拟、延伸和扩展人的智能。这些算法可以通过机器学习、深度学习、强化学习

发表于 02-07 00:07 •5825次阅读

虚拟现实技术应用在哪些方面

虚拟现实技术是一种通过电子技术模拟创造出的仿真环境，让用户可以身临其境地与虚拟世界进行互动。近年来，虚拟现实技术得到了广泛的应用和发展，下面将详细介绍虚拟现实技术在不同领域的应用。一

发表于 01-11 15:51 •1.1w次阅读

搜索历史

智能决策从虚拟到现实——强化学习落地

评论

【「具身智能机器人系统」阅读体验】+初品的体验

蚂蚁集团收购边塞科技，吴翼出任强化学习实验室首席科学家

ar与虚拟现实的区别如何优化ar应用的用户界面

如何使用 PyTorch 进行强化学习

具身智能在虚拟现实中的应用实例

谷歌AlphaChip强化学习工具发布，联发科天玑芯片率先采用

增强现实和虚拟现实的联系和区别

虚拟现实技术的应用领域有哪些

虚拟现实与完全现实的区别

虚拟现实技术和增强现实技术区别与联系

增强现实技术(AR)和虚拟现实技术(VR)的区别?

通过强化学习策略进行特征选择

5G智能穿戴，解锁虚拟与现实

AI算法的本质是模拟人类智能，让机器实现智能化

虚拟现实技术应用在哪些方面