谷歌DeepMind设置强迫机制使AI实现利益最大化-电子发烧友网

最近谷歌DeepMind提出了一种新的强化学习技术，这种技术以一种全新方式来模拟人类行为。它可能会比之前发布的人工智能决策系统更强大，这对希望通过自动化提高生产率的企业来说可能是个福音。

如何解决多方零和博弈中的合作困境？

DeepMind用强化学习使AI实现利益最大化。这是一种基于对等契约机制的经济竞争模型，该模型允许在多方博弈中结盟。这篇论文其中一位作者表示，这种结盟有单打独斗不具有的特殊优势。

长期以来，零和游戏以其丰富的策略选择空间和清晰的策略评估方式指导着人工智能研究。更重要的是这种竞争广泛存在于生物界、市场经济甚至是AlphaZero中。

DeepMind科学家首先寻求数学定义形成联盟的挑战，关注联盟形成多玩家零和游戏——也就是说，数学表示的情况下，每个参与者的收益或损失的效用是完全平衡的损失或收益的其他参与者的效用。

什么是多方零和博弈？

DeepMind将之定义为每个玩家的收益或损失完全由其余玩家的损失或收益提供。在一个对称多方零和博弈中，每个玩家的行为模式都是一样的，这往往会产生社会困境。（一个极简例子是“囚徒困境”）

零和博弈引入了合作后事情变得很复杂。紧急情况下，团队必须内部协调才能有效地在游戏中竞争。合作形成的过程本身就是一个社会困境——从直觉上看，玩家应该合作来击败其他人，但合作团队内部要求个体为更广泛的利益做出妥协，但这种牺牲未必和他们的自身利益一致。此外，决定加入或离开哪个团队以及团队策略都是重要问题。

DeepMind尝试了一种“礼物游戏”，在游戏中，AI扮演的玩家从一堆标记着自己代表色的数字筹码开始。在每个玩家的回合中，他们必须拿出自己对应颜色的筹码并将其赠送给另一名玩家，或将其弃置。全部玩家都失去自己对应颜色的数字筹码时游戏结束，此时拥有最多颜色筹码的玩家获胜，赢家平分价值为“1”的筹码，其他玩家平分价值为“0”的筹码。

研究发现，玩家往往表现得很自私，他们囤积筹码以至于出现了三方平局。但事实上，如果两名玩家交换筹码，回报会更好。DeepMind将这种过程阐述为：尽管合作能带来更好的结果，但人人都想从欺骗行为中获利，也就是说服对方交换然后食言。

这也就是说，如果有一种机制能维护合作行为存在，那强化学习可以适应这种博弈。这种机制就是合同——在游戏中，每个玩家必须提交一份报价，首先选择合作伙伴，然后为该合作伙伴提出行动建议，最后玩家承诺采取的行动。如果两个玩家提供了相同的契约，那么这些契约就具有了约束力，也就是说环境强制执行了所承诺的操作。

这种强制性机制是合作形成的基础。

这种模型能让我们在更广阔的应用环境中思考契约的作用。一个没有强制实施机制的契约系统如果可以在多方动态博弈中持续运行将最终产生一个有价值的反馈回路，这将使得AI的应用走向社会学和经济学。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

谷歌

谷歌

+关注

关注
27

文章
6211

浏览量
106324
AI

AI

+关注

关注
87

文章
32118

浏览量
271028

EE-19：最大化DSP-21xx系列DSP(不包括ADSP-218x)的引导内存效率

电子发烧友网站提供《EE-19：最大化DSP-21xx系列DSP(不包括ADSP-218x)的引导内存效率.pdf》资料免费下载

发表于 01-14 16:09 •0次下载

EE-19：<b class='flag-5'>最大化</b>DSP-21xx系列DSP(不包括ADSP-218x)的引导内存效率

EE-365：在ADSP-CM40x混合信号控制处理器上实现ADC采样速率最大化

电子发烧友网站提供《EE-365：在ADSP-CM40x混合信号控制处理器上实现ADC采样速率最大化.pdf》资料免费下载

发表于 01-13 16:52 •0次下载

EE-365：在ADSP-CM40x混合信号控制处理器上<b class='flag-5'>实现</b>ADC采样速率<b class='flag-5'>最大化</b>

谷歌加速AI部门整合：AI Studio团队并入DeepMind

近日，谷歌正紧锣密鼓地推进其人工智能(AI)部门的整合工作。据谷歌AI Studio主管Logan Kilpatrick在领英页面上的透露，谷歌

发表于 01-13 14:40 •306次阅读

光伏发电如何实现能效最大化

光伏发电实现能效最大化是一个综合性的问题，需要从多个方面入手。以下是一些关键措施：一、选用优质设备太阳能板：选用具有高光电转化效率和稳定性的太阳能板是基础。例如，单晶硅太阳能板通常比多

发表于 12-05 11:06 •446次阅读

KM振动分析与动平衡服务实现工厂设备效率最大化

振动仪

KM预测性维护专家
发布于 :2024年10月16日 15:57:14

扩展坞使用技巧：如何最大化你的笔记本电脑接口能力

要最大化您的笔记本电脑接口能力，以下是一些实用的扩展坞使用技巧：了解您的需求：在购买扩展坞之前，明确您需要哪些类型的端口（如HDMI, USB-C, RJ45等）以及是否需要充电功能，以选择最适合

发表于 10-08 10:52 •790次阅读

液冷充电枪线最大化提高充电效率

法法易提供的液冷充电枪线可以最大化的提升充电效率，让大家的充电时间进一步缩短。液冷充电枪线使用液体循环来冷却电缆，以避免因高温而导致电缆损坏或充电速度减缓。而且液冷充电枪线采用铜芯导线和耐高温、耐磨损、

发表于 09-11 14:25 •549次阅读

谷歌DeepMind被曝抄袭开源成果，论文还中了顶流会议

谷歌DeepMind一篇中了顶流新生代会议CoLM 2024的论文被挂了，瓜主直指其抄袭了一年前就挂在arXiv上的一项研究。开源的那种。

发表于 07-16 18:29 •687次阅读

谷歌将为AI搜索结果中的商品提供购物广告

比如，顾客通过谷歌搜索如何去除衣物褶皱，AI 将为他们提供多种解决方案，同时在页面底部推荐商家提供的广告商品。谷歌表示，广告商只需提供提示词即可实现相关内容展示，无需进行复杂

发表于 05-22 11:51 •642次阅读

谷歌DeepMind发布人工智能模型AlphaFold最新版本

谷歌DeepMind近日发布了人工智能模型AlphaFold的最新版本——AlphaFold 3，这一革命性的工具将在药物发现和疾病治疗领域发挥巨大作用。

发表于 05-10 11:26 •691次阅读

谷歌DeepMind推出新一代药物研发AI模型AlphaFold 3

谷歌DeepMind公司近日重磅推出了一款名为AlphaFold 3的全新药物研发AI模型，这一创新技术将为科学家们提供前所未有的帮助，使他们能更精确地理解疾病

发表于 05-10 09:35 •482次阅读

PCB设计优化指南：如何最大化EMC性能效果？

电源平面与GND平面相邻，平面间距离很小，有最佳的磁通抵消效果和低的电源平面阻抗。主电源及其对应的地布在4、5层，层厚设置时，增大S2-P之间的间距，缩小P-G2之间的间（相应缩小G1-S2层之间的间距），以减小电源平面的阻抗，减少电源对S2的影响。

发表于 04-08 14:22 •1484次阅读

谷歌DeepMind推出SIMI通用AI智能体

近日，谷歌的DeepMind团队发布了其最新研究成果——SIMI（Scalable Instructable Multiworld Agent），这是一个通用人工智能智能体，能够在多种3D虚拟环境

发表于 03-18 11:39 •1132次阅读

数据赋能：构建数据治理与AI的协同闭环

在数字化浪潮中，数据已成为企业的新型燃料，而AI则是提炼这种燃料的精炼厂。数据治理与AI的协同作用，正在引领企业迈向更智能、更高效的未来。本文将展示企业如何通过将数据治理与AI技术相结合，实现

发表于 03-15 10:47 •578次阅读

谷歌计划重新推出改进后的Gemini AI模型人像生成功能

谷歌DeepMind的首席执行官德米斯·哈萨比斯在2月26日透露，公司计划在接下来的几周内重新发布其备受关注的Gemini AI模型人像生成功能。此前，由于在某些历史图像生成描述中出现了不准确的问题，

发表于 02-28 10:17 •697次阅读

搜索历史

谷歌DeepMind设置强迫机制使AI实现利益最大化

评论

EE-19：最大化DSP-21xx系列DSP(不包括ADSP-218x)的引导内存效率

EE-365：在ADSP-CM40x混合信号控制处理器上实现ADC采样速率最大化

谷歌加速AI部门整合：AI Studio团队并入DeepMind

光伏发电如何实现能效最大化

KM振动分析与动平衡服务实现工厂设备效率最大化

扩展坞使用技巧：如何最大化你的笔记本电脑接口能力

液冷充电枪线最大化提高充电效率

谷歌DeepMind被曝抄袭开源成果，论文还中了顶流会议

谷歌将为AI搜索结果中的商品提供购物广告

谷歌DeepMind发布人工智能模型AlphaFold最新版本

谷歌DeepMind推出新一代药物研发AI模型AlphaFold 3

PCB设计优化指南：如何最大化EMC性能效果？

谷歌DeepMind推出SIMI通用AI智能体

数据赋能：构建数据治理与AI的协同闭环

谷歌计划重新推出改进后的Gemini AI模型人像生成功能