0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

DeepMind用新方法让智能体在复杂的非对称博弈里找到纳什均衡

mK5P_AItists 2018-01-19 10:21 次阅读

随着人工智能系统在现实世界中扮演越来越重要的角色,理解不同的系统如何相互作用至关重要。

刚刚,DeepMind发表了一篇名为Symmetric Decomposition of Asymmetric Games的论文。在这篇论文中,DeepMind研究人员采用了博弈论的分支试图这个问题。

研究人员重点观察了在德州扑克,棋盘游戏苏格兰特警等非对称博弈中,两个智能体会有怎样的行为和表现。

用这种新方法,智能体能简单快速地在复杂的非对称博弈里找到纳什均衡。

博弈与纳什均衡

博弈论属于数学的一个分支,用于分析竞争环境下决策者的策略。

这套理论适用于人类,动物,以及超过一个AI时的多AI环境。比如说家里多个机器人同时打扫房间。

非对称信息博弈模拟了真实世界的场景,就像拍卖时买家和卖家的心态和动机不同。我们得到的结果给了我们独道的见解,以及极其简洁的方式分析他们。

非对称博弈的特点是每方玩家都有不同的策略、目标和奖励。比如说博弈论研究里最常见的协调博弈,性别之战。

一般来说,多AI系统的进化动态过程是用简单的对称博弈来分析,比如说经典的囚徒困境,两方玩家都可以采取同样的行动。即使这些博弈能够为多AI系统提供有效的洞见,告诉我们如何操作所有玩家才能获得最优结果(这就是纳什均衡),但他们并不能模拟出所有的情况。

DeepMind的新的方法,能简单快速地在复杂的非对称博弈里找到纳什均衡。

虽然目前这套理论的重点还在如何应用在多个AI系统的互动中,但研究人员相信这个结论也可以用于经济、进化生物学、经验博弈论中。

歌剧还是电影?

举个例子吧。

两名玩家需要决定晚上是去看歌剧还是电影,不巧的是,其中一名偏好歌剧而另一名偏好电影。这是场不对称的游戏,虽然两名玩家可以任意选择,但是根据玩家的喜好,每个玩家得到奖励是不同的。

但是,为了维持他们的友谊,或者我们称为一种平衡,双方需要选择相同的活动,因此单独行动的回报为零。

这个游戏有三个平衡:(i)双方都去看歌剧,(ii)双方去看电影,(iii)还有一个混合选项,每个玩家在五分之三的时间里选择他们喜欢的选项。

这个“不稳定的”的最后一个选项,就是用了将不对称游戏简化或分解成它的对称对等体的方法。

我们可以将这种游戏的本质想象成,每个玩家的奖励分数表是一个独立对称的双玩家游戏,它的平衡点与原始的不对称游戏一致。

在下面这张图中,纳什均衡是通过两个对等点得到的,帮助我们快速确定不对称博弈中的最优策略(a)。反过来说,利用不对称博弈来确定对称对等点的均衡。

DeepMind用新方法让智能体在复杂的非对称博弈里找到纳什均衡

△红点代表纳什均衡。对于不对称的游戏(a),纳什均衡可以很容易地从(b)和(c)两张对称图中得到。上述图中,x、y轴分别为玩家1、2选择歌剧的概率

好消息是,这种方法也适用于其他游戏,比如Leduc扑克等。这些方法应用了一个简单的数学原理,从而快速直接分析不对称游戏。我们希望它也能帮助我们理解各种动态系统,包括多代理环境。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 博弈论
    +关注

    关注

    0

    文章

    8

    浏览量

    7291
  • DeepMind
    +关注

    关注

    0

    文章

    130

    浏览量

    10878
  • 纳什均衡
    +关注

    关注

    0

    文章

    2

    浏览量

    1156

原文标题:AI博弈论:DeepMind让智能体在非对称博弈中找纳什均衡

文章出处:【微信号:AItists,微信公众号:人工智能学家】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    matlab 如何计算均衡

    如题 怎样使用matlab 实现计算n人非合作博弈均衡结果?本人新手中的菜鸟 在网上下了一个代码文件,并找了文章,代码文件按自己的理
    发表于 03-26 10:10

    苹果获得Macbook Pro非对称散热风扇设计专利

    中去,起到减小噪音的目的,音调BPF上从听觉中用户感觉噪音变小。令风扇的叶片分布处于不均衡状态,并保持叶轮的平衡,能够起到很好的降低噪音的效果。”根据专利文件所说,对风扇的叶片分布和角度进行重新排列
    发表于 12-23 10:30

    运用于matlab中的矩阵求逆的新方法有哪些啊(不是函数inv)

    运用于matlab中的矩阵求逆的新方法有哪些啊或者考虑矩阵的特殊性质,比如稀疏、对称性,有哪些求逆的新方法可以运用啊?求助!
    发表于 01-21 17:10

    转帖:完全Proteus8.0编译测试ARM Cortex的最新方法

    本帖最后由 鼓山 于 2013-7-4 14:31 编辑 俺在网上找到的基于Proteus 8.0开发LM3S ARM Cortex的新方法给码农们分享!
    发表于 07-04 14:00

    测电阻,新方法,不加激励

    测电阻,新方法,不加激励的办法有没有。
    发表于 03-26 10:44

    一种标定陀螺仪的新方法

    一种标定陀螺仪的新方法
    发表于 08-17 12:17

    求大佬分享按键扫描的新方法

    求大佬分享按键扫描的新方法
    发表于 01-17 06:50

    基于博弈论的功率控制策略及其牛顿迭代算法

    某系统码相关测距中,每一个飞机的询问信号都可能会成为其他飞机的干扰。在有限的可用功率下,就需要一个可靠和高效的功率控制策略。博弈(非合作博弈
    发表于 01-29 14:09 21次下载

    基于FlipIt模型的非对称信息条件下攻防博弈模型

    双方对目标资源的交替控制;然后,考虑到攻防双方博弈中观察到的反馈信息的不对称性以及防御效果的不彻底性,给出了防御者采取更新策略时攻防双方的收益模型及最优策略的条件,同时给出并分别证
    发表于 11-28 15:06 0次下载
    基于FlipIt模型的<b class='flag-5'>非对称</b>信息条件下攻防<b class='flag-5'>博弈</b>模型

    北卡罗莱州立大学开发了一种直接印刷柔性电子产品金属电路的新方法

    美国北卡罗莱州立大学的一个研究小组宣布,他们开发了一种直接印刷柔性电子产品金属电路的新方法
    的头像 发表于 01-23 11:31 4559次阅读

    AD采集的新方法资料分享

    AD采集的新方法
    发表于 03-23 09:44 10次下载

    Daskalakis凭借自己博弈论、均衡和机器学习领域的贡献获得“奈望林奖”

    一个机缘巧合,Daskalakis听了理论计算机科学家Christos Papadimitriou的一次演讲,这给他留下了非常深刻的印象。除了其他内容,演讲中重点提及的还有均衡,这是博弈
    的头像 发表于 08-05 08:52 5815次阅读

    华裔女科学家找到了精确测量重力的新方法

    科学家们找到新方法来通过激光、原子来测量重力。这种办法精度极高,甚至能测量你的微小体重对重力的影响。
    的头像 发表于 05-19 15:08 2692次阅读

    基于矩阵半张量积的时滞演化拥塞博弈镇定方法

    拥塞博弈的动态行为,证明该博弈的不动点即为均衡点,给出其开环控制和状态反馈控制下全局镇定到
    发表于 03-30 11:47 23次下载
    基于矩阵半张量积的时滞演化拥塞<b class='flag-5'>博弈</b>镇定<b class='flag-5'>方法</b>

    VLSI系统设计的最新方法

    电子发烧友网站提供《VLSI系统设计的最新方法.pdf》资料免费下载
    发表于 11-20 11:10 0次下载
    VLSI系统设计的最<b class='flag-5'>新方法</b>