0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

CMU、Facebook联合打造“赌神”AI,六人德扑击败人类

DPVg_AI_era 来源:lq 2019-09-13 16:51 次阅读

CMU 和 Facebook 联合打造的史上最强德州扑克 AI “Pluribus”在六人德州扑克这项复杂游戏中击败了顶级人类玩家。今天,Science杂志以封面重磅的形式发表了该研究论文,详细描述了Pluribus的策略。

前不久,一款名叫 “Pluribus” 的 AI 扑克牌机器人在六人无限注德州扑克这项复杂游戏中,碾压了人类职业选手!

这是 AI 首次在规模超过两人的复杂对局中击败顶级人类玩家。

“Pluribus” 是CMU 和 Facebook 联合打造的史上最强德州扑克 AI,重点解决了多人对局环境下的非零和博弈和隐藏信息推理问题,是该领域的一个重大突破。

今天,“Pluribus”的论文更是以封面的形式登上Science杂志!

来自CMU和Facebook AI的Noam Brown和Tuomas Sandholm教授,在论文中详细解读了“Pluribus”的策略。

作者表示,扑克一直是一个具有挑战性的问题,过去AI在这类基准测试中取得的成功仅限于两人参与的游戏。然而,传统上玩扑克的人不止两个人。多人扑克是一个公认的AI里程碑。

“Pluribus”AI在六人无限制注德扑中展现了比顶级人类专业玩家更强大的技能。

接下来,新智元带来这篇论文的解读,完整论文可点击文末链接查看。

基于MCCFR的“蓝图”策略

三人或三人以上的博弈对博弈论提出了挑战。对于两个玩家的零和博弈,存在这样一种策略,即没有玩家可以通过切换到不同的策略来提高他们的机会。这种所谓的纳什均衡被认为是博弈的一个解。

但对于多人游戏,期望奖励可能因纳什均衡的不同而有所不同。保证收敛到纳什均衡的快速算法,例如虚拟遗憾最小化算法(CFR),在多人游戏中可能失效。尽管如此,CFR在一些多人游戏领域仍显示出良好的经验表现。

Pluribus首先通过自我游戏(self-play)来学习通用技巧,我们称之为“蓝图”(blueprint)策略。

然后,在实际游戏中,它根据游戏的当前状态计算一个实时策略来细化blueprint策略。Pluribus程序通过名为Monte Carlo CFR (MCCFR)的CFR变体学习blueprint策略,并进行一些改进。

Pluribus会反复模拟所有玩家使用相同策略的扑克手牌;在每一手牌之后,它会递归地检查每个决策,并与在相同情况下可能选择的其他操作相比,评估该决策的预期结果。

为了提高Pluribus中MCCFR算法的效率,作者在训练的早期阶段引入了linear weighted discounting,并在训练的后期对negative-regret行为进行策略剪枝。

系统中最复杂的部分是实时策略组件。为了处理不完美信息,Pluribus执行嵌套搜索,维护搜索树的根节点和每个玩家持有的牌的根节点的概率分布,前提是假设所有玩家使用相同的(已知的)策略。

为了有效评估叶节点,Pluribus考虑了blueprint 策略的四种不同变体。

在Abstraction机制中,Pluribus通过将类似的情况打包在一起,减少了关于是否跟注(call)、加注(raise)或弃牌(fold)的决策点的数量。使用蒙特卡罗虚拟遗憾最小化(MCCFR),将扑克游戏中树搜索的复杂性从一个棘手的问题降低到一个可解决的问题。

真实游戏

Pluribus需要为每个场景提供一个动作(跟注、加注或弃牌)。

抽象游戏

类似的方案,比如高牌9和高牌10一起。

抽象策略

Pluribus使用MCCFR通过操作将每个bucket映射到一个分布。

真实策略

每个方案都根据其bucket的抽象策略映射到操作上的分布。

对于大型复杂的游戏,状态和动作的抽象可以用来抑制搜索树的增长。这对于完整的六人无限德州扑克游戏来说是必要的,因为德扑太过复杂而无法直接搜索。

相反,如上面的示意图所示,Pluribus模拟了一个更简单的游戏版本,将类似的决策点组合在一起,并消除了一些操作。

“赌神”AI训练只需144美元

最后,Pluribus的blueprint策略是在64核服务器上在8天内计算出来的,总共使用了12400个CPU核心小时,所需内存小于512 GB。按照当前的云计算费用,这花费了大约144美元。

这与最近其他所有的超级AI里程碑游戏形成了鲜明的对比,那些AI使用了大量的服务器和/或GPU集群。更多的内存和计算可以支持更细粒度的blueprint,这将带来更好的性能,但也会导致Pluribus使用更多内存或在实时搜索变慢。

研究人员将blueprint策略抽象的大小设置为允许Pluribus在一台内存不超过128GB的机器上实时运行,同时在内存中存储blueprint策略的压缩形式。

由于无限德州扑克的规模和复杂性,整个游戏的blueprint 策略必然是粗粒度的。Pluribus只在第一轮投注(四次投注)中根据这个blueprint策略进行操作,其中决策点的数量足够少,以至于blueprint策略可以不使用信息抽象,并且在操作抽象中进行了很多操作。

在第一轮之后(甚至在第一轮中,如果对手选择的赌注大小与blueprint action抽象中的大小完全不同),Pluribus将进行实时搜索,以确定针对当前情况的更好、更细粒度的策略。

结论

self play 的形式与搜索的形式相结合,在完全信息的二人零和博弈中取得了许多引人注目的成功。然而,现实世界中的大多数战略交互都包含隐藏的信息和两个以上的参与者。这使得这个问题在理论和实践上都有很大的不同和困难。

为多人德扑开发一个超级AI是该领域的一个公认的里程碑。在本文中,我们描述了Pluribus,一个AI,能够在六人无限注德州扑克中击败人类专业玩家。

Pluribus的成功表明,尽管对多人博弈的性能缺乏已知的强有力的理论保证,但仍存在大规模、复杂的多人博弈不完全信息设置,在这种情况下,精心构造的self play搜索算法可以生成超越人类的策略。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    211

    文章

    28522

    浏览量

    207531
  • 算法
    +关注

    关注

    23

    文章

    4622

    浏览量

    93058
  • Facebook
    +关注

    关注

    3

    文章

    1429

    浏览量

    54814

原文标题:Science封面重磅:CMU、Facebook联合打造“赌神”AI,六人德扑击败人类

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    人类智慧水平AI即将到来,AI芯片已提前布局

    电子发烧友网报道(文/黄山明)在生成式AI的高速发展下,不少正在焦虑AI是否会取代他们的工作。就在近期,OpenAI首席执行官Sam Altman在瑞士达沃斯经济论坛上分享了对未来AI
    的头像 发表于 01-22 06:44 2625次阅读

    长城汽车联手高地图打造出行联合创新LAB

    近日,长城汽车与高地图基于长期良好的合作基础,联手打造的“出行联合创新LAB”正式在保定市长城汽车技术中心揭牌。根据共同约定,双方将通过出行联合创新LAB,发挥各自优势,共同研究、探
    的头像 发表于 01-07 09:51 80次阅读

    马斯克预言:AI将全面超越人类智力

    近日,科技巨头马斯克作出了一个关于人工智能(AI)的大胆预测。他断言,AI的发展速度将超乎人类的想象,并将在不久的将来全面超越人类的智力。 马斯克在X平台上明确表示,
    的头像 发表于 12-28 14:23 217次阅读

    视美泰联合小冰打造全新“AI数字人工厂”

    AI数字化浪潮席卷全球的今天,人工智能与现实生活的交融已成为时代趋势。近日,视美泰与小冰强强联手,共同推出了一套领先的数字解决方案,旨在通过打造数字产品工厂,为千行百业注入全新的
    的头像 发表于 12-13 16:45 574次阅读
    视美泰<b class='flag-5'>联合</b>小冰<b class='flag-5'>打造</b>全新“<b class='flag-5'>AI</b>数字人工厂”

    开发者洞察 | 小智能:用涂鸦GenAI能力打造智能宠物创新应用

    宠物硬件和AI能力的结合,正在成为宠物经济接下来的热门风口方向!市场上越来越多的企业,开始将目光投向智能养宠领域,积极打造AI+宠物”的创新应用。作为涂鸦开发者的小智能,就专注于将
    的头像 发表于 12-12 18:14 206次阅读
    开发者洞察 | 小<b class='flag-5'>德</b>智能:用涂鸦GenAI能力<b class='flag-5'>打造</b>智能宠物创新应用

    焊接机器个轴分别是什么作用

    焊接机器是现代工业自动化中的重要工具,其灵活性和高效性极大地提升了焊接质量和生产效率。在焊接机器人中,“轴”是一个常见的结构设计,这个轴赋予机器人类似于
    的头像 发表于 11-21 17:45 256次阅读
    焊接机器<b class='flag-5'>人</b><b class='flag-5'>六</b>个轴分别是什么作用

    使用NVIDIA Jetson打造机器导盲犬

    Selin Alara Ornek 是一名富有远见的高中生。她使用机器学习和 NVIDIA Jetson边缘 AI 和机器人平台,为视障人士打造了机器导盲犬。
    的头像 发表于 11-09 13:51 278次阅读

    心智理论测试:人工智能击败人类

    测试结果并不一定意味着人工智能可以“理解”。 心智理论是指可以理解他人心理状态的能力,正是它驱使着人类社会运转。它帮助你决定在紧张的情况下该说什么、猜测其他车辆的驾驶员将要做什么,以及与电影中
    的头像 发表于 11-08 10:54 314次阅读

    开启全新AI时代 智能嵌入式系统快速发展——“第届国产嵌入式操作系统技术与产业发展论坛”圆满结束

    嵌入式系统是电子信息产业的基础,是智能系统的核心。大模型催生AI走入千家万户、唤醒端侧AI的需求爆发。以机器、无人驾驶和智能制造为代表的智能嵌入式系统快速发展,操作系统在机器人和智能驾驶为代表
    发表于 08-30 17:24

    智谋纪 AI+Multi LED 打开人类健康新宝藏

    技术。 智谋纪创始&CEO朱东亮先生受邀出席论坛,带来题为《AI+ Multi LED,打开人类健康新宝藏》的专题演讲。 演讲精彩瞬间回顾:AI+ Multi LED,智谋纪
    的头像 发表于 06-17 12:23 342次阅读
    智谋纪 <b class='flag-5'>AI</b>+Multi LED 打开<b class='flag-5'>人类</b>健康新宝藏

    打造时空智能体应用生态,助力智慧城市向时空智能城市进化

    5月20日,在AI Day技术开放日活动上,高地图旗下高云图宣布将逐步开放云睿时空融合大模型和云境AI三维重建平台,打造时空智能体应用生
    的头像 发表于 05-21 14:27 635次阅读
    高<b class='flag-5'>德</b>将<b class='flag-5'>打造</b>时空智能体应用生态,助力智慧城市向时空智能城市进化

    达实久信正式签约上海市第六人民医院临港院区二期项目!

    深圳达实智能股份有限公司于 2024 年 3 月 19 日披露了《关于智慧医院项目中标的公告》,近日,公司全资子公司江苏达实久信医疗科技有限公司与上海建工二建集团有限公司就上海市第六人民医院临港院区二期净化项目有关事项协商一致,在上海市杨浦区正式签署了合同,合同金额 9805.28 万元。
    的头像 发表于 05-16 09:55 452次阅读

    诺和诺基金会将联手英伟达打造丹麦AI超级计算机

    诺和诺基金会携手英伟达,共同宣布在丹麦打造一台领先的AI超级计算机。这台超级计算机将致力于推动医疗保健、生命科学以及绿色转型等领域的科研与创新,为丹麦乃至全球的诺和诺基金会携手英伟
    的头像 发表于 03-21 13:43 626次阅读

    富士通发布最新的人工智能(AI)战略,聚焦深化人类AI之间的协作

    富士通株式会社(以下简称“富士通”)发布了最新的集团人工智能(AI)战略,聚焦深化人类AI之间的协作,并提出了将AI作为“可信赖的助手”这一愿景,为提升
    的头像 发表于 02-21 17:09 862次阅读
    富士通发布最新的人工智能(<b class='flag-5'>AI</b>)战略,聚焦深化<b class='flag-5'>人类</b>与<b class='flag-5'>AI</b>之间的协作

    奥特曼称相信AI无法替代人类

    奥特曼称相信AI无法替代人类 AI对于人类的威胁一直有很多讨论,各有不同观点,很多人对于科幻电影中的场景AI机器
    的头像 发表于 01-19 11:43 884次阅读