0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI赌神赢的背后,只是8天的训练

mK5P_AItists 来源:YXQ 2019-08-15 09:06 次阅读

2017年年初,Brain vs AI的德州扑克人机大战在卡耐基梅隆大学(CMU)落幕,由4名人类职业玩家组成的人类大脑不敌人工智能程序Libratus。

获胜后人类还遭到了Libratus的无情嘲讽。

但是那时候Libratus还只是个只能在1V1局里称霸的超级玩家,要说人类最喜欢的6人局这样的“大场面”,当时的Libratus还没有拿到入场券。

而就在昨天,Facebook与CMU学Noam Brown、Tuomas Sandholm的最新研究成果——Pluribus,就在人类最常见的无限制德州扑克6人局里,战胜了人类顶尖选手。

跟还是不跟?高手之间的对决

Darren Elias(1986年11月18日出生)是一名美国职业扑克玩家,曾获得四项世界扑克巡回赛冠军。

在他与Pluribus的对决过程中,Darren Elias从来没有遇到过如此不害怕的对手。

一个有经验的扑克玩家,当有两个J(一个面朝上,另一个藏起来,一手既不好也不坏)时,都会谨慎行事。但是Elias的对手看起来好像不知道该怎么做。即使当Elias决定虚张声势(bluff),下注时看起来很有信心,而他的对手似乎在鼓励他继续!好像一点都没有被吓到。

最后,Elias的虚张声势没有起作用,他输了。

Elias

正如埃利亚斯先生意识到的,Pluribus知道什么时候该虚张声势,也知道别人在虚张声势,还知道什么时候该改变自己的行为,这样其他玩家就无法确定自己的策略。32岁 Elias先生说: 它确实做了一些人类很难做到的事情。

赢的背后,只是8天的训练

之前AI和人玩游戏,要么是双人游戏,如国际象棋、跳棋等,要么就是双方之间的零和博弈(一方赢一方输),AI可以在游戏中找到Nash equilibrium strategy(纳什平衡)来保证自己不会输。

关于Nash equilibrium strategy(纳什平衡)属于博弈论范畴(注:纳什证明了,如果允许混合策略,那么任何一个博弈,只要参与者数量是有限的、参与者可以选择的纯策略也是有限的,那么这个博弈至少有一个纳什均衡)。

以经典的“石头剪刀布”游戏为例,AI可以在游戏中找到对方的弱点和常出的手势进行学习,以达到最终的胜利,而多人扑克意味着玩家数量的增多,在更复杂的游戏中,AI难以确定如何与纳什均衡相抗衡;采用固定策略不能很快观察到的对手的策略倾向,而且需要监控到多个玩家在游戏中策略的转变,这对于AI多人扑克博弈来说,是一项挑战。

鉴于多人游戏,如果学习多个玩家的出牌习惯等特征的训练数据集成本过大,这里Pluribus采用的策略是自己与自己博弈,不使用人类对手的数据作为模型训练的输入。在开始时,随机的选择玩法,通过不断的训练来提升自己的性能,这里采用的博弈策略是改良版本的迭代的蒙特卡洛CFR(MCCFR),通过自我博弈,左右手互博,自己制定了一个blueprint strategy(蓝图策略),最后对每个可能的状况进行概率分布统计,通过搜索决策树来决定下一步的行为,是叫牌还是出牌。

CFR是一种迭代的自我游戏算法,AI从完全随机游戏开始,然后通过学习击败早期版本的自己逐渐改进。

在算法的每次迭代中,MCCFR指定一个玩家作为其当前策略在迭代中更新的标记。在迭代开始时,MCCFR根据当前所有玩家的策略(最初是完全随机的)模拟一手扑克牌。一旦模拟完成,人工智能就会回顾每一个玩家做出的决定,然后通过选择其他可用的行动来预测这个决定的好坏程度。

Pluribus玩家博弈树

在解决不完全信息博弈中搜索的问题,Pluribus跟踪每一手,根据其策略达到目前状况的可能性。不管Pluribus实际上握着的牌,它首先会计算如何使用可能的每一手,谨慎地平衡所有的策略,以保持对于对手的不可预测性。

Pluribus 中的实时搜索

扑克以外的事

之前在1V1局中大胜人类的Libratus后来去五角大楼上班去了,国防部认为这种策略型人工智能或许可以帮助他们进行战略的制定。

负责 Pluribus 项目的 研究员Noam Brown说:“Pluribus的技术可以用于华尔街交易、拍卖、政治谈判和网络安全这些活动中,这些活动就像扑克一样,涉及隐藏信息,因为你并不总是知道真实世界的状态。”

尽管像谷歌这样的公司,有着“Don't be evil”的信条,但是,不可避免的是这样能够理解人类策略的人工智能,还是会引发大众对于人工智能的某种恐惧,或者说,如果这样的人工智能被运用到军事决策中,将会带来多严重的后果?

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    30106

    浏览量

    268390
  • 机器学习
    +关注

    关注

    66

    文章

    8377

    浏览量

    132402

原文标题:AI赌神升级!无惧bluff,6人局德扑完胜世界冠军,训练只用了8天

文章出处:【微信号:AItists,微信公众号:人工智能学家】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    为什么ai模型训练要用gpu

    GPU凭借其强大的并行处理能力和高效的内存系统,已成为AI模型训练不可或缺的重要工具。
    的头像 发表于 10-24 09:39 191次阅读

    AI大模型的训练数据来源分析

    AI大模型的训练数据来源广泛且多元化,这些数据源对于构建和优化AI模型至关重要。以下是对AI大模型训练数据来源的分析: 一、公开数据集 公开
    的头像 发表于 10-23 15:32 359次阅读

    如何训练自己的AI大模型

    训练自己的AI大模型是一个复杂且耗时的过程,涉及多个关键步骤。以下是一个详细的训练流程: 一、明确需求和目标 首先,需要明确自己的需求和目标。不同的任务和应用领域需要不同类型的AI模型
    的头像 发表于 10-23 15:07 574次阅读

    如何训练ai大模型

    训练AI大模型是一个复杂且耗时的过程,涉及多个关键步骤和细致的考量。 一、数据准备 1. 数据收集 确定数据类型 :根据模型的应用场景,确定需要收集的数据类型,如文本、图像、音频等。 寻找数据源
    的头像 发表于 10-17 18:17 637次阅读

    ai模型训练需要什么配置

    AI模型训练是一个复杂且资源密集的过程,它依赖于高性能的硬件配置来确保训练的效率和效果。 一、处理器(CPU) CPU是计算机的核心部件,负责处理各种计算任务。在AI模型
    的头像 发表于 10-17 18:10 841次阅读

    玑9400首发端侧AI训练,在手机上就把AI变聪明

    随着AI技术的快速发展,联发科通过天玑9400芯片进一步巩固了其在手机端侧AI市场的领导地位。作为玑系列最新的旗舰产品,玑9400不仅具备强大的
    的头像 发表于 10-14 18:25 240次阅读
    <b class='flag-5'>天</b>玑9400首发端侧<b class='flag-5'>AI</b><b class='flag-5'>训练</b>,在手机上就把<b class='flag-5'>AI</b>变聪明

    首发端侧LoRA训练玑9400保护隐私更懂你

    联发科发布的玑9400无疑是智能手机芯片领域的一次重大革新。这款全大核SoC首次将生成式AI引入手机端,特别是在AI视频生成和AI训练方面
    的头像 发表于 10-14 17:32 367次阅读
    首发端侧LoRA<b class='flag-5'>训练</b>!<b class='flag-5'>天</b>玑9400保护隐私更懂你

    苹果承认使用谷歌芯片来训练AI

    苹果公司最近在一篇技术论文中披露,其先进的人工智能系统Apple Intelligence背后的两个关键AI模型,是在谷歌设计的云端芯片上完成预训练的。这一消息标志着在尖端AI
    的头像 发表于 07-30 17:03 678次阅读

    AI训练的基本步骤

    AI(人工智能)训练是一个复杂且系统的过程,它涵盖了从数据收集到模型部署的多个关键步骤。以下是对AI训练过程的详细阐述,包括每个步骤的具体内容,并附有相关代码示例(以Python和sc
    的头像 发表于 07-17 16:57 1697次阅读

    ai大模型训练方法有哪些?

    AI大模型训练方法是一个复杂且不断发展的领域。以下是ai大模型训练方法: 数据预处理和增强 数据清洗:去除噪声和不完整的数据。 数据标准化:将数据缩放到统一的范围。 数据增强:通过旋转
    的头像 发表于 07-16 10:11 1345次阅读

    AI大模型训练成本飙升,未来三年或达千亿美元

    在科技日新月异的今天,人工智能(AI)领域的发展正以前所未有的速度推进,其中,AI大模型的崛起尤为引人注目。然而,随着模型参数的持续膨胀,其背后训练成本也呈现出惊人的增长态势。近日,
    的头像 发表于 07-11 15:06 482次阅读

    技嘉科技推出GIGABYTE AI TOP,引领本地AI训练新纪元

    技嘉科技在COMPUTEX 2024前夕推出GIGABYTE AI TOP,引领本地AI训练新纪元   在即将到来的COMPUTEX 2024科技盛会前夕,全球知名的计算机硬件制造商技嘉
    的头像 发表于 06-11 14:11 855次阅读

    技嘉科技于 COMPUTEX 2024 发布 AI TOP 本地 AI 训练解决方案

    台北2024年6月4日 /美通社/ -- 技嘉科技(GIGABYTE)于 COMPUTEX 2024 展前举行发布会,推出旨在满足本地 AI 训练需求的全新解决方案-GIGABYTE AI TOP
    的头像 发表于 06-07 10:54 250次阅读

    AI推理,和训练有什么不同?

    如果要用一句话概括AI训练和推理的不同之处,我觉得用“台上一分钟,台下十年功”最为贴切。话说小明已经和心目中的女神交往数年,在邀约女神出门这件事上积累了大量的经验数据,但却依然捉摸不透其中的玄机
    的头像 发表于 04-29 08:06 210次阅读
    <b class='flag-5'>AI</b>推理,和<b class='flag-5'>训练</b>有什么不同?

    AI训练,为什么需要GPU?

    随着由ChatGPT引发的人工智能热潮,GPU成为了AI大模型训练平台的基石,甚至是决定性的算力底座。为什么GPU能力压CPU,成为炙手可热的主角呢?要回答这个问题,首先需要了解当前人工智能(AI
    的头像 发表于 04-24 08:05 1075次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>训练</b>,为什么需要GPU?