0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

你们不是嫌弃世界冠军OG团队实力太水吗?“你行你上”的机会来了

电子工程师 来源:lp 2019-04-22 13:43 次阅读

你们不是嫌弃世界冠军 OG 团队实力太水吗?“你行你上”的机会来了。

4 月 14 日凌晨,OpenAI Five 以 2:0 击败了 DOTA 世界冠军团队 OG 引发热议。比赛当天,OpenAI 也宣布要开放 OpenAI Five 竞技场模式,让每个感兴趣的人都参与其中。

4 月 18 日(太平洋标准时间)下午 6 点,OpenAI 如约开放了这一模式,全世界各路玩家都可以免费进行体验。开放时间为期三天,4 月 21 日(太平洋标准时间)晚上 11 点 59 分关闭,要体验一把人机对战的话可得抓紧时间。

参赛链接:https://arena.openai.com/#/

目前从其官网赛况来看,截止今天早上 10 点,OpenAI Five 与参与者打了 424 场比赛,AI 以 112-0 完胜人类玩家。

以下是人类参与者的部分赛况:

据 OpenAI 官方介绍,参与者可以在竞争模式和合作模式下体验 OpenAI Five。他们的 1v1 机器人可以通过巧妙的策略加以利用,但他们也并不知道 OpenAI Five 能在多大程度上可以做到这一点。

在此前决赛中,他们展示了 OpenAI Five 和人类在合作模式打游戏。一组是 Sheever、Blitz 和三个 OpenAI Five,对手是由 Capitalist、ODPixel 和三个 OpenAI Five 组成的团队。

不过,通过 OpenAI Five 在决赛上的表现,OpenAI 团队在最新的博客中分享了两个惊喜:

尽管训练 OpenAI Five 系统的目的是为了打败其他机器人,但他们却发现 OpenAI Five 其实还有与人类成为队友的基本能力,也就是说可以将一个竞争型 AI 变为合作型 AI。他们认为,如果能更努力去开发,未来 AI 系统能为人类做出非常多的贡献。

4 月 18 日 到 21 日的竞技场模式测试将回答一个很重要的研究问题——OpenAI Five 的潜能可以被人类运用到何种程度,或者它们在其他哪些方面必定会被打败。OpenAI Five 这一深度强化学习智能体系统,可能会成为有史以来人类能与之交互的最大的 AI 部署系统。

OG战队与OpenAI开发团队

对于 OpenAI Five 竞技场模式,有很多人报以期待,reddit 上有网友评论称,“这特么太酷了,自从 OpenAI 1v1 首秀之后,人们已经要求要在网上跟机器人玩游戏了,现在它真的发生了!”

只是,如果在竞争模式跟 AI 打 DOTA,作为人类玩家的你会不会惨遭OpenAI Five 的虐杀,而输得毫无悬念呢?祝你们好运。

当然,玩游戏之余,你可能也想知道:OpenAI Five 取得胜利背后的“秘诀”是什么?为什么这次的 OpenAI Five 系统要比去年在 TI 表演赛上败给人类的AI系统更强?OpenAI 是如何训练 OpenAI Five 系统的?OpenAI 团队最近给出了解读。

为什么是 DOTA2?

一开始,OpenAI 团队研究 OpenAI Five 是为了解决超出现有深度强化学习算法能力范围的问题,他们希望通过现有的方法解决当下无法解决的问题,原以为这需要复杂的算法思想(比如分层强化学习(Hierarchical RL)),但他们惊讶地发现只需要改进的是规模,但实现和利用这个规模并不容易,这成了其研究的主要内容。

OpenAI Five 把世界看作是一串必须破译的数字。无论这些数字是以 DOTA 游戏形式(约 20000 个数字),还是以机械手形式(约 200 个),使用的都是通用学习代码。

为了创建 OpenAI Five,OpenAI 团队创造了一个名为 Rapid 的系统,用来以从未有过的规模去运行 PPO(Proximal Policy Optimization),结果出人意料,居然创造了一个不受任何基本性能限制的世界级 DOTA 机器人。

如今,RL 算法表现出了惊人的能力,但它在游戏或模拟环境之外却用处不大,但这个限制可能并没有听起来的那么糟糕,例如可以使用 Rapid 来控制机械手来重新移动一个模块,这需要首先进行模拟训练,然后在物理机器人上执行。他们认为,对于 RL 的下一个挑战是减少对经验的依赖。

虽然他们决定不再让 OpenAI Five 成为竞争对手,但社会进步和技术发展将继续推动未来的研究,这也并非 DOTA 比赛研究的终点,他们认为 DOTA 比赛对 RL 开发来说是一个比现在使用的标准环境更有趣、更复杂、也更好理解的环境。

算力

与 DOTA2 在去年的 TI 表演赛的失利相比,OpenAI Five 在 4 月 14 日战胜 OG 团队的主要原因是其训练的计算量增加了 8 倍。去年比赛后,OpenAI 团队将项目中的绝大部分计算用于训练 OpenAI Five 模型,同时还增加了训练时间。

OpenAI Five 的 TrueSkill,由于已经使用了额外的训练计算,所以用线来划分主要的系统变化。这张图的走向大致是线性的,意味着 OpenAI Five 不断从额外计算中获益。

总之 ,OpenAI Five 的当前版本已经训练了 800 petaflop/s /天,并且在10个实时月的时间内进行相当于人类大约 45000 年时长的 DOTA 游戏自我训练,相当于人类每天平均有 250 年的模拟训练。OpenAI Five 的最终版本与 TI 版本相比,胜率是 99.9%。

18 个英雄

从训练 5 名英雄到 18 名英雄时的训练进度几乎没有放缓,他们已经假设同样的情况如果发生在更多的英雄身上会怎样。TI比赛后,又花了很多精力去整合新的英雄。

他们花了几周时间去训练多达 25 个英雄的英雄池,将这些英雄带到大约 5k MMR(大约是95% DOTA 玩家的水平)。虽然在进步,但学习速度不够快,无法在决赛前达到职业水平。研究人员还没有时间去找到原因,但后来发现模型容量不足,需要更好的匹配来扩展英雄池,还需要更多的训练时间来让新英雄赶上老英雄。但想象一下,当一个人掌握了自己的英雄时,再去学习一个新英雄是多么困难。

对了,这里明明说训练了 18 个英雄,但为什么在与 OG 比赛时只放了 17 个英雄?因为还有一个英雄在 DOTA v7.20 版本中出现了明显变化,所以就没用。

最后,这么好的机会,要不要去体验下被机器人在 DOTA 中碾压的酸爽感?

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    211

    文章

    28330

    浏览量

    206834
  • 智能体
    +关注

    关注

    1

    文章

    142

    浏览量

    10574
  • 强化学习
    +关注

    关注

    4

    文章

    266

    浏览量

    11234

原文标题:“你行你上”:有本事跟OpenAI Five打一把DOTA?| 极客头条

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    冠军说|第二届OpenHarmony竞赛训练营冠军团队专访

    实现技术创新,解决现实问题的呢? 高校创新技术人才又将如何助力OpenHarmony技术生态的繁荣与活力? 点击下方视频一起听冠军说 探秘冠军团队与老师的独家幕后分享 OpenHarmony 竞赛
    发表于 10-28 17:11

    明明我说的是25G信号,却让我看12.5G的损耗?

    还是从理论来说,我们这里提到的25G和12.5G其实不是一个概念。25G是说这对差分信号的传输速率,单位是bps,也就是我们常说的比特率。而协议12.5G指的是频率,单位是Hz。那么重点来了,25G
    发表于 10-23 09:11

    可穿戴芯片细分市场机会来了,大算力产品、出海布局加速

    市场。终端市场的增长给上游蓝牙芯片厂商带来了成长机会。电子发烧友网整理了恒玄科技、杰理科技、中科蓝讯、泰凌微、炬芯科技这五家企业的业绩情况,由此分析上述企业在今年上半年的技术布局以及市场开拓情况。     AI+ 可穿戴
    的头像 发表于 09-19 09:27 3291次阅读
    可穿戴芯片细分市场<b class='flag-5'>机会来了</b>,大算力产品、出海布局加速

    必知!如何有效保护的IP地址

    地址是一种通过加密和隧道技术在公共网络建立专用网络的方法。当你连接到服务器时,的真实IP地址会被隐藏,取而代之的是服务器分配给你的IP地址。 二、避免随意点击不明链接 网络存在大量的恶意链接,这些链接可能会引导
    的头像 发表于 09-07 11:16 365次阅读

    认识贴片电阻吗,对他了解多少?

    认识贴片电阻吗,对他了解多少?
    的头像 发表于 08-27 15:49 420次阅读
    <b class='flag-5'>你</b>认识贴片电阻吗,<b class='flag-5'>你</b>对他了解多少?

    喜讯!瑞隆源荣获广东省制造业单项冠军企业

    获得制造业单项冠军不仅是对瑞隆源在通信电源过压过流防护器件领域技术实力和市场地位的认可
    的头像 发表于 08-05 10:19 280次阅读
    喜讯!瑞隆源荣获广东省制造业单项<b class='flag-5'>冠军</b>企业

    谷景告诉屏蔽绕线功率电感是不是感量越大性能越好

    谷景告诉屏蔽绕线功率电感是不是感量越大性能越好 编辑:谷景电子 屏蔽绕线功率电感是一种普遍的电路电感元件,它对于电路运行的稳定性特别重要。而电感量作为屏蔽绕线功率电感的一个性能指标,也是我们在做
    的头像 发表于 06-10 18:48 530次阅读

    豪威集团发布900万像素CMOS全局快门传感器OG09A10

    豪威集团近日发布了其最新力作——OG09A10,这是一款专为机器视觉应用量身打造的CMOS全局快门(GS)传感器。这款传感器采用1英寸光学格式,拥有高达900万像素的分辨率,为机器视觉应用带来了全新的视觉体验。
    的头像 发表于 05-29 14:35 837次阅读

    世界电信日之知道吗?

    请各位做好准备,这就带大家踏上跨越时空的电信发展之旅,回顾一些过去的电信冷知识~什么是世界电信日?WORLDTELECOMMUNICATIONSDAY世界电信日是为了纪念国际电信联盟(ITU)的成立
    的头像 发表于 05-19 08:05 112次阅读
    <b class='flag-5'>世界</b>电信日之<b class='flag-5'>你</b>知道吗?

    德赛集团队再次获得惠州市“工信杯”迎春篮球赛冠军

    继去年夺冠后,德赛集团队再次获得惠州市“工信杯”迎春篮球赛冠军!4月6日下午,历时两周的2024年惠州市“工信杯”迎春篮球赛圆满落下帷幕。赛事吸引了来自政、企各单位共32支队伍参加。
    的头像 发表于 04-08 10:00 541次阅读

    以为的RAM不是以为的RAM~

    一、DTCM和AXI连接的RAMSTM32H7系列处理器内部有多个RAM空间,每个RAM空间的大小和响应速度都不一样。这里面我们重点关注DTCM总线矩阵连接的128KBRAM和AXI总线矩阵连接的512KBRAM。DTCMRAM128KB:MDK配置是IRAM1:起始地址是0x20000000,大小是0x20000,128KBAXIRAM512KB:MDK配
    的头像 发表于 04-05 08:09 1036次阅读
    <b class='flag-5'>你</b>以为的RAM<b class='flag-5'>不是</b><b class='flag-5'>你</b>以为的RAM~

    鸿蒙智旗下AITO全系交付新车31727辆,再次蝉联月销量冠军

    3月,鸿蒙智旗下AITO全系交付新车31727辆,再次蝉联中国市场新势力品牌月销量冠军,并以领先优势连续三个月夺得中国新势力品牌销量冠军
    的头像 发表于 04-02 10:03 943次阅读
    鸿蒙智<b class='flag-5'>行</b>旗下AITO全系交付新车31727辆,再次蝉联月销量<b class='flag-5'>冠军</b>!

    华宝新能获评行业内首个获得国家级单项冠军殊荣的企业

    近期,国家工信部第八批制造业单项冠军企业名单公示,华宝新能凭借顶尖的技术实力与领先的市场份额成功入选,是行业内首个获得国家级单项冠军殊荣的企业。
    的头像 发表于 03-14 10:08 425次阅读
    华宝新能获评行业内首个获得国家级单项<b class='flag-5'>冠军</b>殊荣的企业

    没有10年工作经验,我猜都不会用电磁场来分析高速问题吧?

    不是线性,有没有谐振,有问题时他们都很难直观的告诉为什么是这样,是哪里出了问题。因此假设已经有一定的设计和SI的积累后,高速先生今天给大家推荐一个对高速信号很有效的分析方法,通过电磁场分布来分析
    发表于 02-01 14:48

    关于JTAG口,了解多少?

    DR。 5、边界扫描: TAP控制器进入边界扫描模式时,DR链可以遍历每个IO块或者读或拦截每个引脚。在FPGA使用JTAG,可以知晓每个引脚的状态当FPGA在运行的时候。可以
    发表于 01-19 21:19