0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

OpenAI Five是如何训练的、为什么选择打Dota以及AI在打Dota的时候在想什么?

DPVg_AI_era 来源:lp 2019-04-19 09:29 次阅读

在上周末彻底攻陷了Dota人类顶级职业战队OG后,OpenAI站出来介绍了OpenAIFive是如何训练的、为什么选择打Dota以及AI在打Dota的时候在想什么。

OpenAIFive是第一个在电子竞技游戏中击败世界冠军的人工智能,在上周末与2-0大败世界冠军Dota2团队OG,这是AI第一次在直播中击败了电子竞技专家。

OG和OpenAI开发组

本次比赛还得出了两个惊人的发现:

尽管训练的时候专注于击败其他疯狂电脑,但OpenAIFive在比赛中却展现出和人类玩家的优秀的团队协作意识。这意味着未来的AI系统可以从竞争型AI转变为合作型AI

总决赛让OpenAI的科学家可以回答一个重要的研究问题:OpenAIFive在多大程度、以何种方式能够被确定的打败?并且可能是有史以来最大规模的、人们可以有意识地与之交互的高强度深层强化学习智能体的部署

彻底攻陷了人类顶级职业玩家后,OpenAI站出来介绍了OpenAIFive是如何训练的、为什么选择打Dota以及AI在打Dota的时候在想什么。

为什么选择Dota?

OpenAIFive的初衷是为了解决现有深度强化学习算法无法实现的问题。为此需要大幅增加工具的的能力、复杂的算法思想(例如分层强化学习)。

OpenAIFive将世界视为一堆必须破译的数字。它使用相同的通用学习代码,无论这些数字代表Dota游戏(约20,000个数字)或机器人手(约200个)的状态

为了构建OpenAIFive,研究人员创建了一个名为Rapid的系统,以前所未有的规模运行PPO。结果超出了研究人员最大的期望,产生出了世界级的Dota机器人,没有触及任何基本的性能限制。

当今的监督学习算法之所以能有如此强大功能,是以大量经验为代价的,这在游戏或模拟环境之外是不切实际的。研究人员认为减少经验量是深度学习的下一个挑战。

研究人员表示,从今天开始OpenAIFive将不会继续打比赛,但取得的进步和技术的发展将继续推动未来的工作。研究人员认为Dota对于监督学习开发来说比现在使用的标准环境更具有内在的趣味性和难度。

算力

OpenAIFive这次的胜利是由于一次重大变化:训练计算量增加了8倍。前期阶段研究人员通过提高培训规模来推动进一步的发展,之后将绝大部分算力用于培训单一的OpenAIFive模型,相当于延长了训练时间。

总的来说,当前版本的OpenAIFive已经消耗了800petaflop/s-days,并且在10个实时月内获得了45000年的游戏经验,平均每天获得250年的模拟经验。OpenAIFive的总决赛版本与TI版本相比,胜率为99.9%。

迁移学习

尽管模型大小和游戏规则发生了变化,但目前版本的OpenAIFive自2018年6月以来一直在不断训练。在每种情况下,研究人员都能够将模型转移并继续培训,这对于其他领域的监督学习来说是一个开放的挑战。

据悉,这可能是监督学习智能体第一次使用如此长期的训练课程进行训练。

更多Dota英雄

研究人员看到从训练5个英雄到训练18英雄速度并没有减弱的很明显,于是假设对更多英雄来说也是如此,随后开始大量尝试整合新英雄。

研究人员花了几个星期的时间训练英雄池,最多达到了25个英雄。将这些英雄带到大约5kMMR(大约95%的Dota玩家)。尽管在进步,但学习速度还不够快,无法在总决赛之前达到职业水平。

研究人员没有太多时间调查原因,但他们认为可能需要更好的匹配扩展的英雄池,需要更多的训练时间让新英雄达到老英雄的同等水平。想象一下当你习惯了某个英雄后,学习新英雄的难度是多么大!

协同模式

它实际上感觉很好;我的毒蛇在某些时候为我献出了生命。他试图帮助我,想着“我确定她知道她在做什么”然后显然我没有。但是,你知道,他相信我。对于[人类]队友,我并没有那么多.-无论如何

在总决赛期间,研究人员展示了OpenAI Five与人类一起在团队中的表现,两队的成员都是2个真人带3个智能体

OpenAIFive与人类的协同作战能力为人类与人工智能互动的未来提供了一个引人注目的愿景:人工智能系统能够和人类协作并增强人类体验。

玩家认为从机器人队友哪里感受到了战友之情,并从这些先进的系统中学到了很多东西,整体来说是一种有趣的体验。

值得注意的是,OpenAIFive展示了zero-shot迁移学习,与人类并肩作战或者对抗人类。研究人员非常惊讶这一点和它一样有效。事实上,研究人员考虑在国际上进行协同作案韩比赛,但认为需要专门的训练。

OpenAI Five Arena

目前研究人员还不知道OpenAIFive在多大程度上能够通过更机智的策略被击败,所以研究人员推出了OpenAIFiveArena。这是一项公开的实验,任何人都可以跟OpenAIFive组队或者对战。

竞技场于4月18日星期四太平洋标准时间下午6点开放,并于4月21日星期日太平洋标准时间晚上11:59关闭。玩家需要注册,所有游戏的结果将自动报告给竞技场公共排行榜。

下一步干什么

一旦研究人员审查了OpenAIFiveArena的结果,研究人员将发布对OpenAIFive的更多技术分析,之后将继续使用OpenAI中的Dota2环境。

研究人员已经看到过去两年在监督学习能力方面取得了快速进展,并认为Dota2将在推进无论是通过较少的数据还是真正的人工智能合作实现有能力的表现方面,持续提供帮助。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1791

    文章

    46734

    浏览量

    237274
  • 深度学习
    +关注

    关注

    73

    文章

    5485

    浏览量

    120926
  • 迁移学习
    +关注

    关注

    0

    文章

    74

    浏览量

    5554

原文标题:官方揭秘OpenAI Five如何打败人类:迁移学习+海量训练,10个月训练4.5万年

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    如何训练自己的AI大模型

    训练自己的AI大模型是一个复杂且耗时的过程,涉及多个关键步骤。以下是一个详细的训练流程: 一、明确需求和目标 首先,需要明确自己的需求和目标。不同的任务和应用领域需要不同类型的AI模型
    的头像 发表于 10-23 15:07 457次阅读

    端到端InfiniBand网络解决LLM训练瓶颈

    ChatGPT对技术的影响引发了对人工智能未来的预测,尤其是多模态技术的关注。OpenAI推出了具有突破性的多模态模型GPT-4,使各个领域取得了显著的发展。 这些AI进步是通过大规模模型训练实现
    的头像 发表于 10-23 11:26 263次阅读
    端到端InfiniBand网络解决LLM<b class='flag-5'>训练</b>瓶颈

    ai模型训练需要什么配置

    较小的数据集和简单的计算任务,如数据预处理、模型评估等。因此,选择一款高性能的CPU对于提高AI模型训练的整体效率至关重要。 推荐选择Intel Core i7或更高性能的处理器,或者
    的头像 发表于 10-17 18:10 685次阅读

    AI训练的基本步骤

    AI(人工智能)训练是一个复杂且系统的过程,它涵盖了从数据收集到模型部署的多个关键步骤。以下是对AI训练过程的详细阐述,包括每个步骤的具体内容,并附有相关代码示例(以Python和sc
    的头像 发表于 07-17 16:57 1610次阅读

    ai大模型训练方法有哪些?

    AI大模型训练方法是一个复杂且不断发展的领域。以下是ai大模型训练方法: 数据预处理和增强 数据清洗:去除噪声和不完整的数据。 数据标准化:将数据缩放到统一的范围。 数据增强:通过旋转
    的头像 发表于 07-16 10:11 1307次阅读

    OpenAI公布AI发展的五个阶段

    北京时间7月12日,OpenAI为追踪其人工智能(AI)技术追赶并超越人类智能的进程,正式公布了AI发展的五个阶段性划分,旨在加深公众对公司AI安全策略及未来愿景的理解。这一分级体系在
    的头像 发表于 07-12 15:50 1379次阅读

    OpenAI 深夜抛出王炸 “ChatGPT- 4o”, “她” 来了

    增强 OpenAI仍然致力于扩大其技术的获取范围: · 免费用户的可访问性 :确保初创企业和个人可以利用最先进的人工智能,而无需初始投资。 · 改进的API功能 :提供更好的与现有系统的集成以及增强
    发表于 05-27 15:43

    Stack Overflow引发用户抗议,用户贡献被用于AI训练

    近日,编程问答社区Stack Overflow与人工智能研究机构OpenAI签署协议,允许后者通过API获取平台内容进行AI训练,此举引来了大量社区成员的不满。
    的头像 发表于 05-09 16:05 486次阅读

    OpenAI劲敌Inflection AI官宣“加盟”微软

    OpenAI的强劲对手Inflection AI近期宣布,将与科技巨头微软展开深度技术合作。这次合作意味着Inflection AI将其尖端技术授权给微软,标志着这家初创公司正式转向与企业客户携手
    的头像 发表于 03-21 11:33 611次阅读

    英伟达擅用版权作品遭起诉 AI训练数据和版权的矛盾凸显

    英伟达擅用版权作品遭起诉 AI训练数据和版权的矛盾凸显 据外媒路透社的报道,AI训练数据和版权之间的矛盾日益凸显。英伟达因为擅用版权作品训练
    的头像 发表于 03-11 14:17 521次阅读

    DocuSign拟用用户合同数据训练AI,引争议

    据了解,DocuSign计划借助微软Azure上的OpenAI工具,如GPT技术,以训练其所谓的“撰写协议”模型,并且从用户提供的大量数据中,训练出专属的人工智能(AI)模型,但这部分
    的头像 发表于 03-04 15:45 490次阅读

    OpenAI迎战纽约时报指控 非法使用其内容训练人工智能模型

    OpenAI迎战纽约时报指控 《纽约时报》提起版权诉讼指控OpenAI非法使用其内容训练人工智能模型,OpenAI积极迎战,OpenAI表示
    的头像 发表于 02-28 15:05 509次阅读

    英伟达缺货?OpenAI选择自研芯片

     电子发烧友网报道(文/周凯扬)在生成式AI和大模型带来的AI洪流下,不少大厂都不约而同地选择了自研AI芯片。即便这意味着组建新的团队,花费大量的资金,但从长远发展的角度来看,自研芯片
    的头像 发表于 01-30 00:51 3642次阅读

    新火种AI|这家“中国OpenAI”,能赶超OpenAI吗?

    全面对标OpenAI,智谱AI能成为“中国的OpenAI”吗?
    的头像 发表于 01-18 17:56 598次阅读
    新火种<b class='flag-5'>AI</b>|这家“中国<b class='flag-5'>OpenAI</b>”,能赶超<b class='flag-5'>OpenAI</b>吗?

    因为生成式AI兴起《纽约时报》起诉OpenAI和微软

    因为生成式AI兴起《纽约时报》起诉OpenAI和微软 对于生成式AI技术在训练AI时是否会侵犯版权这个问题一直没有全面而准确的答案,极具争议
    的头像 发表于 12-28 17:08 648次阅读