OpenAI Five是如何训练的、为什么选择打Dota以及AI在打Dota的时候在想什么？-电子发烧友网

在上周末彻底攻陷了Dota人类顶级职业战队OG后，OpenAI站出来介绍了OpenAIFive是如何训练的、为什么选择打Dota以及AI在打Dota的时候在想什么。

OpenAIFive是第一个在电子竞技游戏中击败世界冠军的人工智能，在上周末与2-0大败世界冠军Dota2团队OG，这是AI第一次在直播中击败了电子竞技专家。

OG和OpenAI开发组

本次比赛还得出了两个惊人的发现：

尽管训练的时候专注于击败其他疯狂电脑，但OpenAIFive在比赛中却展现出和人类玩家的优秀的团队协作意识。这意味着未来的AI系统可以从竞争型AI转变为合作型AI

总决赛让OpenAI的科学家可以回答一个重要的研究问题：OpenAIFive在多大程度、以何种方式能够被确定的打败？并且可能是有史以来最大规模的、人们可以有意识地与之交互的高强度深层强化学习智能体的部署

彻底攻陷了人类顶级职业玩家后，OpenAI站出来介绍了OpenAIFive是如何训练的、为什么选择打Dota以及AI在打Dota的时候在想什么。

为什么选择Dota？

OpenAIFive的初衷是为了解决现有深度强化学习算法无法实现的问题。为此需要大幅增加工具的的能力、复杂的算法思想（例如分层强化学习）。

OpenAIFive将世界视为一堆必须破译的数字。它使用相同的通用学习代码，无论这些数字代表Dota游戏（约20,000个数字）或机器人手（约200个）的状态

为了构建OpenAIFive，研究人员创建了一个名为Rapid的系统，以前所未有的规模运行PPO。结果超出了研究人员最大的期望，产生出了世界级的Dota机器人，没有触及任何基本的性能限制。

当今的监督学习算法之所以能有如此强大功能，是以大量经验为代价的，这在游戏或模拟环境之外是不切实际的。研究人员认为减少经验量是深度学习的下一个挑战。

研究人员表示，从今天开始OpenAIFive将不会继续打比赛，但取得的进步和技术的发展将继续推动未来的工作。研究人员认为Dota对于监督学习开发来说比现在使用的标准环境更具有内在的趣味性和难度。

算力

OpenAIFive这次的胜利是由于一次重大变化：训练计算量增加了8倍。前期阶段研究人员通过提高培训规模来推动进一步的发展，之后将绝大部分算力用于培训单一的OpenAIFive模型，相当于延长了训练时间。

总的来说，当前版本的OpenAIFive已经消耗了800petaflop/s-days，并且在10个实时月内获得了45000年的游戏经验，平均每天获得250年的模拟经验。OpenAIFive的总决赛版本与TI版本相比，胜率为99.9％。

迁移学习

尽管模型大小和游戏规则发生了变化，但目前版本的OpenAIFive自2018年6月以来一直在不断训练。在每种情况下，研究人员都能够将模型转移并继续培训，这对于其他领域的监督学习来说是一个开放的挑战。

据悉，这可能是监督学习智能体第一次使用如此长期的训练课程进行训练。

更多Dota英雄

研究人员看到从训练5个英雄到训练18英雄速度并没有减弱的很明显，于是假设对更多英雄来说也是如此，随后开始大量尝试整合新英雄。

研究人员花了几个星期的时间训练英雄池，最多达到了25个英雄。将这些英雄带到大约5kMMR（大约95％的Dota玩家）。尽管在进步，但学习速度还不够快，无法在总决赛之前达到职业水平。

研究人员没有太多时间调查原因，但他们认为可能需要更好的匹配扩展的英雄池，需要更多的训练时间让新英雄达到老英雄的同等水平。想象一下当你习惯了某个英雄后，学习新英雄的难度是多么大！

协同模式

它实际上感觉很好;我的毒蛇在某些时候为我献出了生命。他试图帮助我，想着“我确定她知道她在做什么”然后显然我没有。但是，你知道，他相信我。对于[人类]队友，我并没有那么多.-无论如何

在总决赛期间，研究人员展示了OpenAI Five与人类一起在团队中的表现，两队的成员都是2个真人带3个智能体

OpenAIFive与人类的协同作战能力为人类与人工智能互动的未来提供了一个引人注目的愿景：人工智能系统能够和人类协作并增强人类体验。

玩家认为从机器人队友哪里感受到了战友之情，并从这些先进的系统中学到了很多东西，整体来说是一种有趣的体验。

值得注意的是，OpenAIFive展示了zero-shot迁移学习，与人类并肩作战或者对抗人类。研究人员非常惊讶这一点和它一样有效。事实上，研究人员考虑在国际上进行协同作案韩比赛，但认为需要专门的训练。

OpenAI Five Arena

目前研究人员还不知道OpenAIFive在多大程度上能够通过更机智的策略被击败，所以研究人员推出了OpenAIFiveArena。这是一项公开的实验，任何人都可以跟OpenAIFive组队或者对战。

竞技场于4月18日星期四太平洋标准时间下午6点开放，并于4月21日星期日太平洋标准时间晚上11:59关闭。玩家需要注册，所有游戏的结果将自动报告给竞技场公共排行榜。

下一步干什么

一旦研究人员审查了OpenAIFiveArena的结果，研究人员将发布对OpenAIFive的更多技术分析，之后将继续使用OpenAI中的Dota2环境。

研究人员已经看到过去两年在监督学习能力方面取得了快速进展，并认为Dota2将在推进无论是通过较少的数据还是真正的人工智能合作实现有能力的表现方面，持续提供帮助。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人工智能

人工智能

+关注

关注
1791

文章
47206

浏览量
238279
深度学习

深度学习

+关注

关注
73

文章
5500

浏览量
121117
迁移学习

迁移学习

+关注

关注
0

文章
74

浏览量
5559

原文标题：官方揭秘OpenAI Five如何打败人类：迁移学习+海量训练，10个月训练4.5万年

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

OpenAI GPT-5开发滞后：训练成本高昂

近日，据最新消息，OpenAI在推进其备受期待的下一代旗舰模型GPT-5的开发进程上遇到了困难。由于计算成本高昂且高质量训练数据稀缺，GPT-5的开发已经落后于原定计划半年之久。据悉，OpenAI

发表于 12-23 11:04 •71次阅读

GPU是如何训练AI大模型的

在AI模型的训练过程中，大量的计算工作集中在矩阵乘法、向量加法和激活函数等运算上。这些运算正是GPU所擅长的。接下来，AI部落小编带您了解GPU是如何训练

发表于 12-19 17:54 •92次阅读

OpenAI未来3周举行12场新品发布会我们能期待些什么？ #OpenAI #人工智能 #AI

OpenAI

jf_15747056

发布于 :2024年12月05日 18:07:51

训练AI大模型需要什么样的gpu

训练AI大模型需要选择具有强大计算能力、足够显存、高效带宽、良好散热和能效比以及良好兼容性和扩展性的GPU。在选择时，需要根据具体需求进行权

发表于 12-03 10:10 •107次阅读

如何训练自己的AI大模型

训练自己的AI大模型是一个复杂且耗时的过程，涉及多个关键步骤。以下是一个详细的训练流程：一、明确需求和目标首先，需要明确自己的需求和目标。不同的任务和应用领域需要不同类型的AI模型

发表于 10-23 15:07 •1305次阅读

ai模型训练需要什么配置

较小的数据集和简单的计算任务，如数据预处理、模型评估等。因此，选择一款高性能的CPU对于提高AI模型训练的整体效率至关重要。推荐选择Intel Core i7或更高性能的处理器，或者

发表于 10-17 18:10 •1195次阅读

ai大模型训练方法有哪些？

AI大模型训练方法是一个复杂且不断发展的领域。以下是ai大模型训练方法：数据预处理和增强数据清洗：去除噪声和不完整的数据。数据标准化：将数据缩放到统一的范围。数据增强：通过旋转

发表于 07-16 10:11 •1469次阅读

Stack Overflow引发用户抗议，用户贡献被用于AI训练

近日，编程问答社区Stack Overflow与人工智能研究机构OpenAI签署协议，允许后者通过API获取平台内容进行AI训练，此举引来了大量社区成员的不满。

发表于 05-09 16:05 •516次阅读

OpenAI劲敌Inflection AI官宣“加盟”微软

OpenAI的强劲对手Inflection AI近期宣布，将与科技巨头微软展开深度技术合作。这次合作意味着Inflection AI将其尖端技术授权给微软，标志着这家初创公司正式转向与企业客户携手

发表于 03-21 11:33 •664次阅读

英伟达擅用版权作品遭起诉 AI训练数据和版权的矛盾凸显

英伟达擅用版权作品遭起诉 AI训练数据和版权的矛盾凸显据外媒路透社的报道，AI训练数据和版权之间的矛盾日益凸显。英伟达因为擅用版权作品训练

发表于 03-11 14:17 •551次阅读

DocuSign拟用用户合同数据训练AI，引争议

据了解，DocuSign计划借助微软Azure上的OpenAI工具，如GPT技术，以训练其所谓的“撰写协议”模型，并且从用户提供的大量数据中，训练出专属的人工智能（AI）模型，但这部分

发表于 03-04 15:45 •534次阅读

OpenAI迎战纽约时报指控非法使用其内容训练人工智能模型

OpenAI迎战纽约时报指控《纽约时报》提起版权诉讼指控OpenAI非法使用其内容训练人工智能模型，OpenAI积极迎战，OpenAI表示

发表于 02-28 15:05 •537次阅读

英伟达缺货？OpenAI选择自研芯片

电子发烧友网报道（文/周凯扬）在生成式AI和大模型带来的AI洪流下，不少大厂都不约而同地选择了自研AI芯片。即便这意味着组建新的团队，花费大量的资金，但从长远发展的角度来看，自研芯片

发表于 01-30 00:51 •3714次阅读

新火种AI|这家“中国OpenAI”，能赶超OpenAI吗？

全面对标OpenAI，智谱AI能成为“中国的OpenAI”吗？

发表于 01-18 17:56 •647次阅读

新火种<b class='flag-5'>AI</b>|这家“中国<b class='flag-5'>OpenAI</b>”，能赶超<b class='flag-5'>OpenAI</b>吗？

因为生成式AI兴起《纽约时报》起诉OpenAI和微软

因为生成式AI兴起《纽约时报》起诉OpenAI和微软对于生成式AI技术在训练AI时是否会侵犯版权这个问题一直没有全面而准确的答案，极具争议

发表于 12-28 17:08 •669次阅读

搜索历史

OpenAI Five是如何训练的、为什么选择打Dota以及AI在打Dota的时候在想什么？

评论