0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

将各自的成果开源——微软的PipeDream和谷歌的GPipe

人工智能与大数据技术 来源:大数据文摘 作者:大数据文摘 2020-11-23 11:15 次阅读

微软和谷歌一直在积极研究用于训练深度神经网络的新框架,并且在最近将各自的成果开源——微软的PipeDream和谷歌的GPipe。 原则上看,他们都遵循了类似的原则来训练深度学习模型。这两个项目已在各自的研究论文(PipeDream,GPipe)中进行了详细介绍,这篇文章将对此进行总结。 先放上GitHub开源地址 微软: https://github.com/msr-fiddle/pipedream 谷歌: https://github.com/tensorflow/lingvo/blob/master/lingvo/core/gpipe.py 众所周知,在实验过程中,虽然训练基本模型比较琐碎,但复杂度却随模型的质量和大小线性增加。例如,2014年ImageNet视觉识别挑战赛的冠军是GoogleNet,它通过400万个参数获得了74.8%的top1准确性,而仅仅三年之后,2017年ImageNet挑战赛的冠军就使用1.458亿个参数(多了36倍)的最新神经网络实现了top1准确率——82.7%。但是,在同一时期,GPU内存仅增加了约3倍。

随着模型缩放以达到更高的准确性,对这些模型的训练变得越来越具有挑战性。前面的样本也显示了,依靠GPU基础结构的改进来实现更好的训练是不可持续的。我们需要分布式计算方法,这些方法可以并行化跨不同节点的训练工作量,以扩展训练规模。分布式训练的概念听起来很琐碎,但实际上却极其复杂。

谷歌的GPipe

GPipe专注于扩展深度学习计划的训练工作量。从基础架构的角度来看,训练过程的复杂性是深度学习模型经常被忽视的一个方面。训练数据集越来越大,越来越复杂。例如,在医疗保健领域,需要使用数百万个高分辨率图像进行训练的模型并不罕见。结果,训练过程通常要花费很长时间才能完成,并且内存和CPU消耗非常大。 思考深度学习模型的分布式的有效方法是将其划分为数据分布式和模型分布式。数据分布式方法采用大型机器集群,将输入数据拆分到它们之间。模型分布式尝试将模型移至具有特定硬件的加速器,例如GPU或TPU,以加速模型训练。 概念上看,几乎所有训练数据集都可以按照一定的逻辑进行分布式训练,但是关于模型的说法却不尽相同。例如,一些深度学习模型由可以独立训练的并行分支组成。在那种情况下,经典策略是将计算划分为多个分区,并将不同的分区分配给不同的分支。但是,这种策略在按顺序堆叠各层的深度学习模型中是不足的, GPipe通过利用一种称为流水线的技术将数据和模型分布式结合在一起。从概念上讲,GPipe是一个分布式机器学习库,它使用同步随机梯度下降和流水线分布式进行训练,适用于由多个连续层组成的任何DNN。 GPipe在不同的加速器之间划分模型,并自动将一小批训练样本拆分为较小的微批。该模型允许GPipe的加速器并行运行,从而最大限度地提高了训练过程的可扩展性。 下图说明了具有连续层的神经网络的GPipe模型在四个加速器之间分配。Fk是第k个分区的复合正向计算函数。Bk是相应的反向传播函数。Bk取决于上层的Bk + 1和Fk的中间激活。在顶级模型中,我们可以看到网络的顺序性质如何导致资源利用不足。下图显示了GPipe方法,其中将输入的迷你批处理分为较小的宏批处理,这些宏批处理可由加速器同时处理。

图片来源: https://arxiv.org/pdf/1811.06965.pdf

微软的PipeDream

几个月前,微软研究院宣布创建Project Fiddle,这是一系列旨在简化分布式深度学习的研究项目。PipeDreams是Fiddle项目首次发布的版本之一,专注于深度学习模型训练的并行化。 PipeDream采用与其他方法不同的方法来利用称为管道分布式的技术来扩展深度学习模型的训练。这种方法试图解决数据和模型并行技术的一些挑战,例如GPipe中使用的技术。 通常,在云基础架构上进行训练时,数据并行方法在规模上会承受较高的通信成本,并且随着时间的推移会提高GPU计算速度。类似地,模型分布式技术通常在利用硬件资源上更加效率低下,程序员需要决定如何在给定硬件部署的情况下拆分其特定模型,给他们带来了不必要的负担。

图片来源: http://www.microsoft.com/zh-cn/research/uploads/prod/2019/08/fiddle_pipedream_sosp19.pdf PipeDream尝试通过使用称为管道分布式的技术来克服数据模型分布式方法的一些挑战。 从概念上讲,管道分布计算涉及将DNN模型的各层划分为多个阶段,其中每个阶段均由模型中的一组连续层组成。每个阶段都映射到一个单独的GPU,该GPU对该阶段中的所有层执行正向传递(和反向传递)。 给定一个特定的深度神经网络,PipeDream会基于在单个GPU上执行的简短概要分析,自动确定如何对DNN的运算符进行分区,在不同阶段之间平衡计算负载,同时最大程度地减少与目标平台的通信。即使存在模型多样性(计算和通信)和平台多样性(互连拓扑和分层带宽),PipeDream也会有效地实现负载平衡。PipeDream训练分布式的方法的原理比数据模型分布式方法具有多个优点。 对于初学者而言,PipeDream需要在工作程序节点之间进行较少的通信,因为管道执行中的每个工作程序仅需要将渐变的子集和输出激活信息传达给单个其他工作程序。

图片来源: https://www.microsoft.com/zh-cn/research/uploads/prod/2019/08/fiddle_pipedream_sosp19.pdf 训练分布式是构建更大、更准确的深度学习模型的关键挑战之一。分布式训练方法是深度学习社区中一个活跃的研究领域,需要将有效的并发编程技术与深度学习模型的本质相结合。尽管仍处于早期阶段,但Google的GPipe和Microsoft的PipeDream本身已经是很优秀的产品,它是深度学习开发人员可用的两种最具创造性的分布式训练方法。

责任编辑:lq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6598

    浏览量

    104064
  • 谷歌
    +关注

    关注

    27

    文章

    6168

    浏览量

    105382
  • 深度学习
    +关注

    关注

    73

    文章

    5503

    浏览量

    121162

原文标题:微软和谷歌分别开源分布式深度学习框架,各自厉害在哪?

文章出处:【微信号:TheBigData1024,微信公众号:人工智能与大数据技术】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    微软GitHub与Anthropic和谷歌合作

    近日,微软旗下的GitHub宣布了一项重要合作,Anthropic和谷歌的AI模型整合到其代码助理中,为数百万软件开发者提供新的AI模型选项。
    的头像 发表于 10-30 16:25 180次阅读

    谷歌向欧盟起诉微软反竞争行为

    科技巨头谷歌近日采取法律行动,正式向欧盟委员会提交诉讼,直指微软在云计算领域的反竞争策略。谷歌声称,微软利用其Windows Server和Microsoft Office的市场主导地
    的头像 发表于 09-26 14:19 290次阅读

    开放原子开源生态大会OpenHarmony生态主题演讲报名开启

    开源赋能产业,生态共筑未来,OpenAtom OpenHarmony(简称“OpenHarmony”)项目群工作委员会将于9月26日上午举办OpenHarmony生态主题演讲。 届时,面向全球
    发表于 09-19 22:02

    微软OpenAI列为竞争对手名单

    微软在其最新提交给美国证券交易委员会(SEC)的10-K文件中,正式OpenAI列入其竞争对手名单,这一名单中还包括了亚马逊、谷歌和Meta等科技巨头。此举标志着微软对OpenAI在
    的头像 发表于 08-05 11:38 619次阅读

    谷歌DeepMind被曝抄袭开源成果,论文还中了顶流会议

    谷歌DeepMind一篇中了顶流新生代会议CoLM 2024的论文被挂了,瓜主直指其抄袭了一年前就挂在arXiv上的一项研究。开源的那种。
    的头像 发表于 07-16 18:29 590次阅读
    <b class='flag-5'>谷歌</b>DeepMind被曝抄袭<b class='flag-5'>开源</b><b class='flag-5'>成果</b>,论文还中了顶流会议

    微软推出自研AI大模型

    微软正在紧锣密鼓地训练一款全新的自研人工智能大模型——“MAI-1”。据悉,这款模型规模庞大,足以与谷歌的Gemini和OpenAI的ChatGPT相媲美。
    的头像 发表于 05-13 11:30 667次阅读

    谷歌不行?股价却新高!Meta逆天?蒸发1.6万亿…微软:都是弟弟

    可谓美国AI三巨头的Alphabet(谷歌母公司),Meta和微软都交出了自己的阶段考成绩,而与前一段外界形成的印象不同,被不停唱衰的谷歌却在财报后股价大涨,而靠Llama3赢得一片芳心的Meta却
    的头像 发表于 05-09 08:04 136次阅读
    <b class='flag-5'>谷歌</b>不行?股价却新高!Meta逆天?蒸发1.6万亿…<b class='flag-5'>微软</b>:都是弟弟

    全球云服务市场增长,亚马逊AWS、微软Azure及谷歌GCP差距拉大

    报告指出,目前全球的主要云服务商包括亚马逊AWS(市场份额31%),其次是微软Azure(25%)和谷歌(11%)。尽管亚马逊在整体市场仍占优势,但随着微软谷歌的快速发展,两者的市场
    的头像 发表于 05-06 11:34 600次阅读

    NVIDIA加速微软最新的Phi-3 Mini开源语言模型

    NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微软最新的 Phi-3 Mini 开源语言模型。TensorRT-LLM 是一个开源库,用于优化从 PC 到云端的 NVIDIA GPU 上运行的大语言模型推理
    的头像 发表于 04-28 10:36 567次阅读

    微软谷歌财报超预期 谷歌史上首次发放季度股息

    微软谷歌财报超预期 谷歌史上首次发放季度股息 全球企业都希望抓住当前人工智能蓬勃发展的契机,把自身产品与人工智紧密结合,在这AI浪潮下谷歌微软
    的头像 发表于 04-26 17:56 457次阅读

    微软谷歌联手多家科技巨头保护儿童安全

     4 月 24 日消息,随着生成式 AI 的快速发展,如何保障儿童安全成为了焦点。微软谷歌日前与 Thorn、All Tech Is Human 等专业机构联手,以期在生成 AI 技术中实施更严格的儿童安全措施。
    的头像 发表于 04-24 10:50 431次阅读

    苹果微软曾洽购必应,因谷歌搜索质量未果

    CNBC及其他媒体引述的美国司法部反垄断公诉书详细列举了谷歌在搜索领域所持的垄断角色。诉状中透露,尽管微软多次试图必应用户作为Safari浏览器的默认搜索引擎,但每一次均因搜索结果质量不满意而遭遭到苹果的回绝。
    的头像 发表于 02-25 10:39 693次阅读

    谷歌发布轻量级开源人工智能模型Gemma

    谷歌近日宣布推出开源人工智能(AI)模型系列Gemma,旨在为开发人员和研究人员提供一个负责任的AI构建平台。这一举措标志着自2022年OpenAI的ChatGPT引领AI聊天机器人热潮后,谷歌首次发布重要的
    的头像 发表于 02-23 11:38 864次阅读

    谷歌大型模型终于开放源代码,迟到但重要的开源战略

    在人工智能领域,谷歌可以算是开源的鼻祖。今天几乎所有的大语言模型,都基于谷歌在 2017 年发布的 Transformer 论文;谷歌的发布的 BERT、T5,都是最早的一批
    发表于 02-22 18:14 437次阅读
    <b class='flag-5'>谷歌</b>大型模型终于开放源代码,迟到但重要的<b class='flag-5'>开源</b>战略

    美FTC调查科技巨头 包括微软谷歌OpenAI等五公司

    美FTC调查科技巨头 包括微软谷歌OpenAI等五公司 据外媒报道,近期美国联邦贸易委员会(FTC)因为担心扭曲创新、破坏公平竞争;对一些科技巨头的大额投资进行了调查,包括了微软、亚
    的头像 发表于 01-26 20:26 1900次阅读