0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Microsoft开源了零冗余优化器版本2(ZeRO-2)

倩倩 来源:文财网 2020-07-22 15:12 次阅读

Microsoft开源了零冗余优化器版本2(ZeRO-2),这是一种分布式深度学习优化算法,可根据集群大小进行超线性扩展。与以前的分布式学习技术相比,Microsoft使用ZeRO-2培训了10倍的1000亿参数自然语言处理(NLP)模型。

程序经理Rangan Majumder和杰出的工程师Wang Junhua在博客中写道,描述了该算法及其实验。ZeRO-2是Microsoft开源DeepSpeed库的一部分,用于深度学习培训优化。ZeRO-2优化了训练过程中的内存消耗,允许对多达1,700亿个参数的模型进行分布式训练。该算法还减少了分布式集群中工作节点之间的通信,实现了超线性并行加速,从而将培训时间减少了多达10倍。DeepSpeed团队在1,024个GPU的集群上使用ZeRO-2,达到了创纪录的44分钟的时间来训练BERT自然语言模型,比NVIDIA的结果提高了30%以上。

NLP研究的最新趋势表明,通过在较大数据集上训练的较大模型,可以提高准确性。OpenAI提出了一套“缩放定律”,表明模型精度与模型大小具有幂律关系,并且最近通过创建具有1750亿个参数的GPT-3模型对该想法进行了测试。由于这些模型太大而无法容纳单个GPU的内存,因此对其进行训练需要一堆机器和模型并行训练技术,以在整个集群中分配参数。有几种实现有效的模型并行性的开源框架,包括GPipe和NVIDIA的Megatron,但是由于集群节点之间的通信开销,它们具有次线性加速,并且使用框架通常需要模型重构。

ZeRO-2使用以下三种策略来减少训练所需的内存:减少模型状态内存需求,将层激活卸载到CPU以及减少内存碎片。ZeRO-2可以通过在并行进程之间划分梯度和参数,将模型状态内存需求减少多达8倍。层激活值是从前向训练过程中保存的,以便稍后在后向过程中使用,但是ZeRO-2将它们暂时从GPU的内存移动到主机CPU的内存。最后,即使可用内存不连续,即使内存可用,内存分配也可能失败。ZeRO-2通过为连续用途(例如激活和渐变)预先分配连续的内存块来减少碎片。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 深度学习
    +关注

    关注

    73

    文章

    5463

    浏览量

    120876
  • 自然语言处理

    关注

    1

    文章

    596

    浏览量

    13479
  • nlp
    nlp
    +关注

    关注

    1

    文章

    483

    浏览量

    21985
收藏 人收藏

    评论

    相关推荐

    OrangePi Zero 2W基准测试:与OPi 3B、树莓派3A+、树莓派 Zero2W等进行对比

    。OrangePiZero2W是OrangePiZero系列中最新、最小的成员。Zero系列都是小尺寸SBC,非常适合空间有限的项目。它采用全志H618,这是一款64位四核SoC,拥有四个运
    的头像 发表于 11-07 18:04 66次阅读
    OrangePi <b class='flag-5'>Zero</b> <b class='flag-5'>2</b>W基准测试:与OPi 3B、树莓派3A+、树莓派 <b class='flag-5'>Zero2</b>W等进行对比

    PerfXCloud重磅升级 阿里开源最强视觉语言模型Qwen2-VL-7B强势上线!

    体验吧! Qwen2-VL Qwen2-VL模型由阿里推出,在描述图像、理解视频以及解答视觉相关问题等方面表现极为卓越。该模型提供2B/7B/72B不同规模的版本
    的头像 发表于 10-23 11:07 205次阅读
    PerfXCloud重磅升级  阿里<b class='flag-5'>开源</b>最强视觉语言模型Qwen<b class='flag-5'>2</b>-VL-7B强势上线!

    ​Banana Pi BPi-M4 Zero 开源硬件开发板评测试

    还具有额外的特殊功能:100 MB 以太网、一个 USB 2.0 和1 个红外通讯。情况与 Orange Pi Zero 2W 类似,事实上,使用 OPi,您可以购买带有带状电缆和所有连接的附加板
    发表于 10-15 12:06

    TI TDA2x SoC上基于GPU的环视优化

    电子发烧友网站提供《TI TDA2x SoC上基于GPU的环视优化.pdf》资料免费下载
    发表于 10-10 09:14 0次下载
    TI TDA<b class='flag-5'>2</b>x SoC上基于GPU的环视<b class='flag-5'>优化</b>

    优化多相稳压的高端FET电压振铃(第2部分)

    电子发烧友网站提供《优化多相稳压的高端FET电压振铃(第2部分).pdf》资料免费下载
    发表于 09-25 10:12 0次下载
    <b class='flag-5'>优化</b>多相稳压<b class='flag-5'>器</b>的高端FET电压振铃(第<b class='flag-5'>2</b>部分)

    DiSEqC™ 2.x滤波优化

    电子发烧友网站提供《DiSEqC™ 2.x滤波优化.pdf》资料免费下载
    发表于 09-24 10:41 0次下载
    DiSEqC™ <b class='flag-5'>2</b>.x滤波<b class='flag-5'>器</b><b class='flag-5'>优化</b>

    微软更新Windows 11 24H2版本,优化相关二进制文件

    及Copilot+ PC功能进行了定制化更新。最新动态中,微软发布编号为KB5041178的Windows 11 24H2专项更新,此次更新的焦点在于优化Windows设置相关的二进制文件及支持功能更新的关键组件。
    的头像 发表于 08-08 17:29 637次阅读

    华秋DFM新版本 #持续优化 #服务升级

    锣密鼓地响应市场反馈,致力于为广大工程师用户带来更稳定、更高效的功能体验。 在此次4.2新版本中,我们不仅优化了一系列 核心功能 ,大幅提升了软件性能,还根据大家的反馈新增几项 实用工具 ,力求让大家
    发表于 07-04 18:44

    BEMF比较输出PH_ZC_STS与TLE9893配置向导中用于检查下降和上升过检测的中断不匹配,怎么解决?

    我在配置向导中为所有相位的上升沿和下降沿配置交叉中断,但该中断与 BEMF 比较输出 PHx_ZC_STS 不匹配。 以下波形显示 Phase1_zerocross (PH1_ZC_STS
    发表于 07-03 08:23

    龙芯2K0300蜂鸟板支持OpenHarmony 4.0 Release版本操作系统

    龙芯2K0300蜂鸟板是基于龙芯中科自研的LoongArch架构2K0300处理设计的,整体结构小巧紧凑,功能丰富齐全。龙芯2K0300蜂鸟板采用核心板加扩展底板的模块化设计方式,有
    发表于 06-20 10:02

    微软将推出Win11 24H2更新,RTM版本预计数月内敲定

    值得一提的是,Microsoft 近数周发布的Canary及Dev版更新主要聚焦于Bug修正,显示出24H2更新的研发正处收官阶段。同时,Microsoft已在Dev渠道中启动推送以检测Win11 24H
    的头像 发表于 03-25 11:00 984次阅读

    LLaMA 2是什么?LLaMA 2背后的研究工作

    Meta 发布的 LLaMA 2,是新的 sota 开源大型语言模型 (LLM)。LLaMA 2 代表着 LLaMA 的下一代版本,并且具有商业许可证。
    的头像 发表于 02-21 16:00 913次阅读

    什么是PLC的软冗余和硬冗余?PLC不做性能冗余可不可以?

    什么是PLC的软冗余和硬冗余?PLC不做性能冗余可不可以? 软冗余和硬冗余都是指在PLC(可编程逻辑控制
    的头像 发表于 02-02 16:58 1764次阅读

    Orange Pi Zero 2购买和使用教学分享

    小U打算自设一个24小时运行的轻量级Python+OpenCV的服务,所以要求低功耗、算力够用就行,而且价钱越平越好。由于RasberryPi价钱高企,对比了多家替代厂后,我被
    的头像 发表于 12-18 18:17 925次阅读
    Orange Pi <b class='flag-5'>Zero</b> <b class='flag-5'>2</b>购买和使用教学分享

    快速上手Banana Pi BPI-M4 Zero 全志科技H618开源硬件开发开发板

    快速上手Banana Pi BPI-M4 Zero 全志科技H618开源硬件开发开发板
    的头像 发表于 11-30 14:42 1402次阅读
    快速上手Banana Pi BPI-M4 <b class='flag-5'>Zero</b> 全志科技H618<b class='flag-5'>开源</b>硬件开发开发板