0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Microsoft开源了零冗余优化器版本2(ZeRO-2)

倩倩 来源:文财网 2020-07-22 15:12 次阅读

Microsoft开源了零冗余优化器版本2(ZeRO-2),这是一种分布式深度学习优化算法,可根据集群大小进行超线性扩展。与以前的分布式学习技术相比,Microsoft使用ZeRO-2培训了10倍的1000亿参数自然语言处理(NLP)模型。

程序经理Rangan Majumder和杰出的工程师Wang Junhua在博客中写道,描述了该算法及其实验。ZeRO-2是Microsoft开源DeepSpeed库的一部分,用于深度学习培训优化。ZeRO-2优化了训练过程中的内存消耗,允许对多达1,700亿个参数的模型进行分布式训练。该算法还减少了分布式集群中工作节点之间的通信,实现了超线性并行加速,从而将培训时间减少了多达10倍。DeepSpeed团队在1,024个GPU的集群上使用ZeRO-2,达到了创纪录的44分钟的时间来训练BERT自然语言模型,比NVIDIA的结果提高了30%以上。

NLP研究的最新趋势表明,通过在较大数据集上训练的较大模型,可以提高准确性。OpenAI提出了一套“缩放定律”,表明模型精度与模型大小具有幂律关系,并且最近通过创建具有1750亿个参数的GPT-3模型对该想法进行了测试。由于这些模型太大而无法容纳单个GPU的内存,因此对其进行训练需要一堆机器和模型并行训练技术,以在整个集群中分配参数。有几种实现有效的模型并行性的开源框架,包括GPipe和NVIDIA的Megatron,但是由于集群节点之间的通信开销,它们具有次线性加速,并且使用框架通常需要模型重构。

ZeRO-2使用以下三种策略来减少训练所需的内存:减少模型状态内存需求,将层激活卸载到CPU以及减少内存碎片。ZeRO-2可以通过在并行进程之间划分梯度和参数,将模型状态内存需求减少多达8倍。层激活值是从前向训练过程中保存的,以便稍后在后向过程中使用,但是ZeRO-2将它们暂时从GPU的内存移动到主机CPU的内存。最后,即使可用内存不连续,即使内存可用,内存分配也可能失败。ZeRO-2通过为连续用途(例如激活和渐变)预先分配连续的内存块来减少碎片。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 深度学习
    +关注

    关注

    73

    文章

    5521

    浏览量

    121657
  • 自然语言处理

    关注

    1

    文章

    620

    浏览量

    13665
  • nlp
    nlp
    +关注

    关注

    1

    文章

    489

    浏览量

    22126
收藏 人收藏

    评论

    相关推荐

    hyper 2012 r2,Hyper 2012 R2:经典版本功能与使用

    :经典版本功能与使用。    Hyper-V2012R2是微软推出的一款经典虚拟化平台,广泛应用于服务虚拟化和资源整合。作为WindowsServer2012R2的一部分,Hyper
    的头像 发表于 02-08 10:11 83次阅读
    hyper 2012 r<b class='flag-5'>2</b>,Hyper 2012 R<b class='flag-5'>2</b>:经典<b class='flag-5'>版本</b>功能与使用

    智谱GLM-Zero深度推理模型预览版正式上线

    近日,智谱公司宣布其深度推理模型GLM-Zero的初代版本——GLM-Zero-Preview已正式上线。这款模型是智谱首个基于扩展强化学习技术训练的推理模型,标志着智谱在AI推理领域迈出了重要一步
    的头像 发表于 01-02 10:55 197次阅读

    开源鸿蒙5.0 Release版本关键特性解读

    概述 开源鸿蒙 5.0 Release版本开源鸿蒙操作系统的一个里程碑,在系统能力、性能优化等多个方面进一步增强。本文将从系统功能、性能优化
    的头像 发表于 12-23 13:58 749次阅读

    PCM1680这个zero1/2 out是个什么应用场景?不接有什么问题吗?

    PCM16801680这个zero1/2out是个什么应用场景?不接有没什么问题?
    发表于 12-11 06:32

    ​Banana Pi BPi-M4 Zero 开源硬件开发板评测试: 全志科技H618 方案设计

    Banana Pi 推出了全志 H618 开发系统的第二个版本,标记为 V2.0,名称为 BPi-M4 Zero,采用 Raspberry Pi Zero 格式。不久前,我们写过BPi-M4
    的头像 发表于 12-03 17:58 609次阅读
    ​Banana Pi BPi-M4 <b class='flag-5'>Zero</b> <b class='flag-5'>开源</b>硬件开发板评测试: 全志科技H618 方案设计

    OrangePi Zero 2W基准测试:与OPi 3B、树莓派3A+、树莓派 Zero2W等进行对比

    。OrangePiZero2W是OrangePiZero系列中最新、最小的成员。Zero系列都是小尺寸SBC,非常适合空间有限的项目。它采用全志H618,这是一款64位四核SoC,拥有四个运
    的头像 发表于 11-07 18:04 746次阅读
    OrangePi <b class='flag-5'>Zero</b> <b class='flag-5'>2</b>W基准测试:与OPi 3B、树莓派3A+、树莓派 <b class='flag-5'>Zero2</b>W等进行对比

    ​Banana Pi BPi-M4 Zero 开源硬件开发板评测试

    还具有额外的特殊功能:100 MB 以太网、一个 USB 2.0 和1 个红外通讯。情况与 Orange Pi Zero 2W 类似,事实上,使用 OPi,您可以购买带有带状电缆和所有连接的附加板
    发表于 10-15 12:06

    优化多相稳压的高端FET电压振铃(第2部分)

    电子发烧友网站提供《优化多相稳压的高端FET电压振铃(第2部分).pdf》资料免费下载
    发表于 09-25 10:12 0次下载
    <b class='flag-5'>优化</b>多相稳压<b class='flag-5'>器</b>的高端FET电压振铃(第<b class='flag-5'>2</b>部分)

    DiSEqC™ 2.x滤波优化

    电子发烧友网站提供《DiSEqC™ 2.x滤波优化.pdf》资料免费下载
    发表于 09-24 10:41 0次下载
    DiSEqC™ <b class='flag-5'>2</b>.x滤波<b class='flag-5'>器</b><b class='flag-5'>优化</b>

    微软更新Windows 11 24H2版本,优化相关二进制文件

    及Copilot+ PC功能进行了定制化更新。最新动态中,微软发布编号为KB5041178的Windows 11 24H2专项更新,此次更新的焦点在于优化Windows设置相关的二进制文件及支持功能更新的关键组件。
    的头像 发表于 08-08 17:29 832次阅读

    华秋DFM新版本 #持续优化 #服务升级

    锣密鼓地响应市场反馈,致力于为广大工程师用户带来更稳定、更高效的功能体验。 在此次4.2新版本中,我们不仅优化了一系列 核心功能 ,大幅提升了软件性能,还根据大家的反馈新增几项 实用工具 ,力求让大家
    发表于 07-04 18:44

    BEMF比较输出PH_ZC_STS与TLE9893配置向导中用于检查下降和上升过检测的中断不匹配,怎么解决?

    我在配置向导中为所有相位的上升沿和下降沿配置交叉中断,但该中断与 BEMF 比较输出 PHx_ZC_STS 不匹配。 以下波形显示 Phase1_zerocross (PH1_ZC_STS
    发表于 07-03 08:23

    龙芯2K0300蜂鸟板支持OpenHarmony 4.0 Release版本操作系统

    龙芯2K0300蜂鸟板是基于龙芯中科自研的LoongArch架构2K0300处理设计的,整体结构小巧紧凑,功能丰富齐全。龙芯2K0300蜂鸟板采用核心板加扩展底板的模块化设计方式,有
    发表于 06-20 10:02

    微软将推出Win11 24H2更新,RTM版本预计数月内敲定

    值得一提的是,Microsoft 近数周发布的Canary及Dev版更新主要聚焦于Bug修正,显示出24H2更新的研发正处收官阶段。同时,Microsoft已在Dev渠道中启动推送以检测Win11 24H
    的头像 发表于 03-25 11:00 1129次阅读

    LLaMA 2是什么?LLaMA 2背后的研究工作

    Meta 发布的 LLaMA 2,是新的 sota 开源大型语言模型 (LLM)。LLaMA 2 代表着 LLaMA 的下一代版本,并且具有商业许可证。
    的头像 发表于 02-21 16:00 1287次阅读