Microsoft开源了零冗余优化器版本2（ZeRO-2）-电子发烧友网

Microsoft开源了零冗余优化器版本2（ZeRO-2），这是一种分布式深度学习优化算法，可根据集群大小进行超线性扩展。与以前的分布式学习技术相比，Microsoft使用ZeRO-2培训了10倍的1000亿参数自然语言处理（NLP）模型。

程序经理Rangan Majumder和杰出的工程师Wang Junhua在博客中写道，描述了该算法及其实验。ZeRO-2是Microsoft开源DeepSpeed库的一部分，用于深度学习培训优化。ZeRO-2优化了训练过程中的内存消耗，允许对多达1，700亿个参数的模型进行分布式训练。该算法还减少了分布式集群中工作节点之间的通信，实现了超线性并行加速，从而将培训时间减少了多达10倍。DeepSpeed团队在1，024个GPU的集群上使用ZeRO-2，达到了创纪录的44分钟的时间来训练BERT自然语言模型，比NVIDIA的结果提高了30%以上。

NLP研究的最新趋势表明，通过在较大数据集上训练的较大模型，可以提高准确性。OpenAI提出了一套“缩放定律”，表明模型精度与模型大小具有幂律关系，并且最近通过创建具有1750亿个参数的GPT-3模型对该想法进行了测试。由于这些模型太大而无法容纳单个GPU的内存，因此对其进行训练需要一堆机器和模型并行训练技术，以在整个集群中分配参数。有几种实现有效的模型并行性的开源框架，包括GPipe和NVIDIA的Megatron，但是由于集群节点之间的通信开销，它们具有次线性加速，并且使用框架通常需要模型重构。

ZeRO-2使用以下三种策略来减少训练所需的内存：减少模型状态内存需求，将层激活卸载到CPU以及减少内存碎片。ZeRO-2可以通过在并行进程之间划分梯度和参数，将模型状态内存需求减少多达8倍。层激活值是从前向训练过程中保存的，以便稍后在后向过程中使用，但是ZeRO-2将它们暂时从GPU的内存移动到主机CPU的内存。最后，即使可用内存不连续，即使内存可用，内存分配也可能失败。ZeRO-2通过为连续用途（例如激活和渐变）预先分配连续的内存块来减少碎片。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

深度学习

深度学习

+关注

关注
73

文章
5527

浏览量
121833
自然语言处理

自然语言处理

+关注

关注
1

文章
623

浏览量
13710
nlp

nlp

+关注

关注
1

文章
489

浏览量
22187

构建开源OpenVINO™工具套件后，模型优化器位于何处呢？

构建开源OpenVINO™工具套件后，模型优化器位于何处？

发表于 03-06 08:18

Made with KiCad（117）：ShaRPiKeebo 树莓派 Zero 2W 扩展板

“ 一个小型的 Linux 计算机，集成了键盘、日光下可读的屏幕和长距离收发器。核心板是 Raspberry Pi Zero W 或 2W。 ” Made with KiCad 系列将支持新的展示

发表于 03-04 11:12 •161次阅读

Made with KiCad（117）：ShaRPiKeebo 树莓派 <b class='flag-5'>Zero</b> <b class='flag-5'>2</b>W 扩展板

hyper 2012 r2，Hyper 2012 R2：经典版本功能与使用

：经典版本功能与使用。 Hyper-V2012R2是微软推出的一款经典虚拟化平台，广泛应用于服务器虚拟化和资源整合。作为WindowsServer2012R2的一部分，Hyper

发表于 02-08 10:11 •131次阅读

hyper 2012 r<b class='flag-5'>2</b>，Hyper 2012 R<b class='flag-5'>2</b>：经典<b class='flag-5'>版本</b>功能与使用

智谱GLM-Zero深度推理模型预览版正式上线

近日，智谱公司宣布其深度推理模型GLM-Zero的初代版本——GLM-Zero-Preview已正式上线。这款模型是智谱首个基于扩展强化学习技术训练的推理模型，标志着智谱在AI推理领域迈出了重要一步

发表于 01-02 10:55 •230次阅读

开源鸿蒙5.0 Release版本关键特性解读

概述开源鸿蒙 5.0 Release版本是开源鸿蒙操作系统的一个里程碑，在系统能力、性能优化等多个方面进一步增强。本文将从系统功能、性能优化

发表于 12-23 13:58 •879次阅读

PCM1680这个zero1/2 out是个什么应用场景？不接有什么问题吗？

PCM16801680这个zero1/2out是个什么应用场景？不接有没什么问题？

发表于 12-11 06:32

Banana Pi BPi-M4 Zero 开源硬件开发板评测试: 全志科技H618 方案设计

Banana Pi 推出了全志 H618 开发系统的第二个版本，标记为 V2.0，名称为 BPi-M4 Zero，采用 Raspberry Pi Zero 格式。不久前，我们写过BPi-M4

发表于 12-03 17:58 •720次阅读

OrangePi Zero 2W基准测试：与OPi 3B、树莓派3A+、树莓派 Zero2W等进行对比

。OrangePiZero2W是OrangePiZero系列中最新、最小的成员。Zero系列都是小尺寸SBC，非常适合空间有限的项目。它采用全志H618，这是一款64位四核SoC，拥有四个运

发表于 11-07 18:04 •845次阅读

Banana Pi BPi-M4 Zero 开源硬件开发板评测试

还具有额外的特殊功能：100 MB 以太网、一个 USB 2.0 和1 个红外通讯。情况与 Orange Pi Zero 2W 类似，事实上，使用 OPi，您可以购买带有带状电缆和所有连接器的附加板

发表于 10-15 12:06

优化多相稳压器的高端FET电压振铃(第2部分)

电子发烧友网站提供《优化多相稳压器的高端FET电压振铃(第2部分).pdf》资料免费下载

发表于 09-25 10:12 •0次下载

DiSEqC™ 2.x滤波器优化

电子发烧友网站提供《DiSEqC™ 2.x滤波器优化.pdf》资料免费下载

发表于 09-24 10:41 •0次下载

微软更新Windows 11 24H2版本,优化相关二进制文件

及Copilot+ PC功能进行了定制化更新。最新动态中，微软发布了编号为KB5041178的Windows 11 24H2专项更新，此次更新的焦点在于优化Windows设置相关的二进制文件及支持功能更新的关键组件。

发表于 08-08 17:29 •879次阅读

华秋DFM新版本 #持续优化 #服务升级

锣密鼓地响应市场反馈，致力于为广大工程师用户带来更稳定、更高效的功能体验。在此次4.2新版本中，我们不仅优化了一系列核心功能，大幅提升了软件性能，还根据大家的反馈新增了几项实用工具，力求让大家

发表于 07-04 18:44

龙芯2K0300蜂鸟板支持OpenHarmony 4.0 Release版本操作系统

龙芯2K0300蜂鸟板是基于龙芯中科自研的LoongArch架构2K0300处理器设计的，整体结构小巧紧凑，功能丰富齐全。龙芯2K0300蜂鸟板采用核心板加扩展底板的模块化设计方式，有

发表于 06-20 10:02

微软将推出Win11 24H2更新，RTM版本预计数月内敲定

值得一提的是，Microsoft 近数周发布的Canary及Dev版更新主要聚焦于Bug修正，显示出24H2更新的研发正处收官阶段。同时，Microsoft已在Dev渠道中启动推送以检测Win11 24H

发表于 03-25 11:00 •1159次阅读

搜索历史

Microsoft开源了零冗余优化器版本2（ZeRO-2）

评论

构建开源OpenVINO™工具套件后，模型优化器位于何处呢？

Made with KiCad（117）：ShaRPiKeebo 树莓派 Zero 2W 扩展板

hyper 2012 r2，Hyper 2012 R2：经典版本功能与使用

智谱GLM-Zero深度推理模型预览版正式上线

开源鸿蒙5.0 Release版本关键特性解读

PCM1680这个zero1/2 out是个什么应用场景？不接有什么问题吗？

Banana Pi BPi-M4 Zero 开源硬件开发板评测试: 全志科技H618 方案设计

OrangePi Zero 2W基准测试：与OPi 3B、树莓派3A+、树莓派 Zero2W等进行对比

Banana Pi BPi-M4 Zero 开源硬件开发板评测试

优化多相稳压器的高端FET电压振铃(第2部分)

DiSEqC™ 2.x滤波器优化

微软更新Windows 11 24H2版本,优化相关二进制文件

华秋DFM新版本 #持续优化 #服务升级

龙芯2K0300蜂鸟板支持OpenHarmony 4.0 Release版本操作系统

微软将推出Win11 24H2更新，RTM版本预计数月内敲定