NVIDIA对 NeMo Megatron 框架进行更新将训练速度提高 30%-电子发烧友网

随着大型语言模型（LLM）的规模和复杂性日益增加，NVIDIA 于今日宣布对 NeMo Megatron 框架进行更新，将训练速度提高 30%。

此次更新包括两项开创性的技术和一个超参数工具，用于优化和扩展任意数量 GPU 上的 LLM 训练，这为使用 NVIDIA AI 平台训练和部署模型提供了新功能。

BLOOM 是全球最大的开放科学、开放存取多语言模型，具有 1760 亿参数。该模型最近在NVIDIA AI 平台上进行了训练，支持 46 种语言和 13 种编程语言的文本生成。NVIDIA AI 平台还提供了最强大的转换器语言模型，具有 5300 亿参数，Megatron-Turing NLG 模型（MT-NLG）。

LLMs 的最新进展

LLM 是当今最重要的先进技术之一，涉及从文本中学习的多达数万亿参数。但 LLM 的开发过程昂贵而耗时，需要深厚的技术知识、分布式基础设施和全栈式方法。

LLM 也大大有助于推动实时内容生成、文本摘要、客服聊天机器人以及对话式AI问答界面的发展。

为了推动 LLM 的发展，人工智能（AI）社区正在继续对 Microsoft DeepSpeed， Colossal-AI 和Hugging Face BigScience 和 Fairscale 等工具进行创新，这些工具均由 NVIDIA AI 平台提供支持，包括 Megatron-LM、Apex 和其他 GPU 加速库。

这些对 NVIDIA AI 平台的全新优化有助于解决整个堆栈中现有的许多痛点。NVIDIA 期待着与 AI 社区合作，让每个人都能享受到 LLM 的力量。

更快速构建 LLMs

NeMo Megatron 的最新更新令 GPT-3 模型的训练速度提高了 30%，这些模型的规模从 220 亿到 1 万亿个参数不等。现在使用 1024 个 NVIDIA A100 GPU 只需 24 天就可以训练一个拥有 1750 亿个参数的模型。相比推出新版本之前，获得结果的时间缩短了 10 天或约 25 万个小时的 GPU 计算。

NeMo Megatron 是快速、高效、易于使用的端到端容器化框架，它可以用于收集数据、训练大规模模型、根据行业标准基准评估模型，并且以最高水准的延迟和吞吐性能进行推理。

它让 LLM 训练和推理在各种 GPU 集群配置上变得简单、可复制。目前，早期访问用户客户可在NVIDIA DGX SuperPOD、NVIDIA DGX Foundry 以及 Microsoft Azure 上运行这些功能。对其他云平台的支持也即将推出。

另外，用户还可以在 NVIDIA LaunchPad上进行功能试用。LaunchPad 是一项免费计划，可提供短期内访问 NVIDIA 加速基础设施上的动手实验室目录的机会。

NeMo Megatron 是 NeMo 的一部分，开源框架 NeMo，用于为对话式 AI、语音 AI 和生物学构建高性能和灵活的应用程序。

两项加速 LLM 训练的新技术

此次更新包括两项用于优化和扩展 LLM 训练的新技术——序列并行（SP）和选择性激活重计算（SAR）。

SP 通过注意到变换器层中尚未并行化的区域在序列维度是独立的，以此扩展张量级模型的并行性。

沿序列维度分割层，可以将算力以及最重要的内激活内存分布到张量并行设备上。激活是分布式的，因此可以将更多的激活保存到反向传播中，而无需重新计算。

图1. Transformer 层内的并行模式

SAR 通过注意到不同的激活在重计算时需要不同数量的运算，改善了内存限制迫使重新计算部分（但不是所有）激活的情况。

可以只对每个 Transformer 层中占用大量内存，但重新计算成本不高的部分设置检查点和进行重新计算，而不是针对整个变换器层。

有关更多信息，请参见减少大型 Transformer 模型中的激活重计算： https://arxiv.org/abs/2205.05198

图2. 自注意力块。红色虚线表示使用选择性激活重计算的区域

图3. 反向传播中因 SP 和 SAR 的存在而获得的激活内存量。随着模型大小的增加，SP 和 SAR 都会产生类似的内存节省，将内存需求减少约 5 倍。

图4. 完全激活重计算和 SP+SAR 的计算开销。条形图表示每层的前向、反向和重计算时间细分。基线代表没有重计算和序列并行时的情况。这些技术有效地减少了所有激活被重计算而不是保存时产生的开销。最大模型的开销从 36% 下降到仅为 2%。

运用 LLM 的力量，还需要高度优化的推理策略。用户可以十分轻松地将训练好的模型用于推理并使用 P-tuning 和提示调整功能优化不同的用例。

这些功能是轻量化微调的有效替代方案，使 LLM 能够适应新的用例，而不需要采取微调全部预训练模型这种繁琐的方法。在这项技术中，原始模型的参数并没有被改变，因此避免了与微调模型相关的灾难性的“遗忘”问题。

有关更多信息，请参见采用 P-Tuning 解决非英语下游任务： https://developer.nvidia.com/blog/adapting-p-tuning-to-solve-non-english-downstream-tasks/

用于训练和推理的新超参数工具

在分布式基础设施中为 LLM 寻找模型配置十分耗时。NeMo Megatron 带来了超参数工具，它能够自动找到最佳训练和推理配置，而不需要修改代码，这使 LLM 从第一天起就能在训练中获得推理收敛性，避免了在寻找高效模型配置上所浪费的时间。

该工具对不同的参数使用启发法和经验网格搜索来寻找具有最佳吞吐量的配置，包括数据并行性、张量并行性、管道并行性、序列并行性、微批大小和激活检查点设置层的数量（包括选择性激活重计算）。

通过使用超参数工具以及在 NGC 容器上的 NVIDIA 测试，NVIDIA 在 24 小时内就得到了 175B GPT-3 模型的最佳训练配置（见图5）。与使用完整激活重计算的通用配置相比，NVIDIA 将吞吐量速度提高了 20%-30%。对于参数超过 200 亿的模型，NVIDIA 使用这些最新技术将吞吐量速度进一步提升 10%-20%。

图5. HP 工具在几个容器上的结果显示了通过序列并行和选择性激活重计算实现的速度提升，其中每个节点都是 NVIDIA DGX A100。

超参数工具还可以找到在推理过程中实现最高吞吐量或最低延迟的模型配置。模型可以设置延迟和吞吐量限制，该工具也将推荐合适的配置。

图6. HP 工具的推理结果显示每个 GPU 的吞吐量和不同配置的延迟。最佳配置包括高吞吐量和低延时。

审核编辑：彭静

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器人

机器人

+关注

关注
211

文章
28468

浏览量
207365
NVIDIA

NVIDIA

+关注

关注
14

文章
4994

浏览量
103196
AI

AI

+关注

关注
87

文章
31000

浏览量
269335

原文标题：NVIDIA AI 平台大幅提高大型语言模型的性能

文章出处：【微信号：NVIDIA-Enterprise，微信公众号：NVIDIA英伟达企业解决方案】欢迎添加关注！文章转载请注明出处。

如何配置modem设备以提高网络速度

配置Modem设备以提高网络速度可以通过多个方面进行，以下是一些建议的步骤：一、硬件选择与优化高性能Modem ：选择性能卓越的Modem设备是基础。确保所购买的Modem设备支持最新的网络标准

发表于 11-22 16:08 •271次阅读

NVIDIA助力企业创建定制AI应用

NVIDIA 近日宣布与众多技术领导者一同使用最新NVIDIA NIM Agent Blueprint以及NVIDIA NeMo和NVIDIA

发表于 11-20 09:12 •351次阅读

日本企业借助NVIDIA产品加速AI创新

日本领先企业和大学正在使用 NVIDIA NeMo、NIM 微服务和 NVIDIA Isaac 加速 AI 创新。

发表于 11-19 14:34 •326次阅读

PyTorch GPU 加速训练模型方法

在深度学习领域，GPU加速训练模型已经成为提高训练效率和缩短训练时间的重要手段。PyTorch作为一个流行的深度学习框架，提供了丰富的工具和

发表于 11-05 17:43 •575次阅读

NVIDIA Nemotron-4 340B模型帮助开发者生成合成训练数据

Nemotron-4 340B 是针对 NVIDIA NeMo 和 NVIDIA TensorRT-LLM 优化的模型系列，该系列包含最先进的指导和奖励模型，以及一个用于生成式 AI 训练

发表于 09-06 14:59 •331次阅读

NVIDIA 携手全球合作伙伴推出 NIM Agent Blueprints，助力企业打造属于自己的 AI

NVIDIA AI Enterprise 平台中的 NIM 微服务与 NeMo 框架构建和运行他们的 AI 应用，创建数据驱动型 AI 飞轮埃森哲、思科、戴尔科技、德勤、慧与、联想、SoftServe

发表于 08-28 10:10 •223次阅读

Mistral AI与NVIDIA推出全新语言模型Mistral NeMo 12B

Mistral AI 和 NVIDIA 于近日共同发布了一款全新的领先语言模型Mistral NeMo 12B。开发者可以轻松定制和部署该模型，令其适用于支持聊天机器人、多语言任务、编码和摘要的企业应用。

发表于 07-27 11:04 •674次阅读

使用TensorFlow进行神经网络模型更新

使用TensorFlow进行神经网络模型的更新是一个涉及多个步骤的过程，包括模型定义、训练、评估以及根据新数据或需求进行模型微调（Fine-tuning）或重新

发表于 07-12 11:51 •438次阅读

llm模型训练一般用什么系统

。硬件系统 1.1 GPU（图形处理器）在训练大型语言模型时，GPU是首选的硬件设备。相比于CPU，GPU具有更高的并行处理能力，可以显著提高训练速度。目前，

发表于 07-09 10:02 •427次阅读

如何利用Matlab进行神经网络训练

，使得神经网络的创建、训练和仿真变得更加便捷。本文将详细介绍如何利用Matlab进行神经网络训练，包括网络创建、数据预处理、训练过程、参数调

发表于 07-08 18:26 •1916次阅读

进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

能比上一代NVIDIA Hopper™提高了15倍。采用第二代Transformer引擎、定制的Blackwell Tensor Core技术、TensorRT™-LLM和Nemo™框架

发表于 05-13 17:16

NVIDIA宣布推出基于Omniverse Cloud API构建的全新软件框架

NVIDIA 在 GTC 大会上宣布推出基于 Omniverse Cloud API（应用编程接口）构建的全新软件框架。

发表于 03-25 09:09 •549次阅读

基于NVIDIA Megatron Core的MOE LLM实现和训练优化

本文将分享阿里云人工智能平台 PAI 团队与 NVIDIA Megatron-Core 团队在 MoE (Mixture of Experts) 大语言模型（LLM）实现与训练优化上的

发表于 03-22 09:50 •799次阅读

星动纪元开源人形机器人训练框架Humanoid-Gym

星动纪元，这家专注于人形机器人技术的创新公司，近日宣布计划将其训练框架Humanoid-Gym进行开源。Humanoid-Gym是一个为人形机器人设计的训练

发表于 03-06 18:13 •2098次阅读

谷歌发布ASPIRE训练框架，提升AI选择性预测能力

该框架分为三步骤：“特定任务调整”、“答案采样”以及“自我评估学习”。首先，“特定任务调整”阶段针对基本训练的大型语言模型进一步深化训练，重点提高预测能力。其次，“答案采样”阶段模型会

发表于 01-23 11:19 •569次阅读

搜索历史

NVIDIA对 NeMo Megatron 框架进行更新将训练速度提高 30%

评论

如何配置modem设备以提高网络速度

NVIDIA助力企业创建定制AI应用

日本企业借助NVIDIA产品加速AI创新

PyTorch GPU 加速训练模型方法

NVIDIA Nemotron-4 340B模型帮助开发者生成合成训练数据

NVIDIA 携手全球合作伙伴推出 NIM Agent Blueprints，助力企业打造属于自己的 AI

Mistral AI与NVIDIA推出全新语言模型Mistral NeMo 12B

使用TensorFlow进行神经网络模型更新

llm模型训练一般用什么系统

如何利用Matlab进行神经网络训练

进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

NVIDIA宣布推出基于Omniverse Cloud API构建的全新软件框架

基于NVIDIA Megatron Core的MOE LLM实现和训练优化

星动纪元开源人形机器人训练框架Humanoid-Gym

谷歌发布ASPIRE训练框架，提升AI选择性预测能力

搜索历史

NVIDIA对 NeMo Megatron 框架进行更新 将训练速度提高 30%

评论

NVIDIA对 NeMo Megatron 框架进行更新将训练速度提高 30%