DGX SuperPOD助力助力织女模型的高效训练-电子发烧友网

案例简介

本案例中基于京东和 NVIDIA 英伟达联合部署的 DGX SuperPOD 分布式集群，京东探索研究院联合悉尼大学共同开发了织女模型，在 DGX SuperPOD 集群上可高效扩展并快速完成迭代，一举刷新 GLUE 两大挑战性任务榜单。

• 本案例为 NVIDIA DGX SuperPOD 平台加速大模型训练

• 本案例主要应用到 DGX A100、Mellanox HDR Infiniband、DGX SuperPOD、和 NVPS 服务

• DGX SuperPOD 是一套完整的解决方案

客户简介及客户挑战

京东探索研究院致力于世界前沿技术的研究，其中人工智能方向涵盖 CV、NLP、多模态等。大规模语音模型的研究更是京东探索研究院的重中之重。

以语言模型为例，在过去 2-3 年的时间，语言模型大小每年都在以 1-2 个数量级的速度在增加，如今，则已达到万亿参数的级别。而模型的结构和复杂性日益变化，这对 GPU 集群的架构提出了不一样的要求。

从系统层面看，既有的 GPU 计算集群主要是以支持单机任务、小规模多机任务为主，相较之下，其多机之间网络扩展能力则较弱，而大规模扩展能力也较为受限。因此，在既有的 GPU 集群架构下，较无法满足服务大模型的计算需求。

对于京东探索研究院而言，掌握时效是关键，更快的模型训练意味着能加速迭代、扩展尝试空间、使产品落地更迅速，并提高业务收益。在模型越来越复杂多样、计算需求越来越大、单任务计算规模越来越大的背景下，如何快速新建一个可高效扩展并易用的 GPU 集群，以满足应对上述挑战，是亟待解决的核心问题。

应用方案

基于以上挑战，京东探索研究院选择了采用 NVIDIA DGX SuperPOD 方案来提供支持，并成功给业务侧带来了巨大的提升及解决企业痛点。

NVIDIA DGX SuperPOD 是一套完整的解决方案，基于 DGX A100 服务器、HDR Infiniband 200G 网卡和 NVIDIA Quantum QM8790 交换机构建了一套全互联架构，在保证单机计算能力最强的同时，采用计算和存储网络相隔离的方案，最大程度地从网络上保证集群的互联能力。

安装部署方面，NVIDIA 为 DGX SuperPOD 提供专业的部署服务，包括单机系统部署、IB 网络配置、调度安装调试、监控部署、多机环境、基础性能验证等，从基础系统方面，保证了最快交付。

使用方面，NVIDIA 为 DGX SuperPOD 部署了 Slurm 调度系统，并基于 NGC 和客户主要的几类模型，提供了完整的作业脚本，用户只需简单修改几行参数来适配自己的模型，即可一键方便地运行起大规模分布式任务。

性能方面，DGX SuperPOD经过一系列的基础优化（CUDA-X， Magnum IO， NGC）和评测验证（MLPerf），提供最好的 AI 训练性能，在京东探索研究院针对CV、NLP、跨模态等领域设计和研发的数十个模型上，经过双方一系列系统级的合作优化，在 DGX SuperPOD 上达到了比较理想的加速比和扩展性。

使用 DGX SuperPOD 方案，用户只需要关注自己的 AI 模型和算法研究，无需关注硬件和系统层的配置、优化、扩展性等问题，让 AI 研究人员把宝贵的时间和精力专注在前沿的 AI 技术研究上。

使用效果及影响

使用了 DGX SuperPOD 集群方案，极大地加速了用户的 AI 训练和迭代速度，为用户进一步探索出更强大更智能的 AI 模型建立了坚实的基石。

在 DGX SuperPOD 交付给用户仅仅两个多月之后，京东探索研究院就联合悉尼大学在传统 “预训练-微调” 的范式下，利用 DGX SuperPOD 的高效扩展能力，通过研究和工程上的全方位创新，研发出了织女模型，在通用语言理解评估基准（GLUE）的两项挑战性任务，即情感分析任务 SST（The Stanford Sentiment Treebank）和指代消解任务 WNLI （Winograd NLI）中首次超越人类，位居所有参赛机构第一。

“强悍的织女模型在京东探索研究院建设的全国首个基于 DGX SuperPOD 架构的超大规模计算集群 “天琴α” 上完成训练，该集群具有全球领先的大规模分布式并行训练技术，其近似线性加速比的数据、模型、流水线并行技术持续助力织女模型的高效训练。”

审核编辑：郭婷

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

NVIDIA

NVIDIA

+关注

关注
14

文章
5093

浏览量
104039
服务器

服务器

+关注

关注
12

文章
9369

浏览量
86291

助力AIoT应用：在米尔FPGA开发板上实现Tiny YOLO V4

署 Tiny YOLO V4，我们可以为智能家居、智慧城市等 AIoT 应用提供高效的解决方案。 CPU GPU FPGA 架构对比二、了解 Tiny YOLO 模型及其适用性YOLO（You

发表于 12-06 17:18

商汤医疗联合成立上海公共服务MaaS训练及成果转化联盟

助力构建全链条大模型训练及成果转化体系，打通产学研医合作生态，商汤医疗再拓“医疗大模型朋友圈”。

发表于 11-28 10:57 •406次阅读

什么是大模型、大模型是怎么训练出来的及大模型作用

本文通俗简单地介绍了什么是大模型、大模型是怎么训练出来的和大模型的作用。什么是大模型大模型

发表于 11-25 09:29 •7446次阅读

PyTorch GPU 加速训练模型方法

在深度学习领域，GPU加速训练模型已经成为提高训练效率和缩短训练时间的重要手段。PyTorch作为一个流行的深度学习框架，提供了丰富的工具和方法来利用GPU进行

发表于 11-05 17:43 •731次阅读

NVIDIA助力丹麦发布首台AI超级计算机

这台丹麦最大的超级计算机由该国政府与丹麦 AI 创新中心共同建设，是一台 NVIDIA DGX SuperPOD 超级计算机。

发表于 10-27 09:42 •549次阅读

为什么ai模型训练要用gpu

GPU凭借其强大的并行处理能力和高效的内存系统，已成为AI模型训练不可或缺的重要工具。

发表于 10-24 09:39 •513次阅读

人脸识别模型训练流程

人脸识别模型训练流程是计算机视觉领域中的一项重要技术。本文将详细介绍人脸识别模型的训练流程，包括数据准备、模型选择、

发表于 07-04 09:19 •1217次阅读

英伟达开源Nemotron-4 340B系列模型，助力大型语言模型训练

近日，英伟达宣布开源了一款名为Nemotron-4 340B的大型模型，这一壮举为开发者们打开了通往高性能大型语言模型（LLM）训练的新天地。该系列模型不仅包含高达3400亿参数，而且

发表于 06-17 14:53 •671次阅读

进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

、库及优化的AI模型和应用程序，为用户提供全面的AI计算解决方案。 DGX SuperPOD - 专为人工智能设计的数据中心 NVIDIA 发布专为训练和推理万亿参数生成式AI

发表于 05-13 17:16

【大语言模型：原理与工程实践】大语言模型的预训练

大语言模型的核心特点在于其庞大的参数量，这赋予了模型强大的学习容量，使其无需依赖微调即可适应各种下游任务，而更倾向于培养通用的处理能力。然而，随着学习容量的增加，对预训练数据的需求也相应

发表于 05-07 17:10

英伟达Blackwell平台网络配置分析

采用 DGX GB200 系统的 NVIDIA DGX SuperPOD 专为训练和推理万亿参数生成式AI 模型而构建。

发表于 04-17 11:01 •1720次阅读

NVIDIA Blackwell DGX SuperPOD助力万亿级生成式AI计算

全新 DGX SuperPOD 采用新型高效液冷机架级扩展架构，基于 NVIDIA DGX GB200 系统构建而成，在 FP4 精度下可提供 11.5 exaflops 的 AI 超

发表于 03-21 09:49 •268次阅读

NVIDIA推出搭载GB200 Grace Blackwell超级芯片的NVIDIA DGX SuperPOD™

NVIDIA 于太平洋时间 3 月 18 日发布新一代 AI 超级计算机 —— 搭载 NVIDIA GB200 Grace Blackwell 超级芯片的 NVIDIA DGX SuperPOD™。

发表于 03-21 09:49 •844次阅读

英伟达推出百亿参数AI模型处理方案——DGX SuperPOD

据悉，新型DGX SuperPOD采用全新的高效水冷机架式设计，搭载英伟达DGX GB200系统，FP4精度下具备11.5 exaflops的人工智能超级计算力以及240 teraby

发表于 03-19 14:35 •856次阅读

NVIDIA 推出 Blackwell 架构 DGX SuperPOD，适用于万亿参数级的生成式 AI 超级计算

—— NVIDIA 于今日发布新一代 AI 超级计算机 —— 搭载 NVIDIA GB200 Grace Blackwell 超级芯片的 NVIDIA DGX SuperPOD™。这台 AI 超级计算机可以用于处理万亿参数模型

发表于 03-19 10:56 •509次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

DGX SuperPOD助力助力织女模型的高效训练

评论

助力AIoT应用：在米尔FPGA开发板上实现Tiny YOLO V4

商汤医疗联合成立上海公共服务MaaS训练及成果转化联盟

什么是大模型、大模型是怎么训练出来的及大模型作用

PyTorch GPU 加速训练模型方法

NVIDIA助力丹麦发布首台AI超级计算机

为什么ai模型训练要用gpu

人脸识别模型训练流程

英伟达开源Nemotron-4 340B系列模型，助力大型语言模型训练

进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

【大语言模型：原理与工程实践】大语言模型的预训练

英伟达Blackwell平台网络配置分析

NVIDIA Blackwell DGX SuperPOD助力万亿级生成式AI计算

NVIDIA推出搭载GB200 Grace Blackwell超级芯片的NVIDIA DGX SuperPOD™

英伟达推出百亿参数AI模型处理方案——DGX SuperPOD

NVIDIA 推出 Blackwell 架构 DGX SuperPOD，适用于万亿参数级的生成式 AI 超级计算