NVIDIA DGX SuperPOD 方案满足服务大模型的计算需求-电子发烧友网

基于京东部署的 DGX SuperPOD 集群 “天琴α”，京东探索研究院联合悉尼大学共同研发了织女模型，一并攻克了 GLUE 两项挑战性任务。

京东探索研究院致力于世界前沿技术的研究，其中人工智能方向涵盖 CV、NLP、多模态等。大规模语音模型的研究更是京东探索研究院的重中之重。

以语言模型为例，在过去 2-3 年的时间，语言模型大小每年都在以 1-2 个数量级的速度在增加，如今，则已达到万亿参数的级别。而模型的结构和复杂性日益变化，这对 GPU 集群的架构提出了不一样的要求。

从系统层面看，既有的 GPU 计算集群主要是以支持单机任务、小规模多机任务为主，相较之下，其多机之间网络扩展能力则较弱，而大规模扩展能力也较为受限。因此，在既有的 GPU 集群架构下，较无法满足服务大模型的计算需求。

对于京东探索研究院而言，掌握时效是关键，更快的模型训练意味着能加速迭代、扩展尝试空间、使产品落地更迅速，并提高业务收益。在模型越来越复杂多样、计算需求越来越大、单任务计算规模越来越大的背景下，如何快速新建一个可高效扩展并易用的 GPU 集群，以满足应对上述挑战，是亟待解决的核心问题。

基于以上挑战，京东探索研究院选择了采用 NVIDIA DGX SuperPOD 方案来提供支持，并成功给业务侧带来了巨大的提升及解决企业痛点。

1. NVIDIA DGX SuperPOD 是一套完整的解决方案，基于 DGX A100 服务器、HDR InfiniBand 200G 网卡和 NVIDIA Quantum QM8790 交换机构建了一套全互联架构，在保证单机计算能力最强的同时，采用计算和存储网络相隔离的方案，最大程度地从网络上保证集群的互联能力。

2.安装部署方面，NVIDIA 为 DGX SuperPOD 提供专业的部署服务，包括单机系统部署、InfiniBand 网络配置、调度安装调试、监控部署、多机环境、基础性能验证等，从基础系统方面，保证了最快交付。

3.使用方面，NVIDIA 为 DGX SuperPOD 部署了 Slurm 调度系统，并基于 NGC 和客户主要的几类模型，提供了完整的作业脚本，用户只需简单修改几行参数来适配自己的模型，即可一键方便地运行起大规模分布式任务。

4. 性能方面，DGX SuperPOD 经过一系列的基础优化（CUDA-X， Magnum IO， NGC）和评测验证（MLPerf），提供最好的 AI 训练性能，在京东探索研究院针对CV、NLP、跨模态等领域设计和研发的数十个模型上，经过双方一系列系统级的合作优化，在 DGX SuperPOD 上达到了比较理想的加速比和扩展性。

使用 DGX SuperPOD 方案，用户只需要关注自己的 AI 模型和算法研究，无需关注硬件和系统层的配置、优化、扩展性等问题，让 AI 研究人员把宝贵的时间和精力专注在前沿的 AI 技术研究上。

使用了 DGX SuperPOD 集群方案，极大地加速了用户的 AI 训练和迭代速度，为用户进一步探索出更强大更智能的 AI 模型建立了坚实的基石。

在 DGX SuperPOD 交付给用户仅仅两个多月之后，京东探索研究院就联合悉尼大学在传统 “预训练-微调” 的范式下，利用 DGX SuperPOD 的高效扩展能力，通过研究和工程上的全方位创新，研发出了织女模型，在通用语言理解评估基准（GLUE）的两项挑战性任务，即情感分析任务 SST（The Stanford Sentiment Treebank）和指代消解任务 WNLI （Winograd NLI）中首次超越人类，位居所有参赛机构第一。

京东探索研究院表示：“强悍的织女模型在京东探索研究院建设的全国首个基于 DGX SuperPOD 架构的超大规模计算集群 “天琴α” 上完成训练，该集群具有全球领先的大规模分布式并行训练技术，其近似线性加速比的数据、模型、流水线并行技术持续助力织女模型的高效训练。”

NVIDIA 将参加 CES 2022，并将在 1 月 5 日凌晨 0 点（北京时间）发表 NVIDIA 特别演讲。

NVIDIA GeForce 高级副总裁 Jeff Fisher 和 NVIDIA 汽车部门副总裁兼总经理 Ali Kani 将展示加速计算在设计、仿真、游戏和自动驾驶汽车方面的新突破。

原文标题：DGX SuperPOD 加速语言模型训练，助力京东探索研究院勇刷 GLUE 榜单

文章出处：【微信公众号：NVIDIA英伟达】欢迎添加关注！文章转载请注明出处。

审核编辑：彭菁

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

NVIDIA

NVIDIA

+关注

关注
14

文章
4930

浏览量
102794
gpu

gpu

+关注

关注
28

文章
4700

浏览量
128679
AI

AI

+关注

关注
87

文章
30095

浏览量
268363
人工智能

人工智能

+关注

关注
1791

文章
46838

浏览量
237502

原文标题：DGX SuperPOD 加速语言模型训练，助力京东探索研究院勇刷 GLUE 榜单

文章出处：【微信号：NVIDIA_China，微信公众号：NVIDIA英伟达】欢迎添加关注！文章转载请注明出处。

NVIDIA助力Amdocs打造生成式AI智能体

正在使用NVIDIA DGX Cloud 与 NVIDIA AI Enterprise软件开发和交付基于商用大语言模型（LLM）和领域适配模型

发表于 11-19 14:48 •216次阅读

华迅光通AI计算加速800G光模块部署

，都需要更多的光模块来进行光纤通信。对于使用gpu的广泛AI训练应用，在NVIDIA的DGX H100服务器中，集成了8个H100 gpu，对计算和存储网络的

发表于 11-13 10:16

NVIDIA助力丹麦发布首台AI超级计算机

这台丹麦最大的超级计算机由该国政府与丹麦 AI 创新中心共同建设，是一台 NVIDIA DGX SuperPOD 超级计算机。

发表于 10-27 09:42 •383次阅读

NVIDIA NIM微服务带来巨大优势

新服务通过热门 AI 模型为数百万开发者带来高达 5 倍的 token 效率提升，使他们能够立即访问在 NVIDIA DGX Cloud 上运行的 NIM 微

发表于 08-23 15:20 •441次阅读

NVIDIA提供一套服务、模型以及计算平台加速人形机器人发展

的发展，NVIDIA 于今日宣布，为全球领先的机器人制造商、AI 模型开发者和软件制造商提供一套服务、模型以及计算平台，以开发、训练和构建下

发表于 07-31 10:41 •610次阅读

英伟达推出全新NVIDIA AI Foundry服务和NVIDIA NIM推理微服务

NVIDIA 宣布推出全新 NVIDIA AI Foundry 服务和 NVIDIA NIM 推理微服务，与同样刚推出的 Llama 3.1

发表于 07-25 09:48 •665次阅读

英伟达推出AI模型推理服务NVIDIA NIM

英伟达近日宣布推出一项革命性的AI模型推理服务——NVIDIA NIM。这项服务将极大地简化AI模型部署过程，为全球的2800万英伟达开发者

发表于 06-04 09:15 •640次阅读

进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

、库及优化的AI模型和应用程序，为用户提供全面的AI计算解决方案。 DGX SuperPOD - 专为人工智能设计的数据中心

发表于 05-13 17:16

英伟达Blackwell平台网络配置分析

采用 DGX GB200 系统的 NVIDIA DGX SuperPOD 专为训练和推理万亿参数生成式AI 模型而构建。

发表于 04-17 11:01 •1274次阅读

NVIDIA Blackwell DGX SuperPOD助力万亿级生成式AI计算

全新 DGX SuperPOD 采用新型高效液冷机架级扩展架构，基于 NVIDIA DGX GB200 系统构建而成，在 FP4 精度下可提供 11.5 exaflops 的 AI 超

发表于 03-21 09:49 •194次阅读

NVIDIA推出搭载GB200 Grace Blackwell超级芯片的NVIDIA DGX SuperPOD™

NVIDIA 于太平洋时间 3 月 18 日发布新一代 AI 超级计算机 —— 搭载 NVIDIA GB200 Grace Blackwell 超级芯片的 NVIDIA

发表于 03-21 09:49 •653次阅读

英伟达推出百亿参数AI模型处理方案——DGX SuperPOD

据悉，新型DGX SuperPOD采用全新的高效水冷机架式设计，搭载英伟达DGX GB200系统，FP4精度下具备11.5 exaflops的人工智能超级计算力以及240 teraby

发表于 03-19 14:35 •697次阅读

NVIDIA 推出 Blackwell 架构 DGX SuperPOD，适用于万亿参数级的生成式 AI 超级计算

—— NVIDIA 于今日发布新一代 AI 超级计算机 —— 搭载 NVIDIA GB200 Grace Blackwell 超级芯片的 NVIDIA

发表于 03-19 10:56 •379次阅读

机器学习硬件性能的最新趋势

许多DGX H100服务器又可以组成所谓的SuperPOD，其中各个独立服务器中的加速器仍可使用NVLink传输数据，但耦合程度较低。每个Super

发表于 12-13 10:20 •389次阅读

亚马逊云科技与 NVIDIA 宣布开展战略合作，为生成式 AI 提供全新超级计算基础架构、软件和服务

NVL32 的 NVIDIA DGX 云即将登陆亚马逊云科技。两家公司联合开展“Project Ceiba”合作项目，即全球最快的 GPU 驱动 AI 超级计算机和最新 NVIDIA

发表于 11-29 21:00 •611次阅读

搜索历史

NVIDIA DGX SuperPOD 方案满足服务大模型的计算需求

评论

NVIDIA助力Amdocs打造生成式AI智能体

华迅光通AI计算加速800G光模块部署

NVIDIA助力丹麦发布首台AI超级计算机

NVIDIA NIM微服务带来巨大优势

NVIDIA提供一套服务、模型以及计算平台加速人形机器人发展

英伟达推出全新NVIDIA AI Foundry服务和NVIDIA NIM推理微服务

英伟达推出AI模型推理服务NVIDIA NIM

进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

英伟达Blackwell平台网络配置分析

NVIDIA Blackwell DGX SuperPOD助力万亿级生成式AI计算

NVIDIA推出搭载GB200 Grace Blackwell超级芯片的NVIDIA DGX SuperPOD™

英伟达推出百亿参数AI模型处理方案——DGX SuperPOD

NVIDIA 推出 Blackwell 架构 DGX SuperPOD，适用于万亿参数级的生成式 AI 超级计算

机器学习硬件性能的最新趋势

亚马逊云科技与 NVIDIA 宣布开展战略合作，为生成式 AI 提供全新超级计算基础架构、软件和服务