NVIDIA助力百度智能云落地新一代高性能AI计算集群-电子发烧友网

案例简介

百度智能云是中国 AI 公有云服务市场的领先企业。近日，百度智能云落地新一代高性能AI计算集群，提供EFLOPS级算力支持，并发布了新一代GPU服务器实例GPU-H5-8NA100-IB01。该集群基于NVIDIA A100-80GB GPU和NVIDIA InfiniBand网络构建，成为领先的AI原生云算力底座。研究人员可基于全新发布的实例组建上千节点规模的超高性能计算集群，成倍缩短超大AI模型的训练时间，激发AI业务创新想象力。

客户挑战

随着 AI 的发展，创新业务层出不穷，业务复杂性不断提升，大模型、超大模型成为必然趋势，对于快速训练与部署应用提出了前所未有的紧迫要求。百度智能云早在 2020 年就预见到这一发展态势，启动规划与方案设计，并参考 NVIDIA 高性能分布式集群参考架构，设计落地新一代高性能 AI 集群，通过基础架构的升级，释放技术使能想象力，帮助百度以及客户的业务创新更上一层楼。

应用方案

NVIDIA 提出的高性能分布式集群参考架构基于 NVIDIA A100 GPU 和 NVIDIA HDR 200Gb/s ConnectX-6 网卡组建，采用模块化设计，能支持不同规模大小的设计，以 20 台为一个可扩展单元（Scalable Unit），可以任意扩展到 100 台、 200 台、400 台或更大的规模，通过 InfiniBand 交换机采用胖树结构全互联起来。此集群架构旨在帮助 AI 研究人员快速搭建强大、灵活、高效的系统，以满足工业界日益复杂、多变的模型对计算资源不同程度的需求。尤其对于超大语言模型预训练而言，此架构尤为重要。

基于同样的设计思路，百度智能云的新一代高性能 AI 集群采用百度自研的 X-MAN 架构超级 AI 计算机为硬件平台。

X-MAN 自 2016 年推出以来，已在凤巢、自动驾驶、自然语言处理等百度内部业务进行大规模应用多年，申请六项专利，包括 PCIe Fabric 架构、液冷技术、最大支持 64 GPU 卡扩展等，是百度 AI 业务快速落地的重要基础设施。

目前， X-MAN 已经全面升级到第四代 X-MAN 4.0 ，为 AI 和 HPC 等计算场景进行了新的优化设计。配置方面，每台 X-MAN 4.0 包含8张搭载 NVLink 互联技术的 NVIDIA A100-80GB GPU ，并可支持 8 张 200Gb/s 的 InfiniBand 网卡，实现了高速存储、高速无阻网络、高性能计算于一体的超级 AI 计算机。架构方面， X-MAN 4.0 全新设计的架构缩短了数据传输延迟，提高了数据传输带宽，有效解决本地数据传输的通信瓶颈，降低 AI 作业中 GPU 的闲置时间。在 MLCommons 1.1 榜单中， X-MAN 4.0 在同配置单机硬件性能名列 TOP2 。

为了实现更高的集群运行性能，百度智能云专门设计了适用于超大规模集群的 InfiniBand 网络架构。这个架构优化了网络收敛比，提升了网络吞吐能力。并结合容错、交换机亲和，拓扑映射等手段，得以将 EFLOPS 级算力的计算集群性能发挥到极致。

应用效果

经过百度内部 NLP 研究团队的验证，在这个网络环境下的超大规模集群上提交千亿模型训练作业时，同等机器规模下整体训练效率是普通 GPU 集群的 3.87 倍。

2022 年 3 月 1 日百度发布的 Q4 及 2021 全年财报显示，百度智能云2021年实现全年总营收 151 亿元，同比增长 64% 。高速增长的背后，是百度智能云在研发能力上的持续投入，以保持云智一体的技术引领，为客户提供坚实的基础架构与服务平台。

百度副总裁谢广军先生表示：“AI原生云是推动企业智能化升级的核心驱动力。作为中国AI公有云服务市场领跑企业，百度智能云一直在优化提升智能计算的核心能力。X-MAN 4.0助力百度内部业务发展的同时，我们也愿意将这一领先的架构开放给百度智能云的众多客户，帮助大家一起更高效地进行AI研发与探索，驱动业务创新，迈向AI原生。”

审核编辑：郭婷

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

gpu

gpu

+关注

关注
28

文章
4682

浏览量
128623
计算机

计算机

+关注

关注
19

文章
7386

浏览量
87646
AI

AI

+关注

关注
87

文章
29892

浏览量
268185

百度小度将发布AI智能眼镜

近日，有知情人士透露，百度旗下的人工智能品牌小度计划在即将举行的百度世界大会上推出一款全新的AI

发表于 11-11 14:50 •239次阅读

英特尔携手百度智能云加速AI落地

在2024年9月25日-26日举办的2024百度云智大会上，作为大会的联合主办方，英特尔带来了AI全栈软硬件方案，深入讲解了如何基于英特尔至强处理器和新一代极具性价比的加速卡高效地

发表于 10-12 10:08 •412次阅读

英特尔与百度共同为AI时代打造高性能基础设施

2024年9月25日，北京 —— 在2024百度云智大会上，英特尔应邀出席并披露基于英特尔®至强®6处理器的新一代云实例即将在百度

发表于 09-27 09:48 •239次阅读

英特尔与<b class='flag-5'>百度</b>共同为<b class='flag-5'>AI</b>时代打造<b class='flag-5'>高性能</b>基础设施

百度百舸AI计算平台4.0震撼发布

在2024年百度云智大会的璀璨舞台上，百度智能云重磅推出了百舸

发表于 09-26 14:46 •369次阅读

百度智能云推出“千帆行业增强版”

在近日于北京举办的2024智能经济论坛上，百度集团执行副总裁、百度智能云事业群总裁沈抖分享了百度

发表于 05-30 09:30 •530次阅读

高性能计算集群的能耗优化

、人工智能、大数据分析等。随着高性能计算集群的规模和性能的不断提升，其能耗问题也日益突出。高性能

发表于 05-25 08:27 •352次阅读

<b class='flag-5'>高性能</b><b class='flag-5'>计算</b><b class='flag-5'>集群</b>的能耗优化

百度副总裁、小度CEO李莹正式发布了小度新一代操作系统DuerOS X

4月16日，以“创造未来”为主题的2024百度Create AI开发者大会在深圳举办。百度集团副总裁、小度科技CEO李莹正式发布了小度

发表于 04-18 09:27 •582次阅读

<b class='flag-5'>百度</b>副总裁、小<b class='flag-5'>度</b>CEO李莹正式发布了小<b class='flag-5'>度</b><b class='flag-5'>新一代</b>操作系统DuerOS X

百度沈抖沈抖正式发布新一代智能计算操作系统—万源

4月16日，Create 2024 百度AI开发者大会在深圳召开。期间，百度集团执行副总裁、百度智能云

发表于 04-18 09:22 •399次阅读

百度沈抖：传统云计算不再是主角，智能计算呼唤新一代“操作系统”

4月16日，Create 2024 百度AI开发者大会在深圳召开。期间，百度集团执行副总裁、百度智能云

发表于 04-16 16:26 •311次阅读

百度智能云携手乌镇共建AI数据产业基地

近日，百度智能云与桐乡市乌镇大数据高新技术产业园区签署合作协议，双方将发挥各自优势，以人工智能标注产业为基础，共建百度

发表于 04-01 16:12 •580次阅读

百度智能云正式发布了《百度智能云水业大模型白皮书》

3月28日，由E20环境平台主办的2024（第二十二届）水业战略论坛在北京召开。会上，百度智能云正式发布了《百度智能

发表于 03-29 09:20 •1299次阅读

东莞与百度签署战略合作协议，推动人工智能的全场景应用落地

3月22日，东莞市人民政府与百度签署战略合作协议，双方将紧密围绕人工智能产业发展，充分发挥百度在 AI 算法、云

发表于 03-25 10:05 •798次阅读

百度智能云大模型应用产品发布会定档

百度智能云官方宣布，备受瞩目的“AI Cloud Day：百度智能

发表于 03-21 11:37 •772次阅读

首届百度智能云全球生态大会，4月9日成都见！

为了加快人工智能的发展步伐，进一步推动大模型产业的实际落地，促进AI原生应用的全面繁荣，百度智能

发表于 03-12 09:43 •591次阅读

三星电子与百度智能云达成合作

近日，三星电子与百度智能云宣布了一项重要的合作，将百度的文心大模型集成至三星全新的AI手机Gal

发表于 01-26 17:14 •1126次阅读

搜索历史

NVIDIA助力百度智能云落地新一代高性能AI计算集群

评论

百度小度将发布AI智能眼镜

英特尔携手百度智能云加速AI落地

英特尔与百度共同为AI时代打造高性能基础设施

百度百舸AI计算平台4.0震撼发布

百度智能云推出“千帆行业增强版”

高性能计算集群的能耗优化

百度副总裁、小度CEO李莹正式发布了小度新一代操作系统DuerOS X

百度沈抖沈抖正式发布新一代智能计算操作系统—万源

百度沈抖：传统云计算不再是主角，智能计算呼唤新一代“操作系统”

百度智能云携手乌镇共建AI数据产业基地

百度智能云正式发布了《百度智能云水业大模型白皮书》

东莞与百度签署战略合作协议，推动人工智能的全场景应用落地

百度智能云大模型应用产品发布会定档

首届百度智能云全球生态大会，4月9日成都见！

三星电子与百度智能云达成合作