0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

用NVIDIA H100 CNX构建人工智能系统

星星科技指导员 来源:NVIDIA 作者:About Charu Chaubal 2022-03-31 14:49 次阅读

人们对能够以更快的速度将数据从网络传输到 GPU 的服务器的需求不断增加。随着人工智能模型不断变大,训练所需的数据量需要多节点训练等技术才能在合理的时间范围内取得成果。 5G信号处理比前几代更复杂, GPU 可以帮助提高这种情况发生的速度。机器人传感器等设备也开始使用 5G 与边缘服务器通信,以实现基于人工智能的决策和行动。

专门构建的人工智能系统,比如最近发布的 NVIDIA DGX H100 ,是专门为支持数据中心用例的这些需求而设计的。现在,另一种新产品可以帮助企业获得更快的数据传输和更高的边缘设备性能,但不需要高端或定制系统。

NVIDIA 首席执行官 Jensen Huang 上周在 NVIDIA 公司 GTC 宣布, NVIDIA H100 CNX 是一个高性能的企业包。它结合了 NVIDIA H100 的能力与 NVIDIA ConnectX-7 SmartNIC 先进的网络能力。这种先进的体系结构在 PCIe 板上提供,为主流数据中心和边缘系统的 GPU 供电和 I / O 密集型工作负载提供了前所未有的性能。

H100 CNX 的设计优势

在标准 PCIe 设备中,控制平面和数据平面共享相同的物理连接。然而,在 H100 CNX 中, GPU 和网络适配器通过直接 PCIe Gen5 通道连接。这为 GPU 和使用 GPUDirect RDMA 的网络之间的数据传输提供了专用的高速路径,并消除了通过主机的数据瓶颈。

通过将 GPU 和 SmartNIC 组合在一块板上,客户可以利用 PCIe Gen4 甚至 Gen3 上的服务器。通过高端或专门构建的系统实现一次性能水平可以节省硬件成本。将这些组件放在一块物理板上也可以提高空间和能源效率。

将 GPU 和 SmartNIC 集成到单个设备中,通过设计创建了一个平衡的体系结构。在具有多个 GPU 和 NIC 的系统中,聚合加速卡强制 GPU 与 NIC 的比例为 1:1 。这避免了服务器 PCIe 总线上的争用,因此性能会随着附加设备线性扩展。

NVIDIA 的核心加速软件库(如 NCCL 和 UCX )自动利用性能最佳的路径将数据传输到 GPU 。现有的加速多节点应用程序可以在不做任何修改的情况下利用 H100 CNX ,因此客户可以立即从高性能和可扩展性中受益。

H100 CNX 用例

H100 CNX 提供 GPU 加速,同时具有低延迟和高速网络。这是在较低的功耗下完成的,与两个分立的卡相比,占用空间更小,性能更高。许多用例可以从这种组合中受益,但以下几点尤其值得注意。

5G 信号处理

使用 GPU 进行 5G 信号处理需要尽快将数据从网络移动到 GPU ,并且具有可预测的延迟也是至关重要的。 NVIDIA 聚合加速器与 NVIDIA Aerial SDK 相结合,为运行 5G 应用程序提供了性能最高的平台。由于数据不经过主机 PCIe 系统,因此处理延迟大大减少。在使用速度较慢的 PCIe 系统的商品服务器时,甚至可以看到这种性能的提高。

加速 5G 以上的边缘人工智能

NVIDIA AI on 5G 由 NVIDIA EGX 企业平台、 NVIDIA 公司的 SDK 软件定义的 5G 虚拟无线局域网和企业 AI 框架组成。这包括像 NVIDIA ISAAC 和 NVIDIA Metropolis 这样的 SDK 。摄像机、工业传感器和机器人等边缘设备可以使用人工智能,并通过 5G 与服务器通信。

H100 CNX 可以在单个企业服务器中提供此功能,而无需部署昂贵的专用系统。与NVIDIA 多实例 GPU 技术相比,应用于 5G 信号处理的相同加速器可用于边缘 AI 。这使得共享 GPU 用于多种不同目的成为可能。

多节点人工智能训练

多节点培训涉及不同主机上 GPU 之间的数据传输。在一个典型的数据中心网络中,服务器通常会在性能、规模和密度方面受到各种限制。大多数企业服务器不包括 PCIe 交换机,因此 CPU 成为这种流量的瓶颈。数据传输受主机 PCIe 背板的速度限制。虽然 GPU:NIC 的比例为 1:1 是理想的,但服务器中 PCIe 通道和插槽的数量可能会限制设备的总数。

H100 CNX 的设计缓解了这些问题。从网络到 GPU 有一条专用路径,供 GPUDirect RDMA 以接近线路速度运行。无论主机 PCIe 背板如何,数据传输也会以 PCIe Gen5 的速度进行。主机内 GPU 功率的放大可以以平衡的方式进行,因为 GPU:NIC 的比例是 1:1 。服务器还可以配备更多的加速能力,因为与离散卡相比,聚合加速器所需的 PCIe 通道和设备插槽更少。

NVIDIA H100 CNX 预计可在今年下半年购买。如果你有一个用例可以从这个独特而创新的产品中受益,请联系你最喜欢的系统供应商,询问他们计划何时将其与服务器一起提供。

关于作者:About Charu Chaubal

Charu Chaubal 在NVIDIA 企业计算平台集团从事产品营销工作。他在市场营销、客户教育以及技术产品和服务的售前工作方面拥有 20 多年的经验。 Charu 曾在云计算、超融合基础设施和 IT 安全等多个领域工作。作为 VMware 的技术营销领导者,他帮助推出了许多产品,这些产品共同发展成为数十亿美元的业务。此前,他曾在 Sun Microsystems 工作,在那里他设计了分布式资源管理和 HPC 基础设施软件解决方案。查鲁拥有化学工程博士学位,并拥有多项专利。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1800

    文章

    48062

    浏览量

    242021
  • 5G
    5G
    +关注

    关注

    1358

    文章

    48579

    浏览量

    567343
  • H100
    +关注

    关注

    0

    文章

    32

    浏览量

    334
收藏 人收藏

    相关推荐

    英伟达A100H100比较

    英伟达A100H100都是针对高性能计算和人工智能任务设计的GPU,但在性能和特性上存在显著差异。以下是对这两款GPU的比较: 1. 架构与核心规格: A100: 架构: 基于Amp
    的头像 发表于 02-10 17:05 1747次阅读
    英伟达A<b class='flag-5'>100</b>和<b class='flag-5'>H100</b>比较

    嵌入式和人工智能究竟是什么关系?

    嵌入式和人工智能究竟是什么关系? 嵌入式系统是一种特殊的系统,它通常被嵌入到其他设备或机器中,以实现特定功能。嵌入式系统具有非常强的适应性和灵活性,能够根据用户需求进行定制化设计。它
    发表于 11-14 16:39

    英伟达H100芯片市场降温

    随着英伟达新一代AI芯片GB200需求的不断攀升,其上一代明星产品H100芯片却遭遇了市场的冷落。据业内人士透露,搭载H100的服务器通常以8卡的形式进行出售或出租,而在去年,这类服务器的售价普遍
    的头像 发表于 10-28 15:42 1079次阅读

    《AI for Science:人工智能驱动科学创新》第6章人AI与能源科学读后感

    、优化等方面的应用有了更清晰的认识。特别是书中提到的基于大数据和机器学习的能源管理系统,通过实时监测和分析能源数据,实现了能源的高效利用和智能化管理。 其次,第6章通过多个案例展示了人工智能在能源科学中
    发表于 10-14 09:27

    《AI for Science:人工智能驱动科学创新》第一章人工智能驱动的科学创新学习心得

    的发展机遇。同时,这也要求科研人员、政策制定者和社会各界共同努力,构建一个健康、包容的AI科研生态系统。 总之,《AI for Science:人工智能驱动科学创新》的第一章为我打开了一个全新的视角,让我
    发表于 10-14 09:12

    risc-v在人工智能图像处理应用前景分析

    人工智能推荐系统中强大的图形处理器(GPU)一争高下。其独特的设计使得该处理器在功耗受限的条件下仍能实现高性能的图像处理任务。 Ceremorphic公司 :该公司开发的分层学习处理器结合了
    发表于 09-28 11:00

    名单公布!【书籍评测活动NO.44】AI for Science:人工智能驱动科学创新

    ! 《AI for Science:人工智能驱动科学创新》 这本书便将为读者徐徐展开AI for Science的美丽图景,与大家一起去了解: 人工智能究竟帮科学家做了什么? 人工智能将如何改变我们所生
    发表于 09-09 13:54

    报名开启!深圳(国际)通用人工智能大会将启幕,国内外大咖齐聚话AI

    8月28日至30日,2024深圳(国际)通用人工智能大会暨深圳(国际)通用人工智能产业博览会将在深圳国际会展中心(宝安)举办。大会以“魅力AI·无限未来”为主题,致力于打造全球通用人工智能领域集产品
    发表于 08-22 15:00

    FPGA在人工智能中的应用有哪些?

    FPGA(现场可编程门阵列)在人工智能领域的应用非常广泛,主要体现在以下几个方面: 一、深度学习加速 训练和推理过程加速:FPGA可以用来加速深度学习的训练和推理过程。由于其高并行性和低延迟特性
    发表于 07-29 17:05

    首批1024块H100 GPU,正崴集团将建中国台湾最大AI计算中心

    中国台湾当地正崴集团5月27日宣布,将与日本公司Ubitus共同打造人工智能(AI)计算中心,其中第一期将导入128个机柜,共计1024张英伟达H100旗舰计算卡,旨在构建台湾最大的AI计算中心。
    的头像 发表于 05-29 10:05 1388次阅读

    德克萨斯大学将创建一个学术界最强大的生成性人工智能研究中心

    近日,美国德克萨斯大学宣称他们将创建一个学术界最强大的生成性人工智能(AI)研究中心,该中心将配备600个Nvidia H100 GPU用于AI模型的训练,该计算机集群被命名为Vista,目前由德克萨斯高级计算中心(TACC)负
    的头像 发表于 05-28 09:06 874次阅读

    进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

    架构在高性能计算方面的应用有哪些? **1. **人工智能训练和推理 Blackwell 架构的 GPU 核心在训练性能上相较前代 Hopper H100 GPU 提升了四倍,推理性能提升最高可达
    发表于 05-13 17:16

    5G智能物联网课程之Aidlux下人工智能开发(SC171开发套件V2)

    12分32秒 https://t.elecfans.com/v/25611.html *附件:芯片模组外观检测实训.pdf 人工智能 机器人:基于融合系统的机器人仿真实训 38分02秒 https
    发表于 05-10 16:46

    英特尔发布人工智能芯片新版,对标Nvidia

    为应对AI行业对高性能芯片的巨大需求,英特尔推出了全新Gaudi 3芯片,据称这一款芯片在训练大语言模型方面的速度较之NVIDIA最新H100处理器要快50%。而且,其推理运算速度也超过了部分H100芯片。
    的头像 发表于 04-10 09:26 460次阅读

    5G智能物联网课程之Aidlux下人工智能开发(SC171开发套件V1)

    /25611.html *附件:芯片模组外观检测实训.pdf 人工智能 机器人:基于融合系统的机器人仿真实训 38分02秒 https://t.elecfans.com/v/25521.html *附件:机器人
    发表于 04-01 10:40