为网络管理员导航生成式 AI-电子发烧友网

众所周知，人工智能正在改变世界。对于网络管理员而言，人工智能可以以一些令人惊叹的方式改善日常运营：

重复性任务的自动化：这包括监控、故障排除和升级，可以节省时间，同时降低人为错误的风险。
网络安全：人工智能可以帮助实时检测和应对安全威胁。例如，NVIDIA Morpheus 使网络安全开发者能够创建经过优化的实时数据 AI 流水线。
拓扑优化：借助合适的遥测技术，人工智能可以分析流量模式并提出更改建议，从而优化网络性能。
主动式网络规划：人工智能可以使用同样的高级网络遥测技术来评估趋势，以预测潜在问题，并在问题发生之前提出更改建议，从而避免问题的发生。

然而，人工智能无法取代经验丰富的网络管理员的专业知识。人工智能旨在增强您的能力，就像一个虚拟助理一样。因此，人工智能可能会成为您最好的朋友，但生成式 AI 是一种新的数据中心工作负载，它带来了新的范式转变：NVIDIA 集合通信库（NCCL）。

数据中心的演变

网络管理员不得不处理许多其他近期更改：

如何配置网络
如何监控和管理网络
如何设计网络
网络上的协议和工作负载

不久前，我们可能已经通过特定网络命令行界面（CLI）的专业水平来衡量新网络管理员的价值。随着混合云计算和 DevOps 的出现，从 CLI 到 API 的转变也在不断发展。

甚至您监控和管理网络的方式也发生了变化。您已经从使用 SNMP 和 NetFlow 在数据中心轮询设备的工具转向了新的基于交换机的遥测模型，在该模型中，交换机会主动以流式传输提供基于流的诊断详细信息。

您可以实操将新的工作负载引入数据中心，其中许多数据中心都有独特的网络需求。您已经看到传统数据库被数据分析和大数据集群所取代。

现在，当被要求构建人工智能集群时，人们很容易认为人工智能只是一个规模更大、速度更快的大数据应用程序。但人工智能是不同的，如果没有合适的工具，人工智能可能会很难实现。

生成式 AI 和 NCCL 的影响

您是一家大型企业的网络管理员。您的 CTO 参加了 GTC 2023，并了解了生成式 AI 他们希望通过构建像 ChatGPT 这样的大型语言模型来响应最终用户，并与最终用户进行交互，从而改变业务运营方式。该模型必须经过训练。这需要一个大型人工智能训练集群，许多 GPU 加速的服务器通过高速网络连接。

这个人工智能训练集群带来了许多新的挑战：

网络流量模式和流量特性发生了显著变化，而传统 ECMP 表现不佳。
AI 集群参考设计需要用于计算/ GPU 、存储甚至带内管理的专用网络。
网络流量是异构的，生成由 CPU 到 CPU 和 GPU 到 GPU 通信。
人工智能集群必须能够适应在一台服务器上、多台服务器上运行作业，甚至是在一台计算机上同时运行多个作业。
网络配置发生变化，参数可优化 RoCE 和 GPU 直接通信。
人工智能作业必须在多次迭代中具有一致且可预测的作业完成时间。
具有更高带宽交换机的新型扁平化拓扑。
需要学习的新缩写词：CUDA、NVIDIA DOCA、BERT、LLM、DLRM 和 NCCL。
新的监控工具：他们如何知道 AI 和 NCCL 是否表现良好？

那么，什么是 NCCL？以下是教科书般的答案：

NVIDIA Collective Communication Library（NCCL）实现了针对 NVIDIA GPU 和网络优化的多 GPU 和多节点通信原语。NCCL 提供了诸如 all-gather、all-reduce、broadcast、reduce 和 reduce-scatter 以及点对点发送和接收之类的例程，这些例程经过优化，可通过节点内的 PCIe 和 NVLink 高速互连以及节点间的 NVIDIA 网络实现高带宽和低延迟。

资料来源：

NVIDIA Collective Communication Library (NCCL)

对于网络管理员，NCCL 负责控制全新 AI 集群的流量模式。这意味着您需要针对 NCCL 进行优化的网络设计、针对 NCCL 优化的网络监控工具以及针对 NCCL 优化的以太网交换机。

NCCL 是实现 AI 集群上运行的工作负载的高性能、一致性和可预测性的关键。NCCL 也是一个交汇点：网络管理员和数据科学家都必须讲出并理解它。当他们都能流利地讲出它时，NCCL 可以成为这些具有不同所需技能的专业人士之间的共同语言。

鉴于 NCCL 的重要性，合适的网络可以决定和突破 AI 集群的性能。人工智能集群有一些独特的要求：

抗噪能力强
对故障具有弹性
导轨优化拓扑
无损网络转发
性能隔离
无阻塞网络架构

那么，接下来是什么呢？

您的工作是防止网络减缓人工智能集群的速度，但人工智能网络需要什么？高带宽、低延迟和高弹性是必要的，但还不够。您将如何选择合适的基础设施？

基于产品手册？并不完全。
根据供应商告诉您的？有点冒险，因为他们想卖给您一些东西。
基于数据科学家们所要求的？他们不是网络专家，所以大多数人都不知道。
基于经验丰富的网络管理员的建议？很有可能他们认为是 CPU，而不是 GPU，并且需求已经发生了变化。

人工智能的网络可能很难。“没有人会因为购买 X 而被解雇”这句格言与摩尔定律一样过时，因为人工智能的 X 因素与通用计算不同。即使是拥有专门的人工智能工程团队来预先测试集群性能的大型 IT 供应商，当性能随着更多用户的添加和多个作业的同时运行而急剧下降时，也会经常感到惊讶。

保证人工智能集群性能的最佳方法是遵循 NVIDIA 发布的人工智能参考架构之一，并使用具有人工智能可见性功能的基础设施来验证您的人工智能集群的健康状况和供给情况。

无论您的人工智能集群使用以太网还是 InfiniBand，NVIDIA 都会为您提供所需的工具、支持和培训，以使您成功并成为人工智能网络专家。

扫描下方二维码，查看更多有关 NVIDIA 集合通信库（NCCL）的信息。

更多精彩内容 使用 NVIDIA Spectrum-X 网络平台加速生成式 AI 工作负载
使用 NVIDIA Cumulus Linux 实现数据中心网络自动化
借助 NVIDIA WJH 更快地诊断网络问题
COMPUTEX2023 | NVIDIA 推出面向超大规模生成式 AI 的加速以太网平台

原文标题：为网络管理员导航生成式 AI

文章出处：【微信公众号：NVIDIA英伟达】欢迎添加关注！文章转载请注明出处。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

英伟达

英伟达

+关注

关注
22

文章
3859

浏览量
92167

原文标题：为网络管理员导航生成式 AI

文章出处：【微信号：NVIDIA_China，微信公众号：NVIDIA英伟达】欢迎添加关注！文章转载请注明出处。

聚云科技荣获亚马逊云科技生成式AI能力认证

助力企业加速生成式AI应用落地北京2025年2月14日 /美通社/ -- 云管理服务提供商聚云科技获得亚马逊云科技生成

发表于 02-14 16:07 •104次阅读

聚云科技荣获亚马逊云科技生成式AI能力认证助力企业加速生成式AI应用落地

北京 ——2025 年 2 月 14 日云管理服务提供商聚云科技获得亚马逊云科技生成式AI能力认证，利用亚马逊云科技全托管的生成

发表于 02-14 13:41 •62次阅读

生成式AI工具好用吗

当下，生成式AI工具正以其强大的内容生成能力，为用户带来了前所未有的便捷与创新。那么，生成

发表于 01-17 09:54 •121次阅读

时域网络分析仪的原理和应用场景

包、IP地址冲突等，帮助网络管理员快速找到并解决问题。网络性能验证与优化：验证网络的性能指标，如吞吐量、时延、丢包率等，并为网络管理员提供优化建议，以提高

发表于 01-13 16:03

网络管理中的VLAN隔离：不同VLAN设备无法直接通信的原因与解决方案

VLAN已广泛应用于各种规模的网络架构中。VLAN通过逻辑上的网络划分，将同一个物理网络切分成多个子网，优化了带宽利用率，增强了网络的管理性

发表于 01-10 11:51 •348次阅读

<b class='flag-5'>网络</b><b class='flag-5'>管理</b>中的VLAN隔离：不同VLAN设备无法直接通信的原因与解决方案

固定带宽与动态带宽的区别

在现代通信网络中，带宽是一个关键的资源，它决定了数据传输的速度和效率。带宽管理是网络管理员和IT专业人员必须面对的一个重要任务。带宽可以以两种主要方式分配：固定带宽和动态带宽。固定带宽固定带宽

发表于 12-06 17:07 •667次阅读

生成式AI工具作用

生成式AI工具是指那些能够自动生成文本、图像、音频、视频等多种类型数据的人工智能技术。在此，petacloud.ai小编为您整理

发表于 10-28 11:19 •349次阅读

网管的五大功能是什么

在数字化时代，网络已成为企业运营不可或缺的一部分。网络管理员，作为维护和管理这些网络系统的专业人员，扮演着至关重要的角色。他们的工作不仅确保了网络

发表于 10-17 14:54 •405次阅读

RMON的最大作用是什么？

网络管理协议），使网络管理员能够远程监控网络流量和设备状态。RMON最初的设计目的是为了减少管理流量，使得

发表于 10-10 17:11 •417次阅读

三行代码完成生成式AI部署

OpenVINO2024.2版本跟之前版本最大的不同是OpenVINO2024.2分为两个安装包分别是基础包与生成式AI支持包，新发布的GenAI开发包支持C++与Python语言接口

发表于 08-30 16:49 •490次阅读

DHCP服务异常与IP地址管理挑战

DHCP是一种计算机网络协议，主要用于自动分配IP地址、子网掩码、网关、DNS等网络参数给客户端设备。它是局域网中实现自动IP地址分配的重要协议，极大地简化了网络管理员对IP地址的管理

发表于 08-30 14:35 •1390次阅读

生成式AI与神经网络模型的区别和联系

生成式AI与神经网络模型是现代人工智能领域的两个核心概念，它们在推动技术进步和应用拓展方面发挥着至关重要的作用。本文将详细探讨生成

发表于 07-02 15:03 •1045次阅读

原来这才是【生成式AI】！！

随着ChatGPT、文心一言等AI产品的火爆，生成式AI已经成为了大家茶余饭后热议的话题。可是，为什么要在AI前面加上“

发表于 06-05 08:04 •290次阅读

微软宣布：企业IT管理员可使用Windows Update for Business部署服务

Windows Update for Business原本主要负责寻找与系统有关的更新，伴随着这一最新变动，用户将能够以可选项的形式自主选择是否需要先行更新。在此过程中，IT管理员仍具有最终决定权，他们可以为设备制定分阶段推出计划或者设定延迟更新时间。

发表于 05-23 15:02 •834次阅读

生成式AI如何重塑通信业？爱立信最新尝试给出了答案

我们的网络运营管理和网络运行模式带来怎样的变革？在以下视频中，爱立信基于多年的AI探索和实践积累，率先创新性地将生成

发表于 05-13 17:10 •334次阅读

搜索历史

为网络管理员导航生成式 AI

评论

聚云科技荣获亚马逊云科技生成式AI能力认证

聚云科技荣获亚马逊云科技生成式AI能力认证助力企业加速生成式AI应用落地

生成式AI工具好用吗

时域网络分析仪的原理和应用场景

网络管理中的VLAN隔离：不同VLAN设备无法直接通信的原因与解决方案

固定带宽与动态带宽的区别

生成式AI工具作用

网管的五大功能是什么

RMON的最大作用是什么？

三行代码完成生成式AI部署

DHCP服务异常与IP地址管理挑战

生成式AI与神经网络模型的区别和联系

原来这才是【生成式AI】！！

微软宣布：企业IT管理员可使用Windows Update for Business部署服务

生成式AI如何重塑通信业？爱立信最新尝试给出了答案