0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数据中心加速网络技术优势与实施策略

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2024-03-07 14:37 次阅读

加速网络CPUGPU、DPU(数据处理器)或 SuperNIC 组合到专为设计用于优化网络工作负载的加速计算网络架构。它使用专用硬件来卸载要求严苛的任务,以增强服务器功能。随着 AI 和其他新工作负载的复杂性和规模不断增加,对加速网络的需求变得至关重要。

数据中心作为新的计算单元,随着网络服务对 CPU 压力的增加,现代工作负载对网络基础设施提出了新的挑战。网络基础设施需要具备敏捷性、自动化和可编程性的框架,并配备加速器和卸载功能,这些是充分发挥人工智能技术潜力和推动创新的关键。

本文将探讨加速网络技术在数据中心中的优势和实施策略,并重点介绍其在提升性能、可扩展性和效率方面的作用。

加速您的网络

网络加速需要优化网络的各个方面,包括处理器、网卡(NIC)、交换机、线缆、光纤通信和网络加速软件。利用无损网络、远程直接内存访问(RDMA)、动态路由、拥塞控制、性能隔离和网络计算,将帮助企业充分发挥现代应用程序(包括 AI)的潜力。

通过合理控制数据注入速率,可以显著提高共享网络的效率。在处理大规模数据流时,实施动态路由算法以太网交换机能够动态负载均衡整个网络中的数据,避免拥塞并降低延迟。交换机的多路径和数据包分发技术可以进一步提升网络效率,确保数据及时到达,并最大程度减少瓶颈。这些技术有助于防止交换机与 NIC 或 DPU 之间的数据冲突,而流量隔离技术通过防止一个数据流对其他数据流产生负面影响,从而确保数据的及时交付。

另一种优化技术是部署 SuperNIC 和 DPU。SuperNIC 是一种适用于 AI 云数据中心的网络加速器,可在 GPU 服务器之间提供可靠、无缝的连接。DPU 是一种新兴的处理器类别,可实现增强、加速的网络。在 SuperNIC 和 DPU 的帮助下,可以从主机处理器中卸载工作负载,以加速通信,从而使数据中心能够应对不断增长的数据移动需求。

要实现加速网络,请考虑以下技术。

加速服务

工作负载经历了重大的范式转变,过渡到去中心化,通过容器和微分段分割工作负载。这导致服务器之间的网络带宽(东西向流量)大幅增加。

AI 工作负载是一个分布式计算问题,需要使用多个互连的服务器或节点。这会给网络和 CPU 带来巨大压力。工作负载的去中心化需要重新检查网络基础设施,从而通过添加加速器使 CPU 和 GPU 摆脱处理网络、存储和安全服务的负担。这使得 CPU 能够专注于应用程序工作负载。加速可确保这些节点之间的高速、低时延数据传输,并实现高效的工作负载分配和更快的模型训练。

网络抽象

向高度虚拟化数据中心和云模型的转变正在给传统网络带来压力。传统数据中心网络的设计并不是为了支持当今虚拟化工作负载的动态特性。网络抽象(包括网络叠加)可以在物理网络之上运行多个独立的、分离的虚拟化网络层。这些对于提供灵活性、扩展性和加速至关重要。但是,如果实施不当,它们可能会阻碍网络流量。

网络优化

收集和处理的大量数据已将工作负载推向以数据为中心的时代。大型数据集的可用性与机器学习和生成式 AI 等技术进步相结合,增加了对更多数据的需求,以满足学习算法的需求。这种数据爆炸式增长的后果是需要移动、处理、检索和存储大型数据集。

无损网络可以保证准确的数据传输,而不会造成任何丢失或损坏,对于移动、处理、检索和存储这些大型数据集至关重要。RDMA 技术通过在不涉及 CPU 的情况下实现内存位置之间的直接数据传输来提高网络性能。无损网络和 RDMA 的结合可以优化数据传输效率,减少 CPU 和 GPU 空闲时间,从而实现高效的数据移动,以满足现代应用程序的需求。

端到端堆栈优化

现代工作负载具有独特的网络流量模式。传统工作负载生成的流量模式具有多流、小数据包和低方差。现代应用程序的流量涉及大数据包、少量流和高方差,包括大象流和流量模式的频繁变化。

动态路由算法用于动态负载均衡在整个网络中的数据,从而防止这些新流量模式的拥塞和高时延。显式拥塞通知(ECN)等拥塞控制机制还可确保高效的数据流并最大限度地减少性能下降。为此,必须使用优化的端到端堆栈来构建网络,以加速新的流量模式。

网络计算

现代工作负载的大型数据集需要对高度并行化的算法进行超快速处理,这使其更加复杂。随着计算需求的增加,网络计算通过提供基于硬件的集合通信操作加速,有效地将集合操作从 CPU 卸载到网络。这一功能显著提高了分布式 AI 模型训练的性能,减少了通信开销,并加速了模型收敛。从而消除了在端点之间多次发送数据的需求,并加速了网络性能。

网络加速可降低 CPU 利用率,为 CPU 处理应用程序工作负载留出更多容量。它还可以减少抖动以改善数据流,并提供更高的整体吞吐量,从而更快地处理更多数据。

总 结

网络加速技术不断发展,并变得更加专业。最新的演进将解决 AI 工作负载问题,这些工作负载需要一致、可预测的性能以及能够运行多租户环境的计算和能效。

审核编辑:黄飞

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    10922

    浏览量

    213286
  • 交换机
    +关注

    关注

    21

    文章

    2661

    浏览量

    100253
  • 光纤通信
    +关注

    关注

    20

    文章

    494

    浏览量

    44893
  • 数据中心
    +关注

    关注

    16

    文章

    4876

    浏览量

    72467
  • 数据处理器
    +关注

    关注

    0

    文章

    26

    浏览量

    8691

原文标题:借助加速网络实现数据中心现代化

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    光通信在数据中心的应用

    在数字化时代,数据中心作为信息处理和存储的核心,承担着海量数据的传输和处理任务。随着云计算、大数据、人工智能等技术的发展,数据中心的规模和复
    的头像 发表于 01-23 09:33 171次阅读

    NIDA发布《智算数据中心网络建设技术要求》

    Alliance,以下简称 “NIDA”)携手中国信息通信研究院等9家组织成员共同发布了《智算数据中心网络建设技术要求》(以下简称 “技术要求”)。该
    的头像 发表于 12-04 11:13 459次阅读

    Meta AI数据中心网络用了哪家的芯片

      在Meta,我们相信开放的硬件会推动创新。在当今世界,越来越多的数据中心基础设施致力于支持新兴的AI技术,开放硬件在协助分解方面发挥着重要作用。通过将传统数据中心技术分解为其核心组
    的头像 发表于 11-25 10:05 507次阅读
    Meta AI<b class='flag-5'>数据中心</b><b class='flag-5'>网络</b>用了哪家的芯片

    云计算与数据中心的关系

    云计算与数据中心之间存在着密切且复杂的关系,它们相互依存、互相促进。 一、数据中心是云计算的基础设施 数据中心是一整套复杂的设施,用于传递、加速、展示、计算和存储
    的头像 发表于 10-24 16:15 766次阅读

    当今数据中心技术趋势

    计算 数据中心的首要趋势是追求更高的效能和性能。随着数字化转型的深入推进,各行业对数据中心的处理能力和存储容量提出了更高要求。为了满足这些需求,数据中心正不断引入新技术,如高性能计算(
    的头像 发表于 10-24 15:15 586次阅读

    简述数据中心网络架构的演变

    随着全球对人工智能(AI)的需求不断增长,数据中心作为AI计算的重要基础设施,其网络架构与连接技术的发展变得尤为关键。
    的头像 发表于 10-22 16:23 395次阅读

    数据中心液冷需求、技术及实际应用

    夏日炎炎,数据中心制冷技术全新升级,液冷散热,让服务器清凉一夏。本文将带您一起探索数据中心液冷需求、技术及实际应用。 1 数据中心液冷需求
    的头像 发表于 06-19 11:12 1337次阅读
    <b class='flag-5'>数据中心</b>液冷需求、<b class='flag-5'>技术</b>及实际应用

    HNS 2024:星河AI数据中心网络,赋AI时代新动能

    华为数据通信创新峰会2024在巴库隆重举办,在“星河AI数据中心网络,赋AI时代新动能”主题论坛中,华为面向中东中亚地区发布星河AI数据中心网络
    的头像 发表于 05-15 09:15 730次阅读
    HNS 2024:星河AI<b class='flag-5'>数据中心</b><b class='flag-5'>网络</b>,赋AI时代新动能

    #mpo极性 #数据中心mpo

    数据中心MPO
    jf_51241005
    发布于 :2024年04月07日 10:05:13

    #mpo光纤跳线 #数据中心光纤跳线

    光纤数据中心
    jf_51241005
    发布于 :2024年03月22日 10:18:31

    模块化机房:数据中心的未来

    随着数字化转型加速数据中心已成为企业运营的核心。传统的数据中心面临空间利用不足、能源效率低下、扩展性差和维护成本高等问题。模块化机房应运而生,它不仅克服了传统设计的局限,还为数据中心
    的头像 发表于 03-12 17:26 1021次阅读

    数据中心配电能效精细化建设策略研究与趋势分析

    数据中心配电能效精细化建设策略研究与趋势分析 张颖姣 安科瑞电气股份有限公司  上海嘉定  201801 摘要:通过分析用户需求、建设和运维等多方对数据中心建设的要求;结合国家政策、数据中心
    的头像 发表于 03-11 17:00 415次阅读
    <b class='flag-5'>数据中心</b>配电能效精细化建设<b class='flag-5'>策略</b>研究与趋势分析

    #光纤弯曲 #光纤衰减 #数据中心光纤

    光纤数据中心
    jf_51241005
    发布于 :2024年03月08日 09:59:50

    #MPO预端接 #数据中心机房 #机房布线

    数据中心MPO
    jf_51241005
    发布于 :2024年03月01日 11:12:47

    #永久链路 #信道测试 #数据中心

    数据中心
    jf_51241005
    发布于 :2024年02月23日 10:17:58