0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何通过组件配置为深度学习培训选择企业服务器

星星科技指导员 来源:NVIDIA 作者:Charu Chaubal 2022-04-19 15:16 次阅读

深度学习已经成为执行许多人工智能任务的最常见的神经网络实现。数据科学家使用 TensorFlow 和 PyTorch 等软件框架来开发和运行 DL 算法

到目前为止,已经有很多关于深度学习的文章,你可以从许多来源找到更详细的信息。有关良好的高层总结,请参见 人工智能、机器学习和深度学习之间有什么区别?

开始深度学习的一种流行方式是在云中运行这些框架。然而,随着企业开始增长和成熟其人工智能专业技能,他们会寻找在自己的数据中心运行这些框架的方法,以避免基于云的人工智能的成本和其他挑战。

在本文中,我将讨论如何为 深度学习培训选择企业服务器。我回顾了这个独特工作负载的具体计算需求,然后讨论了如何通过组件配置的最佳选择来满足这些需求。

DL 培训的系统要求

深度学习培训通常被设计为数据处理管道。必须首先根据数据格式、大小和其他因素准备原始输入数据。

数据通常也会经过预处理,以便相同的输入可以以不同的方式呈现给模型,这取决于数据科学家所确定的将提供更强大的训练集的内容。例如,图像可以随机旋转,以便模型学习识别对象,而不考虑方向。然后将准备好的数据输入 DL 算法。

pYYBAGJeYeqAJmOBAABlS6A6Eyk644.png

图 1 深度学习培训数据管道

了解了 DL 培训的工作原理后,以下是以最快、最有效的方式执行此任务的具体计算需求。

GPU

深度学习的核心是 GPU 。计算网络每一层的值的过程最终是一组庞大的矩阵乘法。每个层的数据通常可以并行处理,各层之间有协调步骤。

GPU 设计用于以大规模并行方式执行矩阵乘法,并已被证明是实现 深度学习的巨大速度 的理想选择。

对于训练,模型的大小是驱动因素,因此具有更大更快内存的 GPU ,比如 NVIDIA A100 GPU 核心张量 ,能够更快地处理成批的训练数据。

中央处理器

DL 训练所需的数据准备和预处理计算通常在 CPU 上执行,尽管 recent innovations 已经使越来越多的计算能够在 GPU 上执行。

使用高性能的 CPU 以足够快的速度维持这些操作是至关重要的,这样 GPU 就不会因为等待数据而感到饥饿。 CPU 应该是企业级的,例如来自英特尔至强可扩展处理器系列或 AMD EPYC 系列,而且 CPU 内核与 GPU 的比例应该足够大,以保持流水线运行。

系统存储器

特别是对于当今最大的机型, DL 训练只有在有大量输入数据可供训练时才有效。这些数据从存储器中批量检索,然后由 CPU 在系统内存中处理,然后再馈送到 GPU 。

为了保持该进程以持续的速度运行,系统内存应该足够大,以便 CPU 处理的速率可以与 GPU 处理数据的速率相匹配。这可以用系统内存与 GPU 内存的比率来表示(在服务器中的所有 GPU 中)。

不同的模型和算法需要不同的比率,但最好有更高的比率,这样 GPU 就永远不会等待数据。

网络适配器

随着 DL 模型变得越来越大,已经开发出了多种技术来执行训练,多个 GPU 一起工作。当一台服务器中安装了多个 GPU 时,它们可以通过 PCIe 总线相互通信,尽管可以使用 NVLink 和 NVSwitch 等更专业的技术来实现最高性能。

Multi- GPU 培训也可以扩展到跨多台服务器的工作。在这种情况下,网络适配器成为服务器设计的关键组件。在执行多节点 DL 训练时,需要高带宽 Ethernet 或 InfiniBand 适配器来最大限度地减少由于数据传输而产生的瓶颈。

DL 框架利用 NCCL 等库以最佳和性能的方式执行 GPU 之间的协调。 GPUDirect RDMA 等技术使数据能够从网络直接传输到 GPU ,而无需通过 CPU ,从而消除了延迟源。

理想情况下,系统中每一两个 GPU 就应该有一个网络适配器,以便在必须传输数据时最大限度地减少争用。

存储

DL 培训数据通常驻留在外部存储阵列上。服务器上的 NVMe 驱动器通过提供缓存数据的方法,可以大大加快培训过程。

DL I / O 模式通常由读取训练数据的多次迭代组成。训练的第一步(或 epoch )读取用于开始训练模型的数据。如果在节点上提供了足够的本地缓存,则后续的数据传递可以避免从远程存储中重新读取数据。

为了避免从远程存储中提取数据时发生争用,每个 CPU 应该有一个 NVMe 驱动器。

PCIe 拓扑

由于 CPU 、 GPU 和网络之间存在复杂的相互作用,因此应该清楚的是,具有减少 DL 培训管道中任何潜在瓶颈的连接设计对于实现最佳性能至关重要。

如今,大多数企业服务器使用 PCIe 作为组件之间的通信手段。 PCIe 总线上的主要流量发生在以下路径上:

从系统内存到 GPU

在多次 GPU 培训期间,在相同服务器上的 GPU 之间

在多节点培训期间 GPU 与网络适配器之间

poYBAGJeYfSAL-GgAAB__2rvYgs178.png

图 2 主 PCIe 数据通信路径

用于深度学习的服务器应具有平衡的 PCIe 拓扑结构, GPU 均匀分布在 CPU 插槽和 PCIe 根端口上。在所有情况下,每个 GPU 的 PCIe 通道数应为支持的最大数量。

如果存在多个 GPU ,且 CPU 的 PCIe 通道数量不足以容纳所有通道,则可能需要 PCIe 交换机。在这种情况下, PCIe 交换机层的数量应限制为一层或两层,以最小化 PCIe 延迟。

类似地,网络适配器和 NVMe 驱动器应与 GPU 处于同一 PCIe 交换机或 PCIe 根复合体之下。在使用 PCIe 交换机的服务器配置中,这些设备应与 GPU 位于同一 PCIe 交换机下,以获得最佳性能。

选择支持 DL 培训的经过验证的系统

设计一个为 DL 培训而优化的服务器很复杂。 NVIDIA 已经发布了 关于为各种类型的加速工作负载配置服务器的指南 ,基于多年在这些工作负载方面的经验,并与开发人员合作优化代码。

为了让你更容易上手,NVIDIA 开发了 NVIDIA-Certified Systems 程序。系统供应商合作伙伴已使用特定的 NVIDIA GPU 和网络适配器配置并测试了多种形式的服务器型号,以验证 优化设计以获得最佳性能 的有效性。

验证还包括生产部署的其他重要功能,如可管理性、安全性和可伸缩性。系统经过针对不同工作负载类型的一系列类别认证。 合格系统目录 有一份由 NVIDIA partners 提供的经 NVIDIA 认证的系统列表。数据中心类别的服务器已经过验证,可以为 DL 培训提供最佳性能。

NVIDIA 人工智能企业

除了合适的硬件,企业客户还希望为 AI 工作负载选择受支持的软件解决方案。 NVIDIA 人工智能企业 是一套端到端、云计算原生的人工智能和数据分析软件。它经过优化,因此每个组织都可以擅长人工智能,经过认证可以部署在从企业数据中心到公共云的任何地方。人工智能企业包括全球企业支持,以便人工智能项目保持正常运行。

当您在优化配置的服务器上运行 NVIDIA AI Enterprise 时,您可以放心,您正在从硬件和软件投资中获得最佳回报。

总结

在本文中,我向您展示了如何为 深度学习培训 选择具有特定计算需求的企业服务器。希望您已经学会了如何通过组件配置的最佳选择来满足这些需求。

关于作者

Charu Chaubal 在NVIDIA 企业计算平台集团从事产品营销工作。他在市场营销、客户教育以及技术产品和服务的售前工作方面拥有 20 多年的经验。 Charu 曾在云计算、超融合基础设施和 IT 安全等多个领域工作。作为 VMware 的技术营销领导者,他帮助推出了许多产品,这些产品共同发展成为数十亿美元的业务。此前,他曾在 Sun Microsystems 工作,在那里他设计了分布式资源管理和 HPC 基础设施软件解决方案。查鲁拥有化学工程博士学位,并拥有多项专利。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4847

    浏览量

    102702
  • 云计算
    +关注

    关注

    39

    文章

    7701

    浏览量

    137095
  • 服务器
    +关注

    关注

    12

    文章

    8947

    浏览量

    85065
收藏 人收藏

    评论

    相关推荐

    SMTP服务器配置教程

    1. 了解SMTP服务器 SMTP服务器是用于发送电子邮件的服务器。它使用SMTP协议来处理邮件的发送。配置SMTP服务器需要了解以下几个关
    的头像 发表于 10-30 16:16 309次阅读

    新手小白怎么通过服务器跑pytorch?

    安装PyTorch的步骤可以根据不同的操作系统和需求有所差异,通过服务器运行PyTorch的过程主要包括选择GPU云服务器平台、配置
    的头像 发表于 09-25 11:35 200次阅读

    为什么选择使用服务器

    为什么要选择使用服务器
    的头像 发表于 08-23 16:33 179次阅读

    图床服务器如何选择配置

    选择图床服务器时,应考虑存储空间、带宽、安全性和稳定性等因素。建议选择配置较高的服务器,以满足需求。 在选择图床
    的头像 发表于 07-11 15:36 221次阅读

    云存储服务器怎么配置

    云存储服务器配置是一个复杂的过程,涉及到硬件、软件、网络等多个方面。 云存储服务器配置概述 云存储是一种基于互联网的存储方式,用户可以通过
    的头像 发表于 07-02 09:15 719次阅读

    新手小白怎么学GPU云服务器深度学习?

    新手小白想用GPU云服务器深度学习应该怎么做? 用个人主机通常pytorch可以跑但是LexNet,AlexNet可能就直接就跑不动,如何实现更经济便捷的实现GPU云服务器
    发表于 06-11 17:09

    企业选择大带宽服务器时需要考虑哪些其他因素?

    企业选择大带宽服务器时,除了成本因素,还需要考虑哪些因素,rak部落小编为您整理发布企业选择大带宽
    的头像 发表于 04-12 10:31 323次阅读

    linux服务器和windows服务器

    较为熟悉,需要高性能和稳定性,并且希望能够进行自定义配置和更好的安全性,那 么Linux服务器是一个不错的选择。 而如果你对服务器操作系统不太熟悉,需要广泛的应用支持和易用的管理工具,
    发表于 02-22 15:46

    选择服务器硬件配置需要注意什么?

    决定了服务器同时处理数据的数量 。常规内存默认配置在8G左右。SATA硬盘通常转速7200转,而固态硬盘比SATA硬盘快很多倍,启动快,读取数据时间快。因此,在选择时,可以考虑性价比
    的头像 发表于 02-20 15:16 388次阅读

    什么是web服务器?如何选择服务器配置

    )、LiteSped等。这些软件在配置和功能上略有不同,但其目标是提供高性能、可靠、安全的网页内容交付。 如何选择web服务器配置?这主要取决
    的头像 发表于 01-03 15:25 1035次阅读

    如何选择视频服务器配置尺寸?

    服务器用于构建视频网站的配置要求非常高。它需要高性能的硬件配置和网络带宽来支持实时视频流处理和传输。它不仅需要高性能的CPU处理,而且对内存和硬盘空间也有很高的要求。视频
    的头像 发表于 12-14 11:28 549次阅读

    weblogic服务器状态shutdown

    详细分析该问题的可能原因,并提供解决方案,旨在帮助用户快速解决这一困扰。 第一部分:问题分析 WebLogic服务器状态Shutdown的原因 1.1 错误的配置文件:可能是由于错误的配置
    的头像 发表于 12-05 15:37 1218次阅读

    DHCP服务器配置方法

    DHCP服务器 首先,您需要选择一款适合您操作系统的DHCP服务器软件。最常用的DHCP服务器软件是ISC DHCP(Internet Systems Consortium)
    的头像 发表于 11-27 14:48 1901次阅读

    主机服务器选择:关键因素与最佳实践

    在数字化时代,主机服务器选择对于任何企业都是至关重要的。无论是大型公司还是初创企业,都需要一个稳定、高效且安全的服务器来支持其业务运行。然
    的头像 发表于 11-21 10:55 393次阅读

    linux查看服务器配置

    在Linux操作系统中,了解服务器配置对于系统管理员和网络工程师而言至关重要。通过查看服务器配置,您可以了解
    的头像 发表于 11-17 09:41 1052次阅读