0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数据中心依靠服务器为其计算密集型架构提供支持

独爱72H 来源:教育新闻网 作者:教育新闻网 2020-04-28 17:04 次阅读

(文章来源:教育新闻网)

支持AI和ML部署的数据中心依靠基于图形处理单元(GPU)的服务器为其计算密集型架构提供支持。在多个行业中,到2024年,GPU使用量的增长将落后于GPU服务器预计超过31%的复合年增长率。这意味着将承担更多的系统架构师的职责,以确保GPU系统具有最高的性能和成本效益。

然而,为这些基于GPU的AI / ML工作负载优化存储并非易事。存储系统必须高速处理海量数据,同时应对两个挑战:

服务器利用率1)。GPU服务器对于训练大型AI / ML数据集所需的矩阵乘法和卷积非常高效。但是,GPU服务器的成本是典型CPU服务器的3倍。为了保持ROI,IT员工需要保持GPU繁忙。不幸的是,丰富的部署经验表明GPU仅以30%的容量使用。

该2)。ML训练数据集通常远远超过GPU的本地RAM容量,从而创建了一个I / O瓶颈,分析人员将其称为GPU存储瓶颈。AI和ML系统最终要等待访问存储资源,这是因为它们的庞大规模阻碍了及时访问,从而影响了性能。为了解决这个问题,NVMe闪存固态硬盘逐渐取代了标准闪存固态硬盘,成为Al / ML存储的首选。

NVMe支持大规模的IO并行性,性能约为同类SATA SSD的6倍,并且延迟降低了10倍,并且具有更高的电源效率。正如GPU推动了高性能计算的发展一样,NVMe闪存在降低延迟的同时,实现了更高的存储性能,带宽和IO / s。NVMe闪存解决方案可以将AI和ML数据集加载到应用程序的速度更快,并且可以避免GPU匮乏。

此外,可通过高速网络虚拟化NVMe资源的基于光纤的NVMe(NVMeoF)启用了特别适用于AI和ML的存储架构。NVMeoF使GPU可以直接访问NVMe的弹性池,因此可以使用本地闪存性能来访问所有资源。它使AI数据科学家和HPC研究人员可以向应用程序提供更多数据,以便他们更快地获得更好的结果。

要获得最佳的GPU存储性能,就需要根据业务目标对基础架构进行微调。这里有四种方法可供考虑:

有效扩展GPU存储容量1)例如,InstaDeep为可能不需要或不需要运行自己的AI堆栈的组织提供了AI即服务解决方案。因此,InstaDeep需要最大的ROI和可扩展性。特别是,对多租户的需求意味着基础架构必须随时准备就绪,以满足各种工作负载和客户端的性能要求。

InstaDeep基础架构团队在部署其第一个GPU服务器系统的早期就了解到,本地GPU服务器的存储容量将太有限,只有4TB的本地存储,而客户的工作量则需要10到100 TB的TB。该团队研究了外部存储选项,并注意到,使用传统阵列它们将获得更多的容量,但性能最终会阻碍AI工作负载,因为应用程序需要将数据移入和移出GPU系统,从而中断工作流程并影响系统效率。

通过使用软件定义的存储在快速的RDMA网络上合并NVMe闪存(一种将数据集加载速度提高10倍的方法),InstaDeep可以实现更高的GPU容量利用率,消除了GPU瓶颈并提高了ROI,因为现有的GPU变得更加完整利用。
(责任编辑:fqj)

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 服务器
    +关注

    关注

    12

    文章

    9015

    浏览量

    85168
  • 数据中心
    +关注

    关注

    16

    文章

    4673

    浏览量

    71943
收藏 人收藏

    评论

    相关推荐

    简述数据中心网络架构的演变

    随着全球对人工智能(AI)的需求不断增长,数据中心作为AI计算的重要基础设施,网络架构与连接技术的发展变得尤为关键。
    的头像 发表于 10-22 16:23 233次阅读

    需要合理规划数据中心不能盲目建设

    的资源,把现有闲置的服务器等资源整合起来,建立虚拟的数据中心,但是现在的运营商却大肆的购买新设备,建立大量密集数据中心。原来的服务器资源有
    的头像 发表于 08-21 11:11 271次阅读

    哪些是数据中心的重要系统?

    数据中心是现代IT基础设施的核心,支持了大量企业和服务的运营。以下是数据中心中一些关键的重要系统和组件: 1. 服务器 应用
    的头像 发表于 08-16 13:37 219次阅读

    借助电源完整性测试提高人工智能数据中心的能效

    数据中心正在部署基于人工智能 (AI) 的技术,处理密集型服务器正在推动能源需求的增长,下表说明了这种发展趋势所带来的巨大影响。国际能源署 (IEA) 预测,到2030年,
    的头像 发表于 07-30 09:36 507次阅读
    借助电源完整性测试提高人工智能<b class='flag-5'>数据中心</b>的能效

    探索新潮流 — AI服务器引领数据中心的发展

    电子发烧友网站提供《探索新潮流 — AI服务器引领数据中心的发展.pdf》资料免费下载
    发表于 07-26 13:35 322次下载

    ai服务器是什么架构类型

    AI服务器,即人工智能服务器,是专门为人工智能应用设计的高性能计算服务器。AI服务器架构类型有
    的头像 发表于 07-02 09:51 921次阅读

    数据中心液冷需求、技术及实际应用

    夏日炎炎,数据中心制冷技术全新升级,液冷散热,让服务器清凉一夏。本文将带您一起探索数据中心液冷需求、技术及实际应用。 1 数据中心液冷需求 AI浪潮来袭,
    的头像 发表于 06-19 11:12 774次阅读
    <b class='flag-5'>数据中心</b>液冷需求、技术及实际应用

    博泰“车联网云服务平台”入选2023年度专利密集型产品名单

    近日,中国专利保护协会首次组织开展了专利密集型产品认定工作,并于近期发布2023年专利密集型产品名单,博泰的“车联网云服务平台”入选2023年度专利密集型产品名单。
    的头像 发表于 03-29 10:23 426次阅读
    博泰“车联网云<b class='flag-5'>服务</b>平台”入选2023年度专利<b class='flag-5'>密集型</b>产品名单

    韩国大带宽服务器数据中心位置

    很多用户会选择韩国大宽带服务器,那么韩国大带宽服务器数据中心位置在哪,rak小编为您整理发布韩国大带宽服务器数据中心位置。
    的头像 发表于 03-15 10:47 385次阅读

    面向下一代数据中心的全新CXL 3.1控制IP

    人工智能的快速发展正在引发数据中心的深入变革;计算密集型工作负载对CPU、加速和存储之间的低延迟、高带宽连接提出了前所未有的高要求。
    的头像 发表于 03-12 14:41 330次阅读
    面向下一代<b class='flag-5'>数据中心</b>的全新CXL 3.1控制<b class='flag-5'>器</b>IP

    什么是FPGA?带你初步揭开它的面纱

    ?首先,随着人工智能、大数据等web服务的规模指数级增长,通用处理(CPU)的性能提升遇到了瓶颈。而FPGA的可编程属性使其成为加速常见计算任务的理想选择。例如,在云
    发表于 02-21 16:10

    澜起科技津逮服务器平台数据中心带来卓越的安全与性能

    津逮®服务器平台,一款由澜起科技精心打造的云计算数据中心解决方案,旨在为关键领域提供卓越的数据运算安全性和稳定性。该平台集成了津逮®CPU和混合安全内存模组(HSDIMM®)两大核心组
    的头像 发表于 01-31 11:43 1177次阅读

    数据中心服务器功率一般多大 数据中心服务器操作系统三大类包括

    可以达到几千瓦到几十千瓦的范围,而大型数据中心服务器功率则可以达到数百千瓦甚至数兆瓦的级别。 数据中心服务器操作系统三大类包括: Windows Server系列操作系统:Windows Server系列是由微软开发的
    的头像 发表于 01-25 10:10 2399次阅读

    IDc数据中心需要哪些产品

    IDC数据中心是一个专门提供服务器和网络设备的租用、托管和管理服务的场所。它通常由大型的硬件设施和专业的技术团队组成,可以为企业和机构提供
    的头像 发表于 01-16 17:40 1910次阅读

    机架式服务器行业定义、分类及特征

    高密度、可扩展的服务器架构,通常用于数据中心和企业级应用中。被设计能够在机架中安装和堆叠,以节省空间并
    的头像 发表于 12-06 10:36 1015次阅读
    机架式<b class='flag-5'>服务器</b>行业定义、分类及特征