0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

GPU会完全取代用于AI工作负载的计算基础架构中的CPU?

我快闭嘴 来源:贤集网 作者:贤集网 2020-10-09 14:12 次阅读

人工智能AI)最初只是实验室研究,但如今机器学习深度学习等人工智能技术正越来越多地应用到现实世界中,例如检测金融交易中的欺诈行为、分析零售数据以提供个性化的购物体验,或者找到运输工具的最佳路线。

这些趋势意味着人工智能正迅速成为许多企业工作流程中不可或缺的一部分,从电子邮件到CRM或ERP,尤其是数据分析,从组织自身的数据集中收集商业智能见解,以提高效率,甚至创造新的商业机会。

这并不奇怪,IDC最近的一项调查显示,85%的企业正在评估人工智能或已经在生产中使用人工智能。然而,IDC发现,大多数组织报告说,在他们的人工智能项目中,有四分之一的机构报告说,失败率高达50%。这些失败都归因于缺乏熟练员工或文化上的挑战,但另一个常见的失败原因是无法从概念验证项目扩展到能够服务于整个组织的生产能力。

退一步讲,重要的是要区分那些投资于人工智能以获得显著的战略优势或可能重塑其整个商业模式的组织,而不是那些仅仅寻求简化运营或使用人工智能来自动化某些任务的组织。对于后者,基于云的AI功能生态系统已经兴起,可以通过API进行访问并将其集成到业务工作流程中。

另一类公司则以电子商务巨头阿里巴巴(Alibaba)分拆出来的一家银行为例,该银行使用人工智能来管理其所有金融服务,在贷款审批等流程方面,它的速度比竞争对手快得多,而且员工人数只占其一小部分。正如《哈佛商业评论》(Harvard Business Review)所详述的,这家新银行的核心是一个基于人工智能的“决策工厂”,它将决策视为一门科学,利用数据来推动预测和洞察,从而指导和自动化公司的运营工作流程。

对于这类业务,实施你的人工智能战略首先要有正确的数据,并且要理解如何使用它。这意味着不仅要雇佣数据科学家,还要雇佣数据战略家,他们是能够将业务问题转化为分析解决方案和见解的专业人士。

人工智能是建立在数据基础上的

大量的数据是开发机器学习(ML)或深度学习(DL)算法的最终根本。您在模型上投入的样本数据越多,就可以将模型“训练”得越好,并且其输出越准确可靠。结果是,与传统的企业IT环境相比,为AI项目存储和处理数据通常需要与高性能计算(HPC)安装有更多共同点的硬件

训练一个深度学习模型或分析大量数据需要大量的处理能力。这可以通过使用一堆服务器和高端处理器芯片并行处理问题来实现。但更有效的解决方案是求助于专门的加速器,如GPU,或图形处理单元。

GPU之所以得名,是因为它们最初是3D图形的加速器,需要数百万次重复计算才能渲染图像。因此,它们具有使用数百个简单处理核心的大规模并行体系结构,事实证明,它们也适用于AI模型所涉及的计算。

例如,谷歌发现一个仅用于48个Nvidia GPU即可处理用于在线图像识别的AI系统,该系统需要16,000个CPU

这并不意味着GPU会完全取代用于AI工作负载的计算基础架构中的CPU。在许多情况下,仍然需要CPU来处理应用程序逻辑和其他数据科学计算,因此在大多数情况下,结合使用CPU和GPU的计算节点将被证明是最佳解决方案。

存储源计算

与传统的HPC体系结构一样,获得最佳性能的关键是保持计算节点及其gpu以足够高的速率接收数据,以使它们保持忙碌,这意味着存储基础结构在提供所需的性能级别方面起着至关重要的作用。正确的数据存储系统必须提供高吞吐量,以防止昂贵的gpu闲置,但它也必须具有灵活性和可扩展性。

更复杂的是,不同的AI工作负载将以读写数据的方式显示不同的访问模式,存储层需要能够处理所有这些模式。ML训练工作负载往往遵循一种不可预测的访问模式,例如,生成大量的读写操作,这些读写操作可能包括大小不等的随机访问和顺序访问,存储层必须能够吸收这些数据并提供高吞吐量。

当训练数据集足够小时,例如在试验性部署中,它可能被缓存在本地内存中,或者从小型计算节点群集中的本地闪存驱动器(SSD)中提供服务,这可以提供足够的性能级别,特别是当闪存SSD是NVMe驱动器时。

NVMe是一种存储标准,它使用高速PCIe总线将SSD直接链接到系统中的处理器,而不是传统接口(如SASSATA)。它还指定了一种新的高效协议,可以减少软件开销,从而最大限度地提高闪存提供的低延迟。NVMe的一个关键特性是支持多个I/O队列(最多65535个),从而使闪存能够并行处理多个请求。这利用了NAND存储设备的内部并行性,并允许比SAS或SATA高得多的原始吞吐量。

然而,扩展这样一个试验性部署来支持生产性人工智能用例所需的大量数据是困难的和/或昂贵的,这可能是一些人工智能项目无法超越概念验证阶段的原因。

成本也是一个因素。许多全闪存存储体系结构都依赖于单独的对象存储池或类似的存储池来保存访问频率较低的冷数据。相比之下,存储公司DDN有一个名为热池的功能,用户可以通过在用于热数据的闪存层和用于冷数据的更大的旋转磁盘层之间自动迁移数据,将所有内容保存在一个文件系统中。这降低了由于管理开销而导致的成本,同时使所有数据更接近你的手边。

加速任意规模的AI

这方面的一个很好的例子可以从DDN的加速、任意规模的AI(A³I)投资组合中看到,DDN是一家专门从事高性能存储的公司。A³I系列是一套基于DDN EXAScaler系统的预配置设备,可选择所有闪存NVMe SSD或闪存与硬盘驱动器存储的混合,以提高存储容量。

为了扩大规模,客户只需添加额外的设备,每个AI200X/AI400X设备的闪存NVMe容量高达256TB,或AI7990X型号的混合存储容量为4PB。每个文件系统都可以看作是一个构建块,可以聚合成一个可以在容量、性能和功能上进行扩展的文件系统。

根据DDN,A³I设备针对所有类型的访问模式和数据布局进行了优化,以确保GPU资源的充分利用。每个设备还具有多个高速主机接口,最多有8个HDR100 InfiniBand或100Gbit/s以太网端口

AI基础设施认证

认识到这一点,领先的GPU供应商Nvidia在其参考架构中将DDNA³I存储与DGX A100系统结合在一起,DGX A100系统是一个专用的AI计算系统,其中包含八个最新的A100 Tensor Core GPU和一对AMD Epyc CPU。DGX A100系统的架构被设计为适用于所有AI工作负载的通用系统,可消耗高达192GB / s的大量数据。但是,四个并行工作的DDN AI400X存储设备能够使所有这些GPU完全存满数据。

虽然DGX A100是相当新的产品,但是客户已经在AI应用程序中将DDN存储与Nvidia的旧DGX-1平台一起使用。日本东北大学医学大银行组织(ToMMo)已实现DDN EXAScaler存储,该存储连接到运行Parabricks基因组分析软件的基于DGX-1 GPU的分析服务器,作为其医疗超级计算机系统的一部分。

据该大学称,这极大地提高了其分析能力和样品量。因为由于能够处理更大的数据集,所以以前只存在于理论上的方法现在变得可行,从而提高了数据分析的准确性。

不过教训是,要使用A来I转变业务运营,组织需要能够处理大量数据。这反过来又意味着要建立一个能够处理这些数据量的基础设施,以及在不破坏银行资金的情况下扩大对数据和计算资源的访问的方法,以支持未来的增长。

希望通过采用全面的数据战略来领先于竞争对手的公司需要确保自己不会在基础架构方面承担额外风险。选择一家在要求最苛刻的数据密集型的环境中提供一系列解决方案方面具有丰富经验的存储供应商是一个明智的起点。
责任编辑:tzh

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    29922

    浏览量

    268204
  • 人工智能
    +关注

    关注

    1791

    文章

    46734

    浏览量

    237258
  • 机器学习
    +关注

    关注

    66

    文章

    8366

    浏览量

    132343
收藏 人收藏

    评论

    相关推荐

    GPU服务器AI网络架构设计

    众所周知,在大型模型训练,通常采用每台服务器配备多个GPU的集群架构。在上一篇文章《高性能GPU服务器AI网络
    的头像 发表于 11-05 16:20 157次阅读
    <b class='flag-5'>GPU</b>服务器<b class='flag-5'>AI</b>网络<b class='flag-5'>架构</b>设计

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】--了解算力芯片GPU

    本篇阅读学习第七、八章,了解GPU架构演进及CPGPU存储体系与线程管理 █从图形到计算GPU架构演进
    发表于 11-03 12:55

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】--全书概览

    GPU 的应用历史 第9章 张量处理器设计 9.1 张量的定义 9.2 脉动阵列计算单元 9.3 Volta 架构引入张量核心 9.4 华为异腾Ascend910NPU芯片
    发表于 10-15 22:08

    名单公布!【书籍评测活动NO.43】 算力芯片 | 高性能 CPU/GPU/NPU 微架构分析

    ,即大模型专用AI超级计算机的中枢核心。 作者介绍: 濮元恺,曾就职于中关村在线核心硬件事业部,负责CPUGPU类产品评测,长期关注GPGPU并行
    发表于 09-02 10:09

    自动驾驶三大主流芯片架构分析

    当前主流的AI芯片主要分为三类,GPU、FPGA、ASIC。GPU、FPGA均是前期较为成熟的芯片架构,属于通用型芯片。ASIC属于为AI
    的头像 发表于 08-19 17:11 1417次阅读
    自动驾驶三大主流芯片<b class='flag-5'>架构</b>分析

    ai服务器是什么架构类型

    架构AI服务器通常具有较高的通用性,可以运行各种人工智能算法。但是,CPU架构AI服务器在处理大规模并行
    的头像 发表于 07-02 09:51 898次阅读

    进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

    架构打造的顶尖生成式 AI 系统可应用于数据中心,为企业提供高效的人工智能解决方案。 **4.**科学研究 Blackwell 架构GPU
    发表于 05-13 17:16

    Rivos完成2.5亿美元A轮融资,用于研发AI工作负载 RISC-V计算加速

    Rivos创立于2021年,总部设于美国加利福尼亚州,专注于设计和生产RISC-V芯片。尽管在A轮融资后未披露芯片详细架构,但据称其结合了高性能RISC-V CPU和数据并行加速器(GPGPU)以满足AI
    的头像 发表于 04-17 10:16 415次阅读

    X-Silicon发布RISC-V新架构 实现CPU/GPU一体化

    X-Silicon 的芯片与其他架构不同,其设计将 CPUGPU 的功能整合到单核架构。这与英特尔和 AMD 的典型设计不同,前者有
    发表于 04-08 11:34 533次阅读
    X-Silicon发布RISC-V新<b class='flag-5'>架构</b> 实现<b class='flag-5'>CPU</b>/<b class='flag-5'>GPU</b>一体化

    FPGA在深度学习应用或将取代GPU

    ,也正积极的为其开发专用的 AI 硬件,用于自己的云产品和边缘计算产品环境。 神经形态芯片 方面也有着一些发展,这是一种专门为神经网络设计的计算机
    发表于 03-21 15:19

    高通NPU和异构计算提升生成式AI性能 

    异构计算的重要性不可忽视。根据生成式AI的独特需求和计算负担,需要配备不同的处理器,如专注于AI工作负载
    的头像 发表于 03-06 14:15 712次阅读

    gpu是什么和cpu的区别

    GPUCPU是两种常见的计算机处理器,它们在结构和功能上有很大的区别。在这篇文章,我们将探讨GPU
    的头像 发表于 02-20 11:24 1.8w次阅读

    详解GPU硬件架构及运行机制

    为什么我们总说GPUCPU要强大,既然GPU强大,为什么不能取代CPU呢?
    的头像 发表于 01-26 09:23 2142次阅读
    详解<b class='flag-5'>GPU</b>硬件<b class='flag-5'>架构</b>及运行机制

    为什么GPUCPU更快?

    GPUCPU更快的原因并行处理能力:GPU可以同时处理多个任务和数据,而CPU通常只能一次处理一项任务。这是因为GPU
    的头像 发表于 01-26 08:30 2196次阅读
    为什么<b class='flag-5'>GPU</b>比<b class='flag-5'>CPU</b>更快?

    深入解读AMD最新GPU架构

    GCN 取代了 Terascale,并强调 GPGPU 和图形应用程序的一致性能。然后,AMD 将其 GPU 架构开发分为单独的 CDNA 和 RDNA 线路,分别专门用于
    发表于 01-08 10:12 1129次阅读
    深入解读AMD最新<b class='flag-5'>GPU</b><b class='flag-5'>架构</b>