0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

FPGA与GPU计算存储单位功耗性能

算法与数据结构 来源:Xilinx赛灵思 作者:Xilinx 2021-08-13 17:45 次阅读

为了提升计算基础设施的性能,并紧跟数据分析与 AI 不断攀升的需求,众多企业将硬件加速视为主要的解决方案。在大多数情况下,先进的可编程硬件(主要是指 GPUFPGA)是加速的主要方式。通过使用这种先进的硬件,企业正在赢得计算优势;然而,对于编程难度,他们仍然存在合理的担忧。

硬件制造商正在将加速方法应用于计算存储,这是专门设计用于包含内嵌计算元素的存储。这种方法已经被证明可以为分析和 AI 应用提供优异的性能。使用或者不使用机器学习辅助的分析以及验证,都可以借助计算存储器件进行加速。这些器件提供了一个关键的优势,使得成本高昂的计算被卸载到存储器件上,而不必在服务器 CPU 上完成。与标准的存储/CPU 方法相比,通过计算存储获得的优势包括:

1

借助应用专用编程定制可编程硬件,获得更高性能

2

将计算任务从服务器卸载到存储器件,释放 CPU 资源

3

数据与计算共址,降低数据传输需求

这种新颖的方法前景光明。不过,您应根据具体用例评估这种方法,考量性能、成本、功耗和易用性。性价比和单位功耗性能在选择加速硬件评估时,占据主要比率。在本文中,我们将研讨单位功耗性能。

计算存储功耗比较

在这个场景中,我们将比较以 CSV 数据读取用例为主的三种工具:英伟达 GPUDirect 存储 和RAPIDS存储,以及基于赛灵思技术的三星 SmartSSD 存储。CSV 读取在计算密集型流水线中起着重要的作用。

在下文中,我们将性能定义成 CSV 的处理速率,或处理“带宽”。我们先快速回顾一下三种系统的运行方式。

英伟达 GPUDirect 存储

端到端满足分析和 AI 需求

将 GPU 用作计算单元,紧贴基于 NVMe 的存储器件布局 (GPUDirect)

使用 CUDA 进行编程 (RAPIDS)

英伟达用其 CSV 数据读取技术衡量相对于标准 SSD 的性能提升。结果如图 1 所示。使用 1 到 8 个加速器时,对应的吞吐量是 4 到 23GB/s。

三星 SmartSSD 驱动器

将赛灵思 FPGA 用作计算单元

与存储逻辑内嵌驻留在同一个内部 PCIe 互联上

通过编程在存储平台上开展运算

赛灵思数据分析解决方案合作伙伴 Bigstream 与三星合作,为 Apache Spark 设计加速器,包括用于 CSV 和 Parquet 处理的 IP。SmartSSD 的测试使用单机模式的 CSV 解析引擎,以便开展比较。结果如图 2 所示,使用 1 到 12 个加速器时,对应的吞吐量是 4 到 23GB/s,同时也给出英伟达的结果(使用 1 到 8 个加速器)。请注意,本讨论中的所有结果都按 x 轴上的加速器数量进行参数化。

这些结果令人振奋,但在选择您的解决方案时,请务必将功耗情况纳入考虑。

单位功耗性能比较

图 3 显示了将功耗考虑在内后的分析结果。它们代表单位功耗达到的性能水平,根据上述讨论中引用的相关材料,给出了以下假设:

Tesla V100 GPU:最大功耗 200 瓦

SmartSSD 驱动器 FPGA:最大功耗 30 瓦

在这个场景下,计算表明,在全部使用 8 个加速器的情况下,SmartSSD 的单位功耗性能比 GPUDirect Storage 高 25 倍。

最 终 思 考

计算存储的优势在于能增强数据分析和 AI 应用的性能。然而,要让这种方法具备可实际部署的能力和实用性,就必须在评估时将功耗纳入考虑。

针对用于 CSV 数据解析的两种不同的计算存储方法,我们已经提出按功耗参数化的吞吐量性能曲线。结果显示,在使用相似数量的加速器进行比较时,SmartSSD 驱动器的单位功耗性能优于 GPUDirect存储方法。

GPUDirect 是英伟达通过 NVIDIA DGX-2 应用平台提供的研究系统。

三星 SmartSSD 驱动器是一种可部署的量产型 PCIe 可插拔平台,现在已经通过赛灵思及分销商供货。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • FPGA
    +关注

    关注

    1626

    文章

    21669

    浏览量

    601872
  • 驱动器
    +关注

    关注

    52

    文章

    8158

    浏览量

    146026
  • 三星电子
    +关注

    关注

    34

    文章

    15856

    浏览量

    180924
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4701

    浏览量

    128708

原文标题:FPGA 与 GPU 计算存储加速对比

文章出处:【微信号:TheAlgorithm,微信公众号:算法与数据结构】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】--了解算力芯片GPU

    本篇阅读学习第七、八章,了解GPU架构演进及CPGPU存储体系与线程管理 █从图形到计算GPU架构演进 GPU图像
    发表于 11-03 12:55

    如何提高GPU性能

    在当今这个视觉至上的时代,GPU(图形处理单元)的性能对于游戏玩家、图形设计师、视频编辑者以及任何需要进行高强度图形处理的用户来说至关重要。GPU不仅是游戏和多媒体应用的心脏,它还在科学计算
    的头像 发表于 10-27 11:21 216次阅读

    GPU加速计算平台是什么

    GPU加速计算平台,简而言之,是利用图形处理器(GPU)的强大并行计算能力来加速科学计算、数据分析、机器学习等复杂
    的头像 发表于 10-25 09:23 215次阅读

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】--全书概览

    CPU计算单元设计 4.1 计算单元逻辑构成 4.2 数相浮点数的差异 4.3 算术逻辑单元 4.4 浮点数单元 4.5 指令的加载和存储单元 4.6 单指今多数据 4.7 矩阵加速指令集 4.8
    发表于 10-15 22:08

    FPGA做深度学习能走多远?

    。例如,在数据中心中,可以将 FPGA 与 CPU 或 GPU 结合使用,根据不同的任务需求进行灵活的资源分配和协同计算,提高整个系统的性能和效率。 • 算法优化和创新:随着深度学习算
    发表于 09-27 20:53

    存储器容量单位有哪些

    存储器容量单位是指用于衡量存储设备中存储数据能力的单位。在计算机科学中,这些
    的头像 发表于 09-05 12:41 1289次阅读

    谈一谈FPGA设计中的功率计算

    随着工艺技术的越来越前沿化, FPGA器件拥有更多的逻辑、存储器和特殊功能,如存储器接口、 DSP块和多种高速SERDES信道,这些发展不断地对系统功率要求提出挑战。 功率计算的关键是
    发表于 07-31 22:37

    信号计算主板设计方案:735-基于3U VPX的AGX Xavier GPU计算主板

    3U VPX导冷结构 , FPGA信号预处理 , GPU显卡 , PCIE视频处理 , GPU计算主板
    的头像 发表于 07-18 11:31 435次阅读
    信号<b class='flag-5'>计算</b>主板设计方案:735-基于3U VPX的AGX Xavier <b class='flag-5'>GPU</b><b class='flag-5'>计算</b>主板

    科普:GPUFPGA,有何异同

    来源:内容由半导体行业观察(ID:icbank)编译自techspot,谢谢。图形处理单元(GPU)和现场可编程门阵列(FPGA)是用于成像和其他繁重计算的三种主要处理器类型中的两种。中央处理器
    的头像 发表于 06-15 08:27 610次阅读
    科普:<b class='flag-5'>GPU</b>和<b class='flag-5'>FPGA</b>,有何异同

    fpgagpu的区别

    FPGA(现场可编程门阵列)和GPU(图形处理器)在多个方面存在显著的区别。
    的头像 发表于 03-27 14:23 1146次阅读

    FPGA在深度学习应用中或将取代GPU

    ,并在运算速度和吞吐量方面提供了更高的性能。它们的使用寿命也更长,大约是 GPU 的 2-5 倍,并且对恶劣环境和其它特殊环境因素有更强的适应性。 有一些公司已经在他们的人工智能产品中使用了 FPGA
    发表于 03-21 15:19

    到底什么是ASIC和FPGA

    和架构的角度,ASIC和FPGA性能和成本,肯定是优于CPU和GPU的。 CPU、GPU遵循的是冯·诺依曼体系结构,指令要经过存储
    发表于 01-23 19:08

    FPGA、ASIC、GPU谁是最合适的AI芯片?

    CPU、GPU遵循的是冯·诺依曼体系结构,指令要经过存储、译码、执行等步骤,共享内存在使用时,要经历仲裁和缓存。 而FPGA和ASIC并不是冯·诺依曼架构(是哈佛架构)。以FPGA
    发表于 01-06 11:20 1408次阅读
    <b class='flag-5'>FPGA</b>、ASIC、<b class='flag-5'>GPU</b>谁是最合适的AI芯片?

    FPGAGPU的区别

    FPGA(现场可编程门阵列)和GPU(图形处理器)是两种常见的硬件加速器,用于提高计算和处理速度。尽管它们在很多方面都有重叠,但在架构、设计和应用上存在许多区别。在本文中,我们将详细探讨FPG
    的头像 发表于 12-25 15:28 1642次阅读

    fpga配置flash怎么用来存储数据

    FPGA(现场可编程门阵列)是一种高度灵活的硬件设备,可以根据特定的需求进行重新配置。FPGA通常用于处理大量数据和实时计算。然而,FPGA通常并没有内置大容量的数据
    的头像 发表于 12-15 15:42 2348次阅读