0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

模型复杂性日益增加,AI优化的硬件随之出现

FPGA之家 来源:英特尔FPGA 作者:英特尔FPGA 2021-06-16 17:00 次阅读

人工智能AI)模型的规模和复杂度以每年大约 10 倍的速度不断增加,AI 解决方案提供商面临着巨大的压力,他们必须缩短产品上市时间,提高性能,快速适应不断变化的形势。模型复杂性日益增加,AI 优化的硬件随之出现。

例如,近年来,图形处理单元(GPU)集成了 AI 优化的算法单元,以提高 AI 计算吞吐量。然而,随着 AI 算法和工作负载的演变与发展,它们会展现出一些属性,让我们难以充分利用可用的 AI 计算吞吐量,除非硬件提供广泛的灵活性来适应这种算法变化。近期的论文表明,许多 AI 工作负载都难以实现 GPU 供应商报告的全部计算能力。即使对于高度并行的计算,如一般矩阵乘法(GEMM),GPU 也只能在一定规模的矩阵下实现高利用率。因此,尽管 GPU 在理论上提供较高的 AI 计算吞吐量(通常称为“峰值吞吐量”),但在运行 AI 应用时,实际性能可能低得多。

FPGA 可提供一种不同的 AI 优化的硬件方法。与 GPU 不同,FPGA 提供独特的精细化空间可重构性。这意味着我们可以配置 FPGA 资源,以极为准确的顺序执行精确的数学函数,从而实施所需的操作。每个函数的输出都可以直接路由到需要它的函数的输入之中。这种方法支持更加灵活地适应特定的 AI 算法和应用特性,从而提高可用 FPGA 计算能力的利用率。此外,虽然 FPGA 需要硬件专业知识才能编程(通过硬件描述语言),但专门设计的软核处理单元(也就是重叠结构),允许 FPGA 以类似处理器的方式编程。FPGA 编程完全通过软件工具链来完成,简化了任何特定于 FPGA 的硬件复杂性。

FPGA与GPU架构的背景

2020 年,英特尔 宣布推出首款 AI 优化的 FPGA — 英特尔 Stratix 10 NX FPGA 器件。英特尔 Stratix 10 NX FPGA 包括 AI 张量块,支持 FPGA 实现高达 143 INT8 和 286 INT4 峰值 AI 计算 TOPS 或 143 块浮点 16(BFP16)和 286 块浮点 12(BFP12)TFLOPS。最近的论文表明,块浮点精度可为许多 AI 工作负载提供更高的精度和更低的消耗。NVIDIA GPU 同样也提供张量核。但从架构的角度来看,GPU 张量核和 FPGA AI 张量块有很大的不同,如下图所示。

GPU 和 FPGA 都有张量核心。FPGA 有可以在数据流内外编织的软逻辑

(左)GPU 数据从张量核心处理的内存系统中读取,写回内存系统。(右)FPGA 数据可以从内存中读取,但数据流可以并行安排到一个或多个张量核心。任意数量的张量核心都能以最小的传输开销使用输出。数据可以被写回内存或路由到其他任何地方

英特尔研究人员开发了一种名为神经处理单元(NPU)的 AI 软处理器。这种 AI 软处理器适用于低延迟、低批量推理。它将所有模型权重保持在一个或多个连接的 FPGA 上以降低延迟,从而确保模型持久性。

NPU 重叠架构和用于编程 NPU 软核处理器的前端工具链高级概述

FPGA与GPU性能比较

本次研究的重点是计算性能。下图比较了英特尔 Stratix 10 NX FPGA 上的 NPU 与 NVIDIA T4 和 V100 GPU 运行各种深度学习工作负载的性能,包括多层感知器(MLP)、一般矩阵向量乘法(GEMV)、递归神经网络(RNN)、长期短期记忆(LSTM)和门控循环单元(GRU)。GEMV 和 MLP 由矩阵大小来指定,RNN、LSTM 和 GRU 则通过大小和时间步长来指定。例如,LSTM-1024-16 工作负载表示包含 1024x1024 矩阵和 16 个时间步长的 LSTM。

NVIDIA V100 和 NVIDIA T4 与英特尔 Stratix 10 NX FPGA 上的 NPU 在不同批处理规模下的性能。虚线显示 NPU 在批次大小可被 6 整除情况下的性能

从这些结果可以充分地看出,英特尔 Stratix 10 NX FPGA 不仅可以在低批次实时推理时实现比 GPU 高一个数量级的性能,还可以有效地进行高批次实时推理。

由于架构上的差异和灵活编程模型,英特尔 Stratix 10 NX FPGA 还可实现更出色的端到端性能。不会产生与 GPU 相同的开销。

短序列和长序列时 RNN 工作负载的系统级执行时间(越低越好)

结论

英特尔 Stratix 10 NX FPGA 采用高度灵活的架构,所实现的平均性能比 NVIDIA T4 GPU 和 NVIDIA V100 GPU 分别高 24 倍和 12 倍。

由于其较高的计算密度,英特尔 Stratix 10 NX FPGA 可为以实际可达到性能为重要指标的高性能、延迟敏感型 AI 系统提供至关重要的功能。

原文标题:实际性能超过GPU,英特尔®Stratix®10 NX FPGA如何助您在AI加速领域赢得先机?

文章出处:【微信公众号:FPGA之家】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • FPGA
    +关注

    关注

    1626

    文章

    21667

    浏览量

    601859
  • 英特尔
    +关注

    关注

    60

    文章

    9886

    浏览量

    171528
  • AI
    AI
    +关注

    关注

    87

    文章

    30146

    浏览量

    268421

原文标题:实际性能超过GPU,英特尔®Stratix®10 NX FPGA如何助您在AI加速领域赢得先机?

文章出处:【微信号:zhuyandz,微信公众号:FPGA之家】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    深度学习模型的鲁棒优化

    深度学习模型的鲁棒优化是一个复杂但至关重要的任务,它涉及多个方面的技术和策略。以下是一些关键的优化方法: 一、数据预处理与增强 数据清洗
    的头像 发表于 11-11 10:25 156次阅读

    AI模型在图像识别中的优势

    模型借助高性能的计算硬件优化的算法,能够在短时间内完成对大量图像数据的处理和分析,显著提高了图像识别的效率。 识别准确 :通过深度学习和计算机视觉技术,
    的头像 发表于 10-23 15:01 378次阅读

    AI模型的性能优化方法

    AI模型的性能优化是一个复杂而关键的任务,涉及多个方面和策略。以下是一些主要的性能优化方法: 一、模型
    的头像 发表于 10-23 15:01 467次阅读

    借助NVIDIA Metropolis微服务构建视觉AI应用

    伴随着视觉 AI 复杂性增加,精简的部署解决方案已成为优化空间和流程的关键。NVIDIA 能够加快企业的开发速度,借助 NVIDIA Metropolis
    的头像 发表于 09-09 09:46 276次阅读
    借助NVIDIA Metropolis微服务构建视觉<b class='flag-5'>AI</b>应用

    新思科技探索AI+EDA的更多可能

    芯片设计复杂性的快速指数级增长给开发者带来了巨大的挑战,整个行业不仅要向埃米级发展、Muiti-Die系统和工艺节点迁移所带来的挑战,还需要应对愈加紧迫的上市时间目标、不断增加的制造测试成本以及人才短缺等问题。早在AI大热之前,
    的头像 发表于 08-29 11:19 474次阅读

    中软国际大模型运营管理系统推动AI商业化

    模型作为AI技术发展的新趋势,已成为“千行百业”推动业务增长与创新的关键技术和策略。然而,随着AI模型规模的增加,对于人工智能计算中心(
    的头像 发表于 08-27 17:01 670次阅读
    中软国际大<b class='flag-5'>模型</b>运营管理系统推动<b class='flag-5'>AI</b>商业化

    ai模型和算法有什么区别

    复杂的问题。这些模型通常需要大量的数据和计算资源来训练和优化。例如,深度学习中的神经网络就是一种典型的AI模型。 算法则是一系列解决问题的
    的头像 发表于 07-16 10:09 1551次阅读

    ai模型ai框架的关系是什么

    AI模型AI框架是人工智能领域中两个重要的概念,它们之间的关系密切且复杂AI模型的定义
    的头像 发表于 07-16 10:07 4w次阅读

    ai模型和传统ai的区别在哪?

    的BERT模型使用了33亿个参数,而传统AI模型通常只有几千到几百万个参数。 模型复杂AI
    的头像 发表于 07-16 10:06 1186次阅读

    AI模型AI框架的关系

    在探讨AI模型AI框架的关系时,我们首先需要明确两者的基本概念及其在人工智能领域中的角色。AI模型通常指的是具有极大规模、高度
    的头像 发表于 07-15 11:42 937次阅读

    AI模型在MCU中的应用

    机遇。将AI模型集成到MCU中,不仅提升了设备的智能化水平,还使得设备能够执行更复杂的任务,实现自主决策和实时响应。本文将从AI模型在MCU
    的头像 发表于 07-12 10:24 794次阅读

    软件架构搞好了,还用担心代码可读差?

    硬件多样:嵌入式系统常常面临不同硬件平台和设备的多样,需要一个灵活的软件架构来适应这些差异。软件复杂性:随着嵌入式系统功能的不断
    的头像 发表于 06-14 08:10 246次阅读
    软件架构搞好了,还用担心代码可读<b class='flag-5'>性</b>差?

    【大语言模型:原理与工程实践】揭开大语言模型的面纱

    ,生成能力则使其能生成新的、连贯的文本,而涌现则让模型能生成未曾出现但逻辑上合理的内容。从早期的统计模型到如今的大语言模型
    发表于 05-04 23:55

    防止AI模型被黑客病毒入侵控制(原创)聆思大模型AI开发套件评测4

    在设计防止AI模型被黑客病毒入侵时,需要考虑到复杂的加密和解密算法以及模型的实现细节,首先需要了解模型的结构和实现细节。 以下是我使用P
    发表于 03-19 11:18

    NanoEdge AI的技术原理、应用场景及优势

    ,可以减少数据在传输过程中被窃取或篡改的风险,提高数据安全。 - 低能耗:通过优化神经网络模型硬件设计,NanoEdge AI 可以在有
    发表于 03-12 08:09