模型复杂性日益增加，AI优化的硬件随之出现-电子发烧友网

人工智能（AI）模型的规模和复杂度以每年大约 10 倍的速度不断增加，AI 解决方案提供商面临着巨大的压力，他们必须缩短产品上市时间，提高性能，快速适应不断变化的形势。模型复杂性日益增加，AI 优化的硬件随之出现。

例如，近年来，图形处理单元（GPU）集成了 AI 优化的算法单元，以提高 AI 计算吞吐量。然而，随着 AI 算法和工作负载的演变与发展，它们会展现出一些属性，让我们难以充分利用可用的 AI 计算吞吐量，除非硬件提供广泛的灵活性来适应这种算法变化。近期的论文表明，许多 AI 工作负载都难以实现 GPU 供应商报告的全部计算能力。即使对于高度并行的计算，如一般矩阵乘法（GEMM），GPU 也只能在一定规模的矩阵下实现高利用率。因此，尽管 GPU 在理论上提供较高的 AI 计算吞吐量（通常称为“峰值吞吐量”），但在运行 AI 应用时，实际性能可能低得多。

FPGA 可提供一种不同的 AI 优化的硬件方法。与 GPU 不同，FPGA 提供独特的精细化空间可重构性。这意味着我们可以配置 FPGA 资源，以极为准确的顺序执行精确的数学函数，从而实施所需的操作。每个函数的输出都可以直接路由到需要它的函数的输入之中。这种方法支持更加灵活地适应特定的 AI 算法和应用特性，从而提高可用 FPGA 计算能力的利用率。此外，虽然 FPGA 需要硬件专业知识才能编程（通过硬件描述语言），但专门设计的软核处理单元（也就是重叠结构），允许 FPGA 以类似处理器的方式编程。FPGA 编程完全通过软件工具链来完成，简化了任何特定于 FPGA 的硬件复杂性。

FPGA与GPU架构的背景

2020 年，英特尔宣布推出首款 AI 优化的 FPGA — 英特尔 Stratix 10 NX FPGA 器件。英特尔 Stratix 10 NX FPGA 包括 AI 张量块，支持 FPGA 实现高达 143 INT8 和 286 INT4 峰值 AI 计算 TOPS 或 143 块浮点 16（BFP16）和 286 块浮点 12（BFP12）TFLOPS。最近的论文表明，块浮点精度可为许多 AI 工作负载提供更高的精度和更低的消耗。NVIDIA GPU 同样也提供张量核。但从架构的角度来看，GPU 张量核和 FPGA AI 张量块有很大的不同，如下图所示。

GPU 和 FPGA 都有张量核心。FPGA 有可以在数据流内外编织的软逻辑

（左）GPU 数据从张量核心处理的内存系统中读取，写回内存系统。（右）FPGA 数据可以从内存中读取，但数据流可以并行安排到一个或多个张量核心。任意数量的张量核心都能以最小的传输开销使用输出。数据可以被写回内存或路由到其他任何地方

英特尔研究人员开发了一种名为神经处理单元（NPU）的 AI 软处理器。这种 AI 软处理器适用于低延迟、低批量推理。它将所有模型权重保持在一个或多个连接的 FPGA 上以降低延迟，从而确保模型持久性。

NPU 重叠架构和用于编程 NPU 软核处理器的前端工具链高级概述

FPGA与GPU性能比较

本次研究的重点是计算性能。下图比较了英特尔 Stratix 10 NX FPGA 上的 NPU 与 NVIDIA T4 和 V100 GPU 运行各种深度学习工作负载的性能，包括多层感知器（MLP）、一般矩阵向量乘法（GEMV）、递归神经网络（RNN）、长期短期记忆（LSTM）和门控循环单元（GRU）。GEMV 和 MLP 由矩阵大小来指定，RNN、LSTM 和 GRU 则通过大小和时间步长来指定。例如，LSTM-1024-16 工作负载表示包含 1024x1024 矩阵和 16 个时间步长的 LSTM。

NVIDIA V100 和 NVIDIA T4 与英特尔 Stratix 10 NX FPGA 上的 NPU 在不同批处理规模下的性能。虚线显示 NPU 在批次大小可被 6 整除情况下的性能

从这些结果可以充分地看出，英特尔 Stratix 10 NX FPGA 不仅可以在低批次实时推理时实现比 GPU 高一个数量级的性能，还可以有效地进行高批次实时推理。

由于架构上的差异和灵活编程模型，英特尔 Stratix 10 NX FPGA 还可实现更出色的端到端性能。不会产生与 GPU 相同的开销。

短序列和长序列时 RNN 工作负载的系统级执行时间（越低越好）

结论

英特尔 Stratix 10 NX FPGA 采用高度灵活的架构，所实现的平均性能比 NVIDIA T4 GPU 和 NVIDIA V100 GPU 分别高 24 倍和 12 倍。

由于其较高的计算密度，英特尔 Stratix 10 NX FPGA 可为以实际可达到性能为重要指标的高性能、延迟敏感型 AI 系统提供至关重要的功能。

原文标题：实际性能超过GPU，英特尔®Stratix®10 NX FPGA如何助您在AI加速领域赢得先机？

文章出处：【微信公众号：FPGA之家】欢迎添加关注！文章转载请注明出处。

责任编辑：haq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

FPGA

FPGA

+关注

关注
1634

文章
21830

浏览量
608035
英特尔

英特尔

+关注

关注
61

文章
10061

浏览量
172810
AI

AI

+关注

关注
87

文章
32330

浏览量
271430

原文标题：实际性能超过GPU，英特尔®Stratix®10 NX FPGA如何助您在AI加速领域赢得先机？

文章出处：【微信号：zhuyandz，微信公众号：FPGA之家】欢迎添加关注！文章转载请注明出处。

了解DeepSeek-V3 和 DeepSeek-R1两个大模型的不同定位和应用选择

极点。 2. 电路代码生成 Synopsys VerilogGPT （需企业授权）专为硬件描述语言（HDL）优化的模型，生成可综合的Verilog/VHDL代码，避免R1可能出现的语

发表于 02-14 02:08

中兴通讯AiCube：破解AI模型部署难题

在AI领域，DeepSeek等国产模型凭借算法优化，成功将训练与推理的综合成本降低了40%以上，这一突破使得中小型企业也能轻松参与AI创新。然而，随着

发表于 02-13 09:11 •287次阅读

【「基于大模型的RAG应用开发与优化」阅读体验】+第一章初体验

《基于大模型的RAG应用开发与优化》试读报告 ——第一章：了解大模型与RAG 近年来，随着人工智能技术的快速发展，大模型与生成式AI技术逐

发表于 02-07 10:42

【「大模型启示录」阅读体验】对大模型更深入的认知

的平衡，解释得清清楚楚，让我这个非专业人士也能明白大模型在实际应用中面临的挑战和限制，也对这些模型的复杂性和挑战有了更深的理解。而且，书中还提到了OpenAI的成功案例和CUDA技术壁垒的形成，这些

发表于 12-20 15:46

AI模型部署边缘设备的奇妙之旅：目标检测模型

，PReLU仍然能够在正输入区域促进稀疏激活，这对模型的学习是有利的。缺点增加模型复杂度：由于引入了额外的可学习参数 α，这增加了

发表于 12-19 14:33

AI大语言模型开发步骤

开发一个高效、准确的大语言模型是一个复杂且多阶段的过程，涉及数据收集与预处理、模型架构设计、训练与优化、评估与调试等多个环节。接下来，AI部

发表于 12-19 11:29 •444次阅读

深度学习模型的鲁棒性优化

深度学习模型的鲁棒性优化是一个复杂但至关重要的任务，它涉及多个方面的技术和策略。以下是一些关键的优化方法：一、数据预处理与增强数据清洗

发表于 11-11 10:25 •491次阅读

AI大模型的性能优化方法

AI大模型的性能优化是一个复杂而关键的任务，涉及多个方面和策略。以下是一些主要的性能优化方法：一、模型

发表于 10-23 15:01 •1411次阅读

中软国际大模型运营管理系统推动AI商业化

大模型作为AI技术发展的新趋势，已成为“千行百业”推动业务增长与创新的关键技术和策略。然而，随着AI大模型规模的增加，对于人工智能计算中心（

发表于 08-27 17:01 •861次阅读

ai大模型和传统ai的区别在哪？

的BERT模型使用了33亿个参数，而传统AI模型通常只有几千到几百万个参数。模型复杂度 AI大

发表于 07-16 10:06 •1901次阅读

AI大模型与AI框架的关系

在探讨AI大模型与AI框架的关系时，我们首先需要明确两者的基本概念及其在人工智能领域中的角色。AI大模型通常指的是具有极大规模、高度

发表于 07-15 11:42 •1413次阅读

AI模型在MCU中的应用

机遇。将AI模型集成到MCU中，不仅提升了设备的智能化水平，还使得设备能够执行更复杂的任务，实现自主决策和实时响应。本文将从AI模型在MCU

发表于 07-12 10:24 •1293次阅读

【大语言模型：原理与工程实践】揭开大语言模型的面纱

，生成能力则使其能生成新的、连贯的文本，而涌现性则让模型能生成未曾出现但逻辑上合理的内容。从早期的统计模型到如今的大语言模型，

发表于 05-04 23:55

防止AI大模型被黑客病毒入侵控制（原创）聆思大模型AI开发套件评测4

在设计防止AI大模型被黑客病毒入侵时，需要考虑到复杂的加密和解密算法以及模型的实现细节，首先需要了解模型的结构和实现细节。以下是我使用P

发表于 03-19 11:18

NanoEdge AI的技术原理、应用场景及优势

，可以减少数据在传输过程中被窃取或篡改的风险，提高数据安全性。 - 低能耗：通过优化神经网络模型和硬件设计，NanoEdge AI 可以在有

发表于 03-12 08:09

搜索历史

模型复杂性日益增加，AI优化的硬件随之出现

评论

了解DeepSeek-V3 和 DeepSeek-R1两个大模型的不同定位和应用选择

中兴通讯AiCube：破解AI模型部署难题

【「基于大模型的RAG应用开发与优化」阅读体验】+第一章初体验

【「大模型启示录」阅读体验】对大模型更深入的认知

AI模型部署边缘设备的奇妙之旅：目标检测模型

AI大语言模型开发步骤

深度学习模型的鲁棒性优化

AI大模型的性能优化方法

中软国际大模型运营管理系统推动AI商业化

ai大模型和传统ai的区别在哪？

AI大模型与AI框架的关系

AI模型在MCU中的应用

【大语言模型：原理与工程实践】揭开大语言模型的面纱

防止AI大模型被黑客病毒入侵控制（原创）聆思大模型AI开发套件评测4

NanoEdge AI的技术原理、应用场景及优势