对许多 AI 工作负载而言,完全实现 GPU 厂商所宣称的计算容量并非易事。即使对一般矩阵乘法 (GEMM) 等高度并行计算而言,GPU 也只能在某些大矩阵条件下实现高利用率。FPGA 提供了不同的 AI 优化硬件方法。
不同于 GPU,FPGA 提供了独特的细粒度空间可重配置性,支持将每个功能的输出直接传送至相关功能的输入,以满足其需求。该方法可提升灵活性,支持特定的 AI 算法和应用特征,从而提高可用 FPGA 计算功能的利用率,进而提升性能。专用软核处理器(也称为叠加)支持与处理器类似的 FPGA 编程,即 FPGA 编程完全通过软件工具链进行。这种编程方法可消除 FPGA 特定的硬件复杂性问题。
我们对全新英特尔 Stratix 10 NX FPGA 进行了首次性能评估,并将其与 Nvidia T4 和 V100 GPU 进行了比较。此次性能评估采用了 2020 年 IEEE 国际现场可编程技术会议中一篇论文所公布的结果,考察了一系列实时推理工作负载的运行表现。我们使用被称为神经处理单元 (NPU) 的软核 AI 处理器叠加实现方案部署了支持 FPGA 的工作负载,工具链支持以软件为中心的 FPGA 编程,无需调用 FPGA 特定硬件 EDA 工具。
结果显示,相比于测试的 GPU,英特尔 Stratix 10 NX FPGA 能够为这些 AI 工作负载提供显著改进的利用率和性能。
编辑:jq
-
处理器
+关注
关注
68文章
19135浏览量
228954 -
FPGA
+关注
关注
1625文章
21648浏览量
601483 -
gpu
+关注
关注
28文章
4685浏览量
128649 -
AI
+关注
关注
87文章
29928浏览量
268242
原文标题:英特尔®Stratix®10 NX FPGA为AI工作负载提供显著改进的利用率和性能
文章出处:【微信号:英特尔FPGA,微信公众号:英特尔FPGA】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
评论