如何通过DLP FPGA实现低延时高性能的深度学习处理器设计呢？-电子发烧友网

图像识别和分析对于产品创新至关重要，但需要高工作负载，对服务质量要求严格。解决方案如GPU无法满足低延迟和高性能要求。DLP FPGA是一种可行的选择，本文将探讨如何实现这种技术。

图像识别和分析在各种产品创新中具有重要作用。然而，这些应用通常涉及高工作负载，对服务质量有严格要求。目前的解决方案，如GPU，无法同时兼顾低延迟和高性能要求。

为了在应用深度学习的同时提供良好的用户体验，可以在FPGA上架构一个超低延迟和高性能的DLP（深度学习处理器）。

DLP FPGA可以同时支持稀疏卷积和低精度数据计算，同时定义了一个定制的ISA（指令集架构），以满足对灵活性和用户体验的要求。使用Resnet18（稀疏内核）的延迟测试结果显示，FPGA的延迟只有0.174ms。

在本文中，我们将简要讨论如何通过新的DLP FPGA实现这样的结果。

1 架构

新开发的DLP有4种模块，根据其功能进行分类:

计算：卷积、批量归一化、激活和其他计算

数据路径：数据存储、移动和重塑

参数：存储权重和其他参数，解码

指令：指令单元和全局控制

DLP中的Protocal Engine（PE）可以支持：

Int4数据类型输入。

Int32数据类型输出。

Int16量化

这种PE能提供超过90%的效率。此外，DLP的重量加载支持CSR解码器和数据预取。

2 训练

需要重新训练来开发一个高精确度的模型。下面有4个主要步骤来获得稀疏权重和低精度数据特征图。

我们用一种有效的方法将Resnet18模型训练到稀疏和低精度（1707.09870）。我们方法中的关键部分是离散化。我们专注于压缩和加速深度模型，其网络权重由非常小的比特数表示，被称为极低比特神经网络。然后我们将这个问题建模为一个离散约束的优化问题。

借用乘法交替方向法（ADMM）的思想，我们将连续参数与网络的离散约束解耦，并将原来的硬问题铸成几个子问题。我们建议使用梯度外算法和迭代量化算法来解决这些子问题，与传统的优化方法相比，这些算法会导致更快的收敛。

在图像识别和物体检测方面的大量实验证明，当涉及到极低比特的神经网络时，所提出的算法比最先进的方法更有效。

3 ISA/编译器

如前所述，对于大多数在线服务和使用场景，仅有低延迟是不够的，因为算法模型会经常变化。正如我们所知，FPGA的开发周期非常长；通常需要几周或几个月的时间来完成一个定制的设计。为了解决这一挑战，我们设计了工业标准架构（ISA）和编译器，以减少模型升级的时间，使之仅为几分钟。

SW-HW共同开发平台由以下项目组成：

编译器：模型图分析和指令生成。

API/驱动：CPU-FPGA DMA图片重塑，重量压缩。

ISA控制器：指令解码、任务调度、多线程流水线管理。

4 硬件卡

DLP是在FPGA卡上实现的，它有PCIe和DDR4内存。DLP与该FPGA卡相结合，可以使在线图片搜索等应用场景更高效用户体验更好。

5 结果

使用Resnet18的FPGA测试结果表明，我们的设计实现了超低水平的延迟，同时在低于70W的芯片功率下保持了非常高的性能。

审核编辑：刘清

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

处理器

处理器

+关注

关注
68

文章
19492

浏览量
231576
FPGA

FPGA

+关注

关注
1634

文章
21818

浏览量
607292
图像识别

图像识别

+关注

关注
9

文章
524

浏览量
38482
dlp

dlp

+关注

关注
6

文章
382

浏览量
61412
深度学习

深度学习

+关注

关注
73

文章
5523

浏览量
121737

原文标题：使用FPGA制作低延时高性能的深度学习处理器

文章出处：【微信号：FPGA研究院，微信公众号：FPGA研究院】欢迎添加关注！文章转载请注明出处。

FPGA做深度学习能走多远？

的能量浪费。与传统的通用处理器相比，FPGA 在相同的性能要求下能够降低功耗，这对于边缘设备和嵌入式系统等对功耗敏感的场景非常重要，有助于延长设备的续航时间并降低散热成本。 • 高性能

发表于 09-27 20:53

FPGA构建高性能DSP

为设计提供可编程逻辑解决方案所固有的灵活性特点,以及定制门阵列(如ASIC)解决方案所具有的高性能及集成度。　　增强DSP处理能力的传统方法是采用多个处理器。选择此类方案的缺点是成本昂贵,需要众多附加

发表于 02-17 11:21

FPGA协处理器的优势

　　传统的、基于通用DSP处理器并运行由C语言开发的算法的高性能DSP平台，正在朝着使用FPGA预处理器和/或协处理器的方向发展。这一最新发

发表于 09-29 16:28

【FPGA干货分享六】基于FPGA协处理器的算法加速的实现

APU接口。通过在FPGA中嵌入一个处理器，现在就有机会在单芯片上实现完整的处理系统。带APU接口的PowerPC使得在

发表于 02-02 14:18

用FPGA 嵌入式处理器实现高性能浮点元算

仿真或者专用软逻辑 FPU 在 PowerPC 上自如地实现浮点运算。图 1 显示了通过 FCB 将 PowerPC 440 处理器连接至 Virtex-5 APU-FPU 的典型实施方案。图 1

发表于 08-03 11:15

【详解】FPGA：深度学习的未来？

的未来方向提出关键建议，帮助解决今后深度学习所面临的问题。2. FPGA传统来说，在评估硬件平台的加速时，必须考虑到灵活性和性能之间的权衡。一方面，通用

发表于 08-13 09:33

采用Sitara处理器PRU-ICSS的高性能脉冲序列输出 (PTO)

控制和同步无需使用外部 ASIC 或 FPGA借助 Sitara 处理器在 PRU-ICSS 上实现包含源代码形式的 PRU-ICSS 固件并可供客户采用通过 TMDSICE3359

发表于 12-17 16:03

飞思卡尔高性能ColdFire微处理器简介

最新款的ColdFire微处理器在大约380 mW的功率上提供了410 Dhrystone MIPS（DMIPS）的内核性能，能够轻松满足开发人员的系统功率预算，同时实现卓越的系统级性能

发表于 07-18 06:23

怎么实现多内核处理器开发趋势下的高性能视频系统设计？

怎么实现多内核处理器开发趋势下的高性能视频系统设计？

发表于 06-03 06:19

什么是深度学习？使用FPGA进行深度学习的好处？

频率低于 CPU 和 GPU，除非设计实现，否则性能往往较差。与 CPU 和 GPU 相比实施成本高，FPGA 上支持深度学习的软件较少很多

发表于 02-17 16:56

基于FPGA的1024点高性能FFT处理器的设计钟冠文

基于FPGA的1024点高性能FFT处理器的设计_钟冠文

发表于 03-19 11:36 •10次下载

FPGA是如何实现30倍速度的云加速的？

硬件编程，可将性能提升至通用CPU服务器的30倍以上。同时，与已经深入人心的高性能计算的代表GPU相比，FPGA具有硬件可编程、低功耗、低

发表于 05-29 13:44 •5316次阅读

通过利用FPGA协处理器实现对汽车娱乐系统进行优化设计

集成了数据通信，定位服务和视频娱乐的高端汽车信息娱乐系统需要高性能的可编程处理技术，其最佳实现方法是在主流汽车信息通信系统构架中集成FPGA协处理器

发表于 07-24 15:25 •728次阅读

在FPGA和DSP两种处理器之间实现SRIO协议的方法

通过电路设计和利用处理器的开发工具编程实现了两种处理器间的高速通信。经测试，该系统具有较高的传输效率。引言随着高性能信号

发表于 03-20 15:00 •2384次阅读

中科亿海微推出高性能FPGA加速卡系列产品

产品概述中科亿海微面向低延时高带宽的数据加速应用推出高性能FPGA加速卡系列产品。产品采用高性能混合并行计算

发表于 07-20 18:04 •1071次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

如何通过DLP FPGA实现低延时高性能的深度学习处理器设计呢？

评论

FPGA做深度学习能走多远？

FPGA构建高性能DSP

FPGA协处理器的优势

【FPGA干货分享六】基于FPGA协处理器的算法加速的实现

用FPGA 嵌入式处理器实现高性能浮点元算

【详解】FPGA：深度学习的未来？

采用Sitara处理器PRU-ICSS的高性能脉冲序列输出 (PTO)

飞思卡尔高性能ColdFire微处理器简介

怎么实现多内核处理器开发趋势下的高性能视频系统设计？

什么是深度学习？使用FPGA进行深度学习的好处？

基于FPGA的1024点高性能FFT处理器的设计钟冠文

FPGA是如何实现30倍速度的云加速的？

通过利用FPGA协处理器实现对汽车娱乐系统进行优化设计

在FPGA和DSP两种处理器之间实现SRIO协议的方法

中科亿海微推出高性能FPGA加速卡系列产品