基于RISC-V软核CPU的国产FPGA CNN异构方案的实现-电子发烧友网

摘要：现场可编程门阵列（FPGA）具有低功耗、高性能和灵活性的特点。FPGA神经网络加速的研究正在兴起，但大多数研究都基于国外的FPGA器件。为了改善国内FPGA的现状，提出了一种新型的卷积神经网络加速器，用于配备轻量级RISC-V软核的国产FPGA（紫光同创PG2L100H）。所提出的加速器的峰值性能达到153.6 GOP/s，仅占用14K LUT（查找表）、32个DRM（专用RAM模块）和208个APM（算术处理模块）。所提出的加速器对于大多数边缘AI应用和嵌入式系统具有足够的计算能力，为国内FPGA提供了可能的AI推理加速方案。

背景

卷积神经网络在机器视觉任务中越来越流行，包括图像分类和目标检测。如何在有限的条件下充分发挥FPGA的最大性能是各研究者的主要方向。如今，大多数CCN使用外国FPGA器件。由于国内FPGA起步较晚，其相关开发工具和设备落后于其他外国制造商。因此，在国内FPGA上构建高性能CNN并替换现有成熟的异构方案是一项具有挑战性的任务。

Zhang［1］于2015年首次对卷积网络推理中的数据共享和并行性进行了深入分析和探索。Guo［2］提出的加速器在214MHz下达到了84.3 GOP/s的峰值性能。2016年，Qiu［3］更深入地探索了使用行缓冲器的加速器。本文提出了一种更高效、更通用的卷积加速器。提出的加速器峰值性能达到153.6GOP/s，仅占用14K LUT、32个DRM和208个APM。本文的章节安排如下，第2节介绍了我们提出的加速器的详细设计以及基于RISC-V的加速器实现的控制调度方案。第3节给出了实验结果。

系统设计

整个RISC-V片上系统设计如图1所示。该系统主要由RISC-V软核CPU、指令/数据存储器、总线桥、外围设备、DMA（直接存储器访问）和卷积加速器组成。

Fig. 1. 片上RISC-V系统设计图

我们的工作主要在三个方面。首先，我们使用软核CPU作为片上系统的主控，控制外设，DMA，CNN加速器来实现数据调度和操作。其次，1D（一维）加速器被设计用于改变缓冲机制。第三，为紫光同创的FPGA设备设计了一个DMA IP，用于卷积加速的应用。

A、RISC-V 软核CPU 架构

软核。使用RISC-V软核VexRiscv代替Ibex［4］构建RISC-V的片上系统和面向软件的方法可以使VexRiscv具有高度的灵活性和可扩展性。

接口。I2C和SPI等外围设备通过APB3总线连接到RISC-V软核。DMA和加速器通过PMB总线连接到RISC-V软核。

指令与数据存储。程序被交叉编译以获得一个特定的文件，该文件由JTAG烧录到片上指令/数据存储器中。

B、CNN 加速器结构

输入缓存。使用乒乓缓存来实现缓冲区，可以有效地提高吞吐量。

输出缓存。权重缓存模块由一系列分布式RAM和串行到并行单元组成。

卷积。图2中的1D卷积模块分为四组，其中包含四个1D卷曲单元。每个单元负责1D卷积的一个信道。

合并。积分模块有四组加法器树。每组加法器树将每组卷积运算单元的结果相加，得到单向输出结果。

累加。累加模块中有四组FIFO和四个加法器。加速器一次只能接收四个通道的输入特征图数据。

量化。该量化模块由乘法单元和移位单元组成。它通过比例变换将24位累加结果重新转换为8位［5］。

激活。激活功能通过查找由一系列分布式RAM组成的表来实现。它存储ReLu、Leaky ReLu和sigmoid函数的INT8函数表。

池化。确定当前卷积层是否与池化层级联，然后决定是否使用池化模块来完成池化操作。

输出缓存。输出缓冲器由FIFO而不是乒乓缓存实现。输出高速缓存FIFO将结果存储回片外存储器，作为下一卷积层的输入。

Fig. 2. CNN 加速器实现

C、DMA 结构

神经网络不仅对计算能力有很高的要求，而且对内存也有很大的需求。中低端FPGA通常需要DDR SRAM（双数据速率同步动态随机存取存储器）来承载整个神经网络和所有中间运算结果的权重。紫光同创的FPGA的DDR3内存驱动器IP为用户提供了简化AXI4总线的内存访问接口。

由于Simpled AXI和AXI之间的标准差异，需要新的DMA设计。DMA设计如下。读和写地址通道由RISC-V软核直接控制。读写数据通道的FIFO用作卷积加速器和DDR3驱动器IP的缓冲器，以完成端口转换。

D、实现细节

1、一维卷积单元阵列设计

2、卷积加速器控制

本文提出了一种基于指令队列的设计，以减少RISC-V软核中DMA和加速器的响应延迟。RISC-V CPU可以连续发送多个存储器读写请求指令和多个操作调度控制指令，而不用等待DMA和加速器的反馈。DMA和加速器从队列中获取指令，任务完成后直接从队列中取出下一条指令，无需等待相应的CPU，从而实现低延迟调度。

Fig. 3. 1X3 一维卷积原理图

Fig. 4. 一维卷积单元硬件实现

实现结果和备注

通过在PG2L100H和X7Z020上实现相同配置的CNN加速器，完成了CNN加速器的性能测试，验证了国产FPGA CNN加速方案的可行性。加速器的资源消耗和性能如表I和表II所示。

TABLE I 资源利用

PG2L100H和X7Z020的资源消耗相似。PG2L100H需要额外的逻辑资源来构建VexRiscv CPU，而X7Z020为AXI DMA IP使用更多的逻辑资源。就加速器性能而言，可从表II中看出。由于FPGA器件架构的差异，与X7Z020相比，加速器的卷积运算在PG2L100H上只能在200MHz下实现更好的收敛。RISC-V软核只能在100MHz下实现定时收敛。

TABLE II 性能对比

我们提出了一种基于RISC-V的一维卷积运算的新设计。该加速器在国内FPGA上的实现和部署已经完成，其性能与具有相同规模硬件资源的国外FPGA相当。

本文论证了基于国产FPGA的CNN异构方案的可行性，该研究是国产FPGA应用生态中CNN加速领域的一次罕见尝试。

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

FPGA

FPGA

+关注

关注
1635

文章
21836

浏览量
608274
存储器

存储器

+关注

关注
38

文章
7552

浏览量
164880
RISC-V

RISC-V

+关注

关注
46

文章
2389

浏览量
47180

首款RISC-V架构服务器，助力行业精准适配AI场景

RISC-V融合服务器RS-SRM120为2U双路异构服务器产品，搭载双RISC-V指令集64核处理器SG2042，通过高效的双芯互联架构，提供强大的智算能力。支持CV模型、LLM等多

发表于 02-28 16:34 •405次阅读

首款<b class='flag-5'>RISC-V</b>架构服务器，助力行业精准适配AI场景

SiFive 推出高性能 Risc-V CPU 开发板 HiFive Premier P550

一波 RISC-V 开发浪潮。P550 Premier 采用 ESWIN EIC7700X SoC，配备四核 SiFive P550 64 位 OOO CPU 集群，为开发人员提供了创建高性能

发表于 12-16 11:16 •818次阅读

SiFive 推出高性能 <b class='flag-5'>Risc-V</b> <b class='flag-5'>CPU</b> 开发板 HiFive Premier P550

《RISC-V能否复制Linux 的成功？》

个角度来看，RISC-V ISA是推动RISC-V发展的关键因素。回想20年前，基于Linux内核的实现方案非常多，远远超过今天基于RISC-V

发表于 11-26 20:20

飞凌嵌入式T113-i开发板RISC-V核的实时应用方案

RISC-V作为一种开源指令集架构，以其简洁性、一致性、可扩展性以及高编译效率，为实时性处理场景提供了强大的支持。将A核与RISC-V核结合作为单芯多核

发表于 11-22 15:29 •1343次阅读

RISC-V发展及FPGA厂商为什么选择RISC-V

Microsemi 于 2017 年开始在其 FPGA 中提供 RISC-V 软核，Lattice 于 2020 年开始提供，英特尔 (Altera) 于 2021 年开始提供，因此

发表于 11-11 10:24 •938次阅读

国产RISC-V案例分享，基于全志T113-i异构多核平台！

RISC-V核心优势全志T113-i是一款双核Cortex-A7@1.2GHz国产工业级处理器平台，并内置玄铁C906 RISC-V和HiFi4 DSP双副核心，可流畅运行Linux系

发表于 10-29 09:47

国产RISC-V基于全志T113-i异构多核平台

全志T113-i是一款双核Cortex-A7@1.2GHz国产工业级处理器平台，并内置玄铁C906 RISC-V和HiFi4 DSP双副核心，可流畅运行Linux系统与Qt界面，并已适配

发表于 10-10 22:08

基于国产异构双核(RISC-V+FPGA)处理器，AG32开发板开发资料

基于国产异构双核(RISC-V+FPGA)处理器，AG32VF407系列32位微控制器相当于主频248MHZMCU+2KLES(FPGA)。

发表于 09-02 17:13

浅谈国产异构双核RISC-V+FPGA处理器AG32VF407的优势和应用场景

关于国产异构双核RISC-V+FPGA处理器AG32VF407的具体优势和应用场景浅谈如下: 优势异构计算能力：

发表于 08-31 08:32

Imagination CPU 系列研讨会 | RISC-V 平台的性能分析和调试

为了让开发者及工程师深入了解Imagination的CPU产品及相关解决方案，Imagination将陆续推出5期线上研讨会，包含：RISC-V平台的性能分析和调试；RISC-V安全和

发表于 08-10 08:28 •375次阅读

国产RISC-V芯片性能稳定吗？

想使用国产的RISC-V架构的芯片做无人机投送快递的方案，可行性高吗？国产的RISC-V MCU稳定么？

发表于 05-20 15:43

国产RISC-V MCU推荐

高速PHY收发器（480Mbps）、千兆以太网MAC及10兆物理层收发器等。沁恒的另一颗芯片 xiaolinen认为在选择国产RISC-V MCU时，需要重点考虑生态问题，碰到问题是否能快速的找到

发表于 04-17 11:00

Achronix与Bluespec联合宣布推出一款支持Linux的RISC-V软处理器

高性能FPGA芯片和嵌入式FPGA（eFPGA）硅知识产权（IP）领域的领先企业Achronix半导体公司，以及RISC-V工具和IP领域的行业领导者Bluespec有限公司，日前联合

发表于 04-15 16:23 •662次阅读

品读《基于FPGA与RISC-V的嵌入式系统设计》

曾经何时，偶然间获得了这本书，这本是来自清华大学出版社的，作者顾长怡。此书比较详细介绍了RISC-V指令集和其背后的设计思想，并且涉及到一种称为FARM的软硬件开发模式，将FPGA与RISC-V

发表于 03-29 00:06

瑞萨推出采用自研CPU内核的通用32位RISC-V MCU 加强RISC-V生态系统布局

瑞萨推出采用自研CPU内核的通用32位RISC-V MCU 加强RISC-V生态系统布局 RISC-V MCU为开发人员带来低功耗、高性能的全新选择以及全面工具链支持。全球半导体解决

发表于 03-28 19:00 •680次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

基于RISC-V软核CPU的国产FPGA CNN异构方案的实现

评论

首款RISC-V架构服务器，助力行业精准适配AI场景

SiFive 推出高性能 Risc-V CPU 开发板 HiFive Premier P550

《RISC-V能否复制Linux 的成功？》

飞凌嵌入式T113-i开发板RISC-V核的实时应用方案

RISC-V发展及FPGA厂商为什么选择RISC-V

国产RISC-V案例分享，基于全志T113-i异构多核平台！

国产RISC-V基于全志T113-i异构多核平台

基于国产异构双核(RISC-V+FPGA)处理器，AG32开发板开发资料

浅谈国产异构双核RISC-V+FPGA处理器AG32VF407的优势和应用场景

Imagination CPU 系列研讨会 | RISC-V 平台的性能分析和调试

国产RISC-V芯片性能稳定吗？

国产RISC-V MCU推荐

Achronix与Bluespec联合宣布推出一款支持Linux的RISC-V软处理器

品读《基于FPGA与RISC-V的嵌入式系统设计》

瑞萨推出采用自研CPU内核的通用32位RISC-V MCU 加强RISC-V生态系统布局