浅谈神经网络在FPGA平台上的实现方案

　　近十年来，人工智能又到了一个快速发展的阶段。深度学习在其发展中起到了中流砥柱的作用，尽管拥有强大的模拟预测能力，深度学习还面临着超大计算量的问题。在硬件层面上，GPU，ASIC，FPGA都是解决庞大计算量的方案。本文将阐释深度学习和FPGA各自的结构特点以及为什么用FPGA加速深度学习是有效的，并且将介绍一种递归神经网络（RNN）在FPGA平台上的实现方案。

　　揭开深度学习的面纱

　　深度学习是机器学习的一个领域，都属于人工智能的范畴。深度学习主要研究的是人工神经网络的算法、理论、应用。自从2006年Hinton等人提出来之后，深度学习高速发展，在自然语言处理、图像处理、语音处理等领域都取得了非凡的成就，受到了巨大的关注。在互联网概念被人们普遍关注的时代，深度学习给人工智能带来的影响是巨大的，人们会为它隐含的巨大潜能以及广泛的应用价值感到不可思议。

　　事实上，人工智能是上世纪就提出来的概念。1957年，Rosenblatt提出了感知机模型（Perception），即两层的线性网络;1986年，Rumelhart等人提出了后向传播算法（Back PropagaTIon），用于三层的神经网络的训练，使得训练优化参数庞大的神经网络成为可能;1995年，Vapnik等人发明了支持向量机（Support Vector Machines），在分类问题中展现了其强大的能力。以上都是人工智能历史上比较有代表性的事件，然而受限于当时计算能力，AI总是在一段高光之后便要陷入灰暗时光——称为：“AI寒冬”。

　　然而，随着计算机硬件能力和存储能力的提升，加上庞大的数据集，现在正是人AI发展的最好时机。自Hinton提出DBN（深度置信网络）以来，人工智能就在不断的高速发展。在图像处理领域，CNN（卷积神经网络）发挥了不可替代的作用，在语音识别领域，RNN（递归神经网络）也表现的可圈可点。而科技巨头也在加紧自己的脚步，谷歌的领军人物是Hinton，其重头戏是Google brain，并且在去年还收购了利用AI在游戏中击败人类的DeepMind;Facebook的领军人物是Yann LeCun，另外还组建了Facebook的AI实验室，Deepface在人脸识别的准确率更达到了惊人的97.35%;而国内的巨头当属百度，在挖来了斯坦福大学教授Andrew Ng（Coursera的联合创始人）并成立了百度大脑项目之后，百度在语音识别领域的表现一直十分强势。

　　一览深度学习

　　简单来说，深度学习与传统的机器学习算法的分类是一致的，主要分为监督学习（supervised learning）和非监督学习（unsupervised learning）。所谓监督学习，就是输出是有标记的学习，让模型通过训练，迭代收敛到目标值;而非监督学习不需要人为输入标签，模型通过学习发现数据的结构特征。比较常见的监督学习方法有逻辑回归、多层感知机、卷积神经网络登;而非监督学习主要有稀疏编码器、受限玻尔兹曼机、深度置信网络等。所有的这些都是通过神经网络来实现的，他们通常来说都是非常复杂的结构，需要学习的参数也非常多。但是神经网络也可以做简单的事情，比如XNOR门，如图。

　　在图1（a）中，两个输入x_1和x_2都是分别由一个神经元表示，在输入中还加入了一个作为偏置（bias）的神经元，通过训练学习参数，最终整个模型的参数收敛，功能和图1（b）真值表一模一样。图1（c）分类结果。

　　而通常来说，模型都是比较复杂的。比如ILSVRC2012年图像识别大赛中Krizhevsky等人构建出来的 Alex Net。他们一共构建了11层的神经网络（5个卷积层，3个全连接层，3个池化层），一共有65万个神经元，6千万个参数，最终达到了15.2%的识别错误率，大大领先于第二名的26.2%。

　　当前深度学习得以流行，是得益于大数据和计算性能的提升。但其仍然遭受计算能力和数据量的瓶颈。针对数据量的需求，专家们可以通过模型的调整、变更来缓解，但计算力的挑战没有捷径。科大讯飞、百度、阿里、360在深度学习方面也面临着计算力的困扰。科大讯飞的深度学习平台属于计算密集型的平台，集群几百台机器之间要实现高速互联，是类似超算的结构，但它又不是一个非常典型的超算。科大讯飞最开始探索传统的方式，用大量CPU来支持大规模数据预处理，运行GMM-HMM等经典模型的训练，在千小时的数据量下，效果很不好。而360每天处理的数据有上亿条，参数50万以上，如果用CPU，每次模型训练就要花几天，这对于崇尚快速迭代的互联网公司运营来说简直是不可接受的。

　　为什么选择FPGA

　　FPGA（Field Programmable Gate Array）是在PAL、GAL、CPLD等可编程逻辑器件的基础上进一步发展的产物。它是作为专用集成电路领域中的一种半定制电路而出现的，既解决了全定制电路的不足，又克服了原有可编程逻辑器件门电路数有限的缺点。FPGA的开发相对于传统PC、单片机的开发有很大不同。FPGA以并行运算为主，以硬件描述语言来实现;相比于PC或单片机（无论是冯诺依曼结构还是哈佛结构）的顺序操作有很大区别。FPGA开发需要从顶层设计、模块分层、逻辑实现、软硬件调试等多方面着手。FPGA可以通过烧写位流文件对其进行反复编程，目前，绝大多数 FPGA 都采用基于 SRAM（StaTIc Random Access Memory 静态随机存储器）工艺的查找表结构，通过烧写位流文件改变查找表内容实现配置。

　　使用CPU。在2006年的时候，人们还是用串行处理器处理机器学习的问题，当时Mutch 和 Lowe开发了一个工具FHLib（feature hierarchy library）用来处理hierarchical 模型。对于CPU来说，它所要求的编程量是比较少的并且有可迁移性的好处，但是串行处理的特点变成了它在深度学习领域的缺点，而这个缺点是致命的。时至今日，据2006年已经过去了十年，过去的十年集成电路的发展还是遵循着摩尔定律，CPU的性能得到了极大的提升，然而，这并没有让CPU再次走入深度学习研究者的视野。尽管在小数据集上CPU能有一定的计算能力表现，多核使得它能够并行处理，然而这对深度学习来说还是远远不够的。

　　使用GPU。GPU走进了研究者的视线，相比于CPU，GPU的核心数大大提高了，这也让它有更强大的并行处理能力，它还有更加强大的控制数据流和储存数据的能力。Chikkerur进行了CPU和GPU在处理目标识别能力上的差别，最终GPU的处理速度是CPU的3-10倍。

　　使用ASIC。专用集成电路芯片（ASIC）由于其定制化的特点，是一种比GPU更高效的方法。但是其定制化也决定了它的可迁移性低，一旦专用于一个设计好的系统中，要迁移到其它的系统是不可能的。并且，其造价高昂，生产周期长，使得它在目前的研究中是不被考虑的。当然，其优越的性能还是能在一些领域胜任。用的就是ASIC 的方案，在640×480pixel的图像中识别速率能达到 60帧/秒。

　　使用FPGA。FPGA在GPU和ASIC中取得了权衡，很好的兼顾了处理速度和控制能力。一方面，FPGA是可编程重构的硬件，因此相比GPU有更强大的可调控能力;另一方面，与日增长的门资源和内存带宽使得它有更大的设计空间。更方便的是，FPGA还省去了ASIC方案中所需要的流片过程。FPGA的一个缺点是其要求使用者能使用硬件描述语言对其进行编程。但是，已经有科技公司和研究机构开发了更加容易使用的语言比如Impulse Accelerated Technologies Inc. 开发了C-to-FPGA编译器使得FPGA更加贴合用户的使用，耶鲁的E-Lab 开发了Lua脚本语言。这些工具在一定程度上缩短了研究者的开发时限，使研究更加简单易行。

　　在FPGA上运行LSTM神经网络

　　LSTM简介

　　传统的RNN由一个三层的网络：输入层it，隐藏层ht，输出层yt;其中ht的信息作用到下一时刻的输入，这样的结构简单的模仿了人脑的记忆功能，图3是其拓扑图：

　　只有一个隐藏层方程：

　　其中 Wx和 Wh分别是输入和隐藏层的权重，b 是偏置。

　　LSTM 是RNN（递归神经网络）的一种，在处理时序数据得到了最广泛的应用，它由门控制信息一共有三个个门：输入门it，遗忘门ft，输出门ot，另外还有隐藏层ht和记忆细胞ct。图4是其拓扑图：

　　输入门控制了某一时刻的输入;遗忘门通过作用到上一时刻记忆细胞上，控制了上一时刻的数据流要流多少进入下一时刻;记忆细胞是由上一时刻的输入和这一时刻的候选输入共同决定的;输出门作用到记忆细胞上，决定了这一时刻的隐藏层信息，并且送到下一层神经网络上。全部方程如下：

　　其中W 代表各自的权重，b 代表各自的偏置， σ 是logisTIc sigmoid 函数：

　　设计FPGA模块

　　一种递归神经网络在FPGA平台上的实现方案详解

　　LSTM主要进行的是矩阵的乘法和非线性函数的计算（tanh，sigmoid），因此，选择了Q8.8定点。

　　矩阵乘法由MAC单元进行（MulTIply Accumulate），一共有两个数据流：向量和权重矩阵流，如图6（a）。在迭代完一次之后MAC就会重置以防止之前的数据混入下一时刻的数据。两个MAC单元的数据相加之后进行非线性函数计算。同时用一个rescale模块将32位的数据转变为16位的数据。

　　标量计算的模块，是为了计算ct和ht，最终传入下一时刻的计算。如图6（b）。

　　整个模型一共用了三个图6（a）和一个图6（b）的模块，如图6（c）。数据的流入流出用了DMA（Direct Memory Access）串口控制。由于DMA串口是独立的，因此，还需要一个时钟模块对其进行时序控制。时钟模块主要是一个缓冲存储器组成并暂存了一些数据直到数据都到达。当最后的一个端口数据流入时钟模块才开始传送数据，这保证了输入跟权重矩阵是同个时刻相关的。

　　通过在不同平台上训练LSTM网络，我们得到了不同模型的对比。表1是平台的参数，运行结果如图7，可以发现：即使在142MHz的时钟频率下，FPGA平台下的运行时间远远小于其他平台，并行八个LSTM 记忆细胞的处理取得了比 Exynos5422 快16倍的结果。

　　深度学习采用包含多个隐藏层的深层神经网络（DeepNeural Networks，DNN）模型。DNN内在的并行性，使得具备大规模并行体系结构的GPU和FPGA成为加速深度学习的主流硬件平台，其突出优势是能够根据应用的特征来定制计算和存储结构，达到硬件结构与深度学习算法的最优匹配，获得更高的性能功耗比;并且，FPGA灵活的重构功能也方便了算法的微调和优化，能够大大缩短开发周期。毫无疑问，FPGA在深度学习的未来是十分值得期待的。

阅读全文

FPGA(591967) FPGA(591967)
深度学习(119797) 深度学习(119797)

ARM与神经网络处理器通信方案的设计实现

　基于ARM芯片和FPGA的特点，设计了一种ARM与FPGA人工神经网本文首先介绍了人工神经网络的模型和算法以及FPGA的实现，并通过对网络结构的分析设计了FPGA端的数据存储系统。然后分析了ARM端和FPGA端各自的功能，在此基础上把两者结合在一起，设计了一种利用ARM的ZDMA方式相互通信的方案。

2015-08-10 10:54:51

1676

FPGA芯片用于神经网络算法优化的设计实现方案

前言 AI芯片（这里只谈FPGA芯片用于神经网络加速）的优化主要有三个方面：算法优化，编译器优化以及硬件优化。算法优化减少的是神经网络的算力，它确定了神经网络部署实现效率的上限。编译器优化和硬件优化

2020-09-29 11:36:09

4383

在xr806板子上如何实现用ncnn跑神经网络mnis呢

在xr806板子上如何实现用ncnn跑神经网络mnis呢？

2021-12-28 06:51:07

神经网络Matlab程序

神经网络Matlab程序

2009-09-15 12:52:24

神经网络基本介绍

神经网络基本介绍

2018-01-04 13:41:23

神经网络教程（李亚非）

　　第1章概述　　1.1 人工神经网络研究与发展　　1.2 生物神经元　　1.3 人工神经网络的构成　　第2章人工神经网络基本模型　　2.1 MP模型　　2.2 感知器模型　　2.3 自适应线性

2012-03-20 11:32:43

神经网络移植到STM32的方法

将神经网络移植到STM32最近在做的一个项目需要用到网络进行拟合，并且将拟合得到的结果用作控制，就在想能不能直接在单片机上做神经网络计算，这样就可以实时计算，不依赖于上位机。所以要解决的主要是两个

2022-01-11 06:20:53

神经网络简介

神经网络简介

2012-08-05 21:01:08

神经网络解决方案让自动驾驶成为现实

制造业而言，深度学习神经网络开辟了令人兴奋的研究途径。为了实现从诸如高速公路全程自动驾驶仪的短时辅助模式到专职无人驾驶旅行的自动驾驶，汽车制造业一直在寻求让响应速度更快、识别准确度更高的方法，而深度

2017-12-21 17:11:34

神经网络资料

基于深度学习的神经网络算法

2019-05-16 17:25:05

ETPU-Z2全可编程神经网络开发平台

使用交叉编译工具（针对Device从机的编译工具）完成神经网络算法的(从机)可执行文件编译工作；最终通过某种通讯方式完成该可执行文件的下载，从而实现神经网络算法在嵌入式设备端的部署。典型的，Host主机

2020-05-18 17:13:24

EdgeBoard中神经网络算子在FPGA中的实现方法是什么？

FPGA加速的关键因素是什么？EdgeBoard中神经网络算子在FPGA中的实现方法是什么？

2021-09-28 06:37:44

MATLAB神经网络

2013-07-08 15:17:13

Matlab神经网络工具箱是什么？它在同步中的应用有哪些？

Matlab神经网络工具箱是什么？Matlab神经网络工具箱在同步中的应用有哪些？

2021-04-26 06:42:29

labview BP神经网络的实现

请问：我在用labview做BP神经网络实现故障诊断，在NI官网找到了机器学习工具包（MLT），但是里面没有关于这部分VI的帮助文档，对于”BP神经网络分类“这个范例有很多不懂的地方，比如

2017-02-22 16:08:08

matlab实现神经网络精选资料分享

习神经神经网络，对于神经网络的实现是如何一直没有具体实现一下：现看到一个简单的神经网络模型用于训练的输入数据:对应的输出数据:我们这里设置：1：节点个数设置：输入层、隐层、输出层的节点

2021-08-18 07:25:21

【PYNQ-Z2申请】基于PYNQ-Z2的神经网络图形识别

项目名称：基于PYNQ-Z2的神经网络图形识别试用计划：申请理由：本人为一名嵌入式软件工程师，对FPGA有一段时间的接触，基于FPGA设计过简单的ASCI数字芯片。目前正好在学习基于python

2019-01-09 14:48:59

【PYNQ-Z2申请】基于PYNQ的神经网络自动驾驶小车

作品简介这次试用PYNQ-Z2作品“基于PYNQ平台的神经网络自动驾驶小车”，在PYNQ平台上对车载摄像头图像高速采集、预处理，并在FPGA上搭建神经网络，使用图像输入生成小车运动的控制信号，实现小车自动驾驶

2018-12-19 11:36:24

【PYNQ-Z2申请】基于PYNQ的卷积神经网络加速

探索整个过程中资源利用的优化使整个过程更加节能高效预计成果：1、在PYNQ上实现卷积神经网络2、对以往实现结构进行优化3、为卷积神经网络网路在硬件上，特别是在FPGA实现提供一种优化思路和方案

2018-12-19 11:37:22

【PYNQ-Z2试用体验】神经网络基础知识

前言前面我们通过notebook，完成了在PYNQ-Z2开发板上编写并运行python程序。我们的最终目的是基于神经网络，完成手写的数字识别。在这之前，有必要讲一下神经网络的基本概念和工作原理。何为

2019-03-03 22:10:19

【PYNQ-Z2试用体验】基于PYNQ的神经网络自动驾驶小车 - 项目规划

小车运动的控制信号，实现小车自动驾驶。在初步实现方案中，为了快速实现整体功能，使用软件神经网络作为控制器，使用单片机作为底盘电机的控制器。在进一步的实现中，所有数据处理和底盘控制全部由Zynq FPGA

2019-03-02 23:10:52

【案例分享】ART神经网络与SOM神经网络

是一种常用的无监督学习策略，在使用改策略时，网络的输出神经元相互竞争，每一时刻只有一个竞争获胜的神经元激活。ART神经网络由比较层、识别层、识别阈值、重置模块构成。其中比较层负责接收输入样本，并将其传递

2019-07-21 04:30:00

【案例分享】基于BP算法的前馈神经网络

`BP神经网络首先给出只包含一个隐层的BP神经网络模型（两层神经网络）： BP神经网络其实由两部分组成：前馈神经网络：神经网络是前馈的，其权重都不回送到输入单元，或前一层输出单元（数据信息是单向

2019-07-21 04:00:00

人工神经网络实现方法有哪些？

人工神经网络(Artificial Neural Network，ANN)是一种类似生物神经网络的信息处理结构，它的提出是为了解决一些非线性，非平稳，复杂的实际问题。那有哪些办法能实现人工神经网络呢？

2019-08-01 08:06:21

人工神经网络原理及下载

人工神经网络是根据人的认识过程而开发出的一种算法。假如我们现在只有一些输入和相应的输出，而对如何由输入得到输出的机理并不清楚，那么我们可以把输入与输出之间的未知过程看成是一个“网络”，通过不断地给

2008-06-19 14:40:42

人工神经网络课件

人工神经网络课件

2016-06-19 10:15:48

什么是LSTM神经网络

简单理解LSTM神经网络

2021-01-28 07:16:57

什么是图卷积神经网络？

图卷积神经网络

2019-08-20 12:05:29

全连接神经网络和卷积神经网络有什么区别

全连接神经网络和卷积神经网络的区别

2019-06-06 14:21:42

卷积神经网络一维卷积的处理过程

以前的神经网络几乎都是部署在云端（服务器上），设备端采集到数据通过网络发送给服务器做inference（推理），结果再通过网络返回给设备端。如今越来越多的神经网络部署在嵌入式设备端上，即

2021-12-23 06:16:40

卷积神经网络为什么适合图像处理？

卷积神经网络为什么适合图像处理？

2022-09-08 10:23:10

卷积神经网络如何使用

卷积神经网络(CNN)究竟是什么，鉴于神经网络在工程上经历了曲折的历史，您为什么还会在意它呢? 对于这些非常中肯的问题，我们似乎可以给出相对简明的答案。

2019-07-17 07:21:50

卷积神经网络模型发展及应用

分析了目前的特殊模型结构，最后总结并讨论了卷积神经网络在相关领域的应用，并对未来的研究方向进行展望。卷积神经网络（convolutional neural network，CNN）在计算机视觉[1-

2022-08-02 10:39:39

卷积神经网络的层级结构和常用框架

　　卷积神经网络的层级结构　　卷积神经网络的常用框架

2020-12-29 06:16:44

卷积神经网络（CNN）是如何定义的？

什么是卷积神经网络？ImageNet-2010网络结构是如何构成的？有哪些基本参数？

2021-06-17 11:48:22

发布MCU上跑的轻量神经网络包 NNoM，让MCU也神经一把

二十多种不同的神经网络计算，各种复杂的网络结构。它几乎不依赖硬件平台，同时能在各种32bit 和64bit的平台上编译运行。它提供一键转换脚本，可以一行代码把刚训练好的Keras模型转换成一个独立的C

2019-05-01 19:03:01

可分离卷积神经网络在 Cortex-M 处理器上实现关键词识别

我们可以对神经网络架构进行优化，使之适配微控制器的内存和计算限制范围，并且不会影响精度。我们将在本文中解释和探讨深度可分离卷积神经网络在 Cortex-M 处理器上实现关键词识别的潜力。关键词识别

2021-07-26 09:46:37

基于FPGA的神经网络的性能评估及局限性

FPGA实现神经网络关键问题分析基于FPGA的ANN实现方法基于FPGA的神经网络的性能评估及局限性

2021-04-30 06:58:13

基于神经网络混沌吸引子公钥加密算法的FPGA实现

法是可以硬件实现的,并且具有较高的数据加密速度,时钟频率可达50 MHz以上【关键词】：神经网络;;混沌吸引子;;公钥密码;;FPGA【DOI】：CNKI:SUN:XDZK.0.2010-02-008

2010-04-24 09:15:41

基于BP神经网络的PID控制

最近在学习电机的智能控制，上周学习了基于单神经元的PID控制，这周研究基于BP神经网络的PID控制。神经网络具有任意非线性表达能力，可以通过对系统性能的学习来实现具有最佳组合的PID控制。利用BP

2021-09-07 07:43:47

基于三层前馈BP神经网络的图像压缩算法解析

本文介绍了基于三层前馈BP神经网络的图像压缩算法，提出了基于FPGA的实现验证方案，详细讨论了实现该压缩网络组成的重要模块MAC电路的流水线设计。

2021-05-06 07:01:59

基于深度神经网络的激光雷达物体识别系统

的激光雷达物体识别技术一直难以在嵌入式平台上实时运行。经纬恒润经过潜心研发，攻克了深度神经网络在嵌入式平台部署所面临的算子定制与加速、量化策略、模型压缩等难题，率先实现了高性能激光检测神经网络并成功地在嵌入式平台（德州仪TI TDA4系列）上完成部署。系统功能目前该系统：•支持接入禾赛Pandar 40和

2021-12-21 07:59:18

基于深度神经网络的激光雷达物体识别系统及其嵌入式平台部署

基于深度神经网络的激光雷达物体识别系统及其嵌入式平台部署

2021-01-04 06:26:23

基于赛灵思FPGA的卷积神经网络实现设计

FPGA 上实现卷积神经网络 (CNN)。CNN 是一类深度神经网络，在处理大规模图像识别任务以及与机器学习类似的其他问题方面已大获成功。在当前案例中,针对在 FPGA 上实现 CNN 做一个可行性研究

2019-06-19 07:24:41

如何使用STM32F4+MPU9150实现神经网络识别手势？

如何使用STM32F4+MPU9150实现神经网络识别手势？

2021-11-19 07:06:48

如何使用stm32cube.ai部署神经网络？

如何用stm32cube.ai简化人工神经网络映射？如何使用stm32cube.ai部署神经网络？

2021-10-11 08:05:42

如何利用SoPC实现神经网络速度控制器？

不确定因素影响，并且随着可编程片上系统SoPC和大规模现场可编程门阵列FPGA的出现，为神经网络控制器的硬件实现提供了新的载体。

2019-08-12 06:25:35

如何构建神经网络？

原文链接：http://tecdat.cn/?p=5725 神经网络是一种基于现有数据创建预测的计算系统。如何构建神经网络？神经网络包括：输入层：根据现有数据获取输入的层隐藏层：使用反向传播优化输入变量权重的层，以提高模型的预测能力输出层：基于输入和隐藏层的数据输出预测

2021-07-12 08:02:11

如何用ARM和FPGA搭建神经网络处理器通信方案？

某人工神经网络的FPGA处理器能够对数据进行运算处理，为了实现集数据通信、操作控制和数据处理于一体的便携式神经网络处理器，需要设计一种基于嵌入式ARM内核及现场可编程门阵列FPGA的主从结构处理系统满足要求。

2021-05-21 06:35:27

如何移植一个CNN神经网络到FPGA中？

）第二步：使用Lattice sensAI 软件编译已训练好的神经网络，定点化网络参数。该软件会根据神经网络结构和预设的FPGA资源进行分析并给出性能评估报告，此外用户还可以在软件中做

2020-11-26 07:46:03

如何设计BP神经网络图像压缩算法？

(Digital Signal Processor)相比，现场可编程门阵列(Field Programma-ble Gate Array，FPGA)在神经网络的实现上更具优势。DSP处理器在处理时采用指令顺序执行

2019-08-08 06:11:30

嵌入式神经网络有哪些挑战

能。　　这些挑战如果处理不当，将构成重大威胁。一方面，必须要克服硬件限制条件，以在嵌入式平台上执行NN。另一方面，必须要克服挑战的第二部分，以便快速达成解决方案，因为上市时间是关键。还原至硬件解决方案以加速上市时间也不是一个明智选择，因为它无法提供灵活性，并将快速成为发展进化神经网络领域中的障碍。

2020-06-30 11:01:16