搜索历史

清空

搜索热词

0

聊天消息
系统消息
评论与回复

查看更多

查看更多

查看更多

VIP于到期续费

登录后你可以

下载海量资料
学习在线课程
观看技术视频
写文章/发帖/加入社区

会员中心

创作中心

发布

创作活动

完善资料让更多小伙伴认识你，还能领取20积分哦，立即完善>

3天内不再提示

如何用FPGA并行高速运算实现实时的引导滤波算法

前面一篇文章中，已经详细的分析了引导滤波的理论，公式的推导，以及和双边滤波的对比分析，即在边缘的处理上双边滤波会引起人为的黑/白边。我们已经知道何博士引导滤波的优秀之处，那么本篇文章，我带你推演，如何用FPGA并行高速运算，最小的代码实现实时的引导滤波算法。

首先，给出上篇中最后的matlab 引导滤波的代码，如下所示。

其中框框中为主要的计算过程，下一图为计算a/b的最后的公式（引导图=本身）。

双边滤波由于其只是在空间距离及像素相似度上进行权重计算，加权滤波，相对算法不是特别复杂，FPGA也易于实现（某司的USB 工业相机2D滤波就是双边滤波），但是确实效果上不如引导滤波，那么引导滤波FPGA计算真有那么难吗？为此我翻阅了一些资料，也从头到尾推到计算了一遍，略有所成，出来和大家分享下。

在Matlab/C的加速中，引导滤波采用了盒式滤波的方式去加速，将运算复杂度从O（MN）的降低到了O（4），其方法就是先计算当前像素到原点像素组成的矩形区域的和/平方和等，对于线程的Matlab/C而言确实有很大的加速作用，相关的文章可以参考如下，对于软件加速而言还是很不错：

https://www.cnblogs.com/lwl2015/p/4460711.html

于是网上就有了一篇所谓的采用FPGA进行引导滤波加速的专利，链接如下：

https://www.doc88.com/p-4377429794731.html？r=1

另附上架构实现图，但我估计这几个小朋友还没有想明白boxfilter是怎么回事，生搬硬套软件boxfilter加速的思维嘛？？？

图中，计算均值，平方均值，a的均值，b的均值采用了4个boxfilter，也就是说如果输入1280*720的图像，那就需要缓存4个那么大地址空间的区域来存储中间变量，这显然是不适合FPGA加速运算的啊。FPGA的意义在于高速并行技术，尽可能的避免冲入进入缓存，而是以Pipeline的方式流水线完成运算，实现真正低延时+实时处理的目标。

所以为什么不能流水线完成所有的计算操作呢？

不服来战，没有啥难度的……下面开始我的表演。

【第一步】

以3*3的滤波为例（这里的引导图都是原图），按行从传感器或者DDR中读取原图，采用移位寄存后得到3*3的矩阵行，如下所示：

如上图中，以P00-P22为例，这9个像素，我们可以通过计算得均值，以及平方的均值，紧接着继续计算得到a与吧，详见下图，其中相关的参数定义如下：

P原始图像像素集

Pm以当前像素为中心的3*3像素的均值

PPm以当前像素为中心的3*3像素平方的均值

sum1以当前像素为中心的3*3像素的和

sum1以当前像素为中心的3*3像素平方的和

a以当前像素为中心计算的参数a

b以当前像素为中心计算的参数b

am以当前像素为中心的3*3像素的a均值

bm以当前像素为中心的3*3像素的b均值

从上图可知，通过三行组成的矩阵，以流水线方式，最快用了6个时钟得到了参数a与b；

由于全图流水线运行，因此从第6个时钟开始，将持续的输出每一个像素对应的a与b，等同于我们通过这一阶段的实现方式，得到了参数a/b阵列。

另外，上图中可知，除以9的运算我已经默默转换为乘法与移位，clk4中将涉及到的小数点，已经提前扩大了1024倍，同等的b中也做了变更（红/蓝色字体），这就是FPGA定点化的加速的方式。

再者，由于最后的计算还需要P的参与，因此上述步骤中，需要将输入的原始图像进行移位延时，最终能和后续am/bm对齐。

【第二步】

接下来，进一步计算am与bm，这个就简单的多了，类似第一步，直接缓存3行得到3*3的矩阵行，通过加权后得到am与bm。这个过程中am与bm的计算可以完全并行，每个am/bm的计算耗时3个时钟。

详见下图计算流：

【第三步】

此时我们已经同时得到了am，bm，以及通过移位delay后和am/bm对齐的P，那么直接套用公式，我们就可以计算出每一个像素滤波后的值：

即输出Q=（am*P+bm）》》10

这里还需要右移10bit，是因为前面第一步中，由于涉及到了小数，我们提前进行了1024倍的扩大，来减少计算误差的损失。

至此，流水线操作，没有使用boxfilter，没有将数据回写入DDR，我们采用了若干行line buffer的形式，完成了实时引导滤波的FPGA加速实现。

整体流程再梳理一下，相关的依赖以及流水方式，如下图所示，应该可以看的更明白。其中绿色为第一步计，灰色为第二步计算，红色为最后一步计算。

所以，这就是FPGA并行加速运算的价值与意义，按照我的实现方式，可以用最小的代码实现实时的引导滤波，甚至连低端的EP4CE6E都不是问题。

同样一个算法，可以有n种实现方式，你甚至可以把算法挪到MPSOC的PS中执行，然后忍受龟速的同时你可能还会抱怨FPGA跑的慢，CPU性能不足之类的，但是永远不要忘记，架构的意义。正如软件的优化，其实很多时候，并不是算法本身不行，而是你对系统底层，对计算优化的能力不行。

为什么我喜欢用FPGA加速，因为每一个门级电路，以何种并行度何种方式进行计算，一切都可以在我的掌控之中。

所以当年我说过一句话：掌握了FPGA，你便掌握了整个世界。

至此，从均值滤波到中值滤波、高斯滤波、双边滤波、引导滤波这些通用的2D降噪算法，我都已经通过公众号/知识星球/博客的方式，从原理到FPGA加速实现阐述明白。

如果在这之间有任何疑问，或者我有什么不到之处的，欢迎以各种方式来跟我讨论（伸手党麻烦出门右转）。

谢谢大家！

编辑：jq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

FPGA

FPGA

+关注

关注
1625

文章
21664

浏览量
601727
cpu

cpu

+关注

关注
68

文章
10824

浏览量
211113
滤波

滤波

+关注

关注
10

文章
662

浏览量
56590

原文标题：基于FPGA的引导滤波并行加速实现推演

文章出处：【微信号：sim_ol，微信公众号：模拟在线】欢迎添加关注！文章转载请注明出处。

评论

相关推荐

FPGA在图像处理领域的优势有哪些？

。这种并行处理能力使得FPGA在处理大规模图像数据时表现出色，能够实时完成复杂的图像处理算法。二、高灵活性 FPGA具有很高的灵活性，可以

发表于 10-09 14:36

高速并行总线的工作原理是什么高速并行总线有哪些

高速并行总线的工作原理及其具体类型是一个涉及硬件技术和数据传输的复杂话题。以下是对高速并行总线工作原理的概述以及几种常见的高速

的头像

发表于 10-06 15:17 •248次阅读

<b class='flag-5'>高速</b><b class='flag-5'>并行</b>总线的工作原理是什么 <b class='flag-5'>高速</b><b class='flag-5'>并行</b>总线有哪些

如何用FPGA实现一个通信系统的发射端接收机？

。同步与均衡：处理信号的同步问题，并进行均衡以补偿信道的失真。在实际实现中，还需要考虑以下关键技术和要点：时钟管理：确保 FPGA 内部的时钟稳定和准确，以支持高速的数据处理。资源优化：合理

发表于 09-10 19:15

FPGA在自动驾驶领域有哪些应用？

的数据处理和预处理，实现实时计算和反馈。二、数据传输与处理FPGA在自动驾驶中扮演着数据传输和处理的角色。它能够支持多种传感器（如激光雷达、摄像头、GPS等）的数据传输，并通过其高速的数据处理能力，

发表于 07-29 17:09

FPGA在人工智能中的应用有哪些？

，FPGA可以有效地处理深度学习中的大规模并行运算，从而提高深度学习应用的效率。定制化计算：FPGA的高度可编程性使其可以针对特定的应用场景和算法进行定制化的硬件设计。这意味着，如果

发表于 07-29 17:05

FPGA与MCU的应用场景

大量计算任务，这在实时处理等应用中尤为重要。高性能计算 FPGA在处理复杂算法和大规模数据时表现出色，特别是在人工智能（AI）和机器学习（ML）领域。它们可以加速神经网络的训练和推理过程。所以适合

发表于 07-29 15:45

FPGA设计经验之图像处理

的算法根本就达不到实时。另外别小看了这种NxN算子法，它可以有各种组合和玩法，可以实现分选多种颜色，甚至分辨简单形状等功能。FPGA进行的这种算子法处理是

发表于 06-12 16:26

matlab与FPGA数字信号处理系列 Verilog 实现并行 FIR 滤波器

在 FPGA 实现 FIR 滤波器时，最常用的是直接型结构，简单方便，在实现直接型结构时，可以选择串行结构/并行结构/分布式结构。

发表于 05-24 07:48

基于FPGA的实时边缘检测系统设计，Sobel图像边缘检测，FPGA图像处理

运行时， FPGA 并行运算平台首先完成对摄像头的初始化和寄存器配置，配置完成之后读取实时的图像数据存入 SDRAM 存储器中，在 FPGA 芯片内部

发表于 05-24 07:45

基于多速率DA的根升余弦滤波器的FPGA实现

，每相仍然相当于低阶的FIR滤波器，下节对其采用DA算法，可以看到运算速度将进一步提高，运算量也将大幅减少。3、多速率DA根升余弦滤波器的结

发表于 03-25 14:21

如何使用FPGA驱动并行ADC和并行DAC芯片？

ADC和DAC是FPGA与外部信号的接口，从数据接口类型的角度划分，有低速的串行接口和高速的并行接口。

的头像

发表于 02-22 16:15 •3382次阅读

如何使用<b class='flag-5'>FPGA</b>驱动<b class='flag-5'>并行</b>ADC和<b class='flag-5'>并行</b>DAC芯片？

详解FPGA六大应用领域

容易地实现分布式的算法结构，这一点对于实现无线通信中的高速数字信号处理十分有利。因为在无线通信系统中，许多功能模块通常都需要大量的滤波

发表于 01-17 17:03

怎么用FPGA做算法如何在FPGA上实现最大公约数算法

FPGA算法的优点在于它们可以提供高度的定制化和灵活性，使得算法可以根据实际需求进行优化和调整。此外，FPGA还可以实现硬件加速，提供比传统

的头像

发表于 01-15 16:03 •1981次阅读

浮点LMS算法的FPGA实现

引言 LMS(最小均方)算法因其收敛速度快及算法实现简单等特点在自适应滤波器、自适应天线阵技术等领域得到了十分广泛的应用。为了发挥算法的最佳

的头像

发表于 12-21 16:40 •719次阅读

详解从均值滤波到非局部均值滤波算法的原理及实现方式

将再啰嗦一次，详解从均值滤波到非局部均值滤波算法的原理及实现方式。细数主要的2D降噪算法，如下图所示，从最基本的均值

的头像

发表于 12-19 16:30 •1114次阅读

详解从均值<b class='flag-5'>滤波</b>到非局部均值<b class='flag-5'>滤波</b><b class='flag-5'>算法</b>的原理及<b class='flag-5'>实现</b>方式