FPGA实现算法硬件加速的方法与步骤

当设计者试图从算法中获得最佳性能但软件方法已无计可施时，可以尝试通过硬件/软件重新划分来进行加速。FPGA易于实现软件模块和硬件模块的相互交换，且不必改变处理器或进行板级变动。本文阐述如何用FPGA来实现算法的硬件加速。

如果想从代码中获得最佳性能，方法包括优化算法、使用查找表而不是算法、将一切都转换为本地字长尺寸、使用注册变量、解开循环甚至可能采用汇编代码。如果所有这些都不奏效，可以转向更快的处理器、采用一个不同的处理器架构，或将代码一分为二通过两个处理器并行处理。不过，如果有一种方法可将那些对时间有严格要求的代码段转换为能够以5-100倍速度运行的函数调用，而且如果这一方法是一种可供软件开发之用的标准工具，这可信吗？现在，利用可编程逻辑作为硬件加速的基础可使这一切都变成现实。

图1：带定制指令的可配置处理器架构。

低成本可编程逻辑在嵌入式系统中应用得越来越普遍，这为系统设计者提供了一个无需对处理器或架构进行大的改动即可获得更高性能的可选方案。可编程逻辑可将计算密集型功能转换为硬件加速功能。从软件的角度看，这只是简单地将一个函数调用做进一个定制的硬件模块中，但运行速度要比通过汇编语言优化的相同代码或将算法转换为查找表要快得多。

1. 硬件加速

首先探讨一下什么是硬件加速，以及将算法作为定制指令来实现与采用硬件外围电路的区别。硬件加速是指利用硬件模块来替代软件算法以充分利用硬件所固有的快速特性。从软件的角度看，与硬件加速模块接口就跟调用一个函数一样。唯一的区别在于此函数驻留在硬件中，对调用函数是透明的。

取决于算法的不同，执行时间最高可加快100倍。硬件在执行各种操作时要快得多，如执行复杂的数学功能、将数据从一个地方转移到另一个地方，以及多次执行同样的操纵。本文后面将讨论一些通常用软件完成的操作，经过硬件加速后这些操作可获得极大的性能提高。

如果在系统设计中采用FPGA，那么在设计周期的任何时候都可以添加定制的硬件。设计者可以立刻编写软件代码，并可在最终定稿之前在硬件部分上运行。此外，还可以采取增量法来决定哪部分代码用硬件而不是软件来实现。FPGA供应商所提供的开发工具可实现硬件和软件之间的无缝切换。这些工具可以为总线逻辑和中断逻辑生成HDL代码，并可根据系统配置定制软件库及include文件。

2. 带一些CISC的RISC

精简指令集计算(RISC)架构的目标之一即是保持指令简单化，以便让指令运行得足够快。这与复杂指令集计算(CISC)架构正好相反，后者一般不会同样快地执行指令，但每个指令可完成更多处理任务。这两种架构应用得都很普遍，而且各有所长。

如果能根据特定的应用将RISC的简单和快速特性与CISC强大的处理能力结合起来，岂不两全其美？其实这正是硬件加速所要做的。加入为某种应用而定制的硬件加速模块可以提高处理能力，并减少代码复杂性和密度，因为硬件模块取代了软件模块。可以这么说，是用硬件来换取速度和简单性。

定制指令和硬件外围电路方式

有两种硬件加速模块实现方式。其一是定制指令，它几乎可在每一个可配置处理器中实现，这是采用可配置处理器的主要优点。如图1所示，定制指令是作为算术逻辑单元(ALU)的扩展而添加的。处理器只知道定制指令就像其它指令一样，包括拥有自己的操作代码。至于C代码，宏可自动生成，从而使得使用该定制指令跟调用函数一样。

如果定制指令需要几个时钟周期才能完成，而且要连续调用它，则可以流水线式定制指令来实现。这样可在每个时钟周期产生一个结果，不过开始时有些延迟。

硬件加速模块的另一种实现方式是硬件外围电路。在这一方式下，数据不是传递给软件函数，而是写入存储器映射的硬件外围电路中。计算是在 CPU之外完成的，因此在外围电路工作的同时CPU可以继续运行代码。其实代替软件算法的只是一个普通的硬件外围电路。与定制指令的另一个不同之处是硬件外围电路可以访问系统中的其它外围电路或存储器，而无须CPU介入。

根据硬件需要做什么、怎么工作以及需要多长时间可以决定采用是定制指令还是硬件外围电路更合适。对于那些在几个周期内就可完成的操作，定制指令一般更好些，因为它产生的开销要更少。对于外围电路，一般需要执行几个指令来写入控制寄存器、状态寄存器和数据寄存器，而且需要一个指令来读取结果。如果计算需要几个周期，实施外围电路比较好，因为它不会影响CPU流水线。或者，也可以实施前面所述的流水线式定制指令。

另一个区别是定制指令需要有限数目的操作数，并返回一个结果。根据处理器指令集架构的不同，操作数也各异。对某些操纵，这样可能显得很麻烦。此外，如果需要硬件从存储器或存储器中的其它外围电路读出和写入，则必须采用硬件外围电路，因为定制指令无法访问总线。

图2：16位CRC算法的硬件实现。（Optional）

3. 选择代码

当需要优化C语言代码以满足某些速度要求时，可能要运行一个代码仿制工具，或亲自检查该代码以便了解代码的哪个部分导致系统停滞。当然，这需要熟悉代码以便知道瓶颈在哪儿。

即便找出瓶颈所在，如何优化也是个挑战。有些方案采用本地字大小的变量、带预先计算值的查找表，以及通用软件算法优化。这些技巧可产生快几倍的执行速度效果。另一种优化C算法的方法是用汇编语言编写。过去这种方法可获得很好的提高，但现今的编译器在优化C算法上已做得很好，因此这种性能的提高是有限的。如果需要显著的性能提高，传统的软件算法优化技巧恐怕是不够的。

然而，利用硬件实施的算法比软件实施要强100倍，这不足为奇。那么，如何确定将哪些代码转为硬件实施呢？大可不必将整个软件模块转换为硬件，而应选择那些在硬件中运行得特别快的操作，比如将数据从一处复制到另一处、大量的数学运算以及任何运行多次的循环。如果一个任务由几个数学运算组成，还可以考虑在硬件中加速整个任务。有些时候，仅加速任务中的一个操作就可满足性能要求。

4. 实例：CRC算法的硬件加速

由于大量且重复的计算，循环冗余校验(CRC)算法或任何“校验和”算法都是硬件加速的不错选择。下面通过一个CRC算法的优化过程来探讨如何实现硬件加速。

首先，利用传统的软件技巧来优化算法，然后将其转向定制指令以加速算法。我们将讨论不同实现方法的性能比较和折衷。

CRC算法可用来校验数据在传输过程中是否被破坏。这些算法很流行，因为它们具有很高的检错率，而且不会对数据吞吐量造成太大影响，因为 CRC校验位被添加进数据信息中。但是，CRC算法比一些简单的校验和算法有更大的计算量要求。尽管如此，检错率的提高使得这种算法值得去实施。

一般说来，发送端对要被发送的消息执行CRC算法，并将CRC结果添加进该消息中。消息的接收端对包括CRC结果在内的消息执行同样的CRC操作。如果接收端的结果与发送端的不同，这说明数据被破坏了。

CRC算法是一种密集的数学运算，涉及到二元模数除法(modulo-2 division)，即数据消息被16或32位多项式(取决于所用CRC标准)除所得的余数。这种操作一般通过异或和移位的迭代过程来实现，当采用16位多项式时，这相当于每数据字节要执行数百条指令。如果发送数百个字节，计算量就会高达数万条指令。因此，任何优化都会大幅提高吞吐量。

代码列表1中的CRC函数有两个自变量(消息指针和消息中的字节数)，它可返回所计算的CRC值(余数)。尽管该函数的自变量是一些字节，但计算要逐位来执行。该算法并不高效，因为所有操作(与、移位、异或和循环控制)都必须逐位地执行。

列表1：逐位执行的CRC算法C代码。

/*
* The width of the CRC calculation and result.
* Modify the typedef for a 16 or 32-bit CRC standard.
*/
typedef unsigned char crc;
#define WIDTH (8 * sizeof(crc))
#define TOPBIT (1 << (WIDTH - 1))

crc crcSlow(unsigned char const message[], int nBytes)
{
    crc remainder = 0;
    /*
    * Perform modulo-2 division, a byte at a time.
    */
    for (int byte = 0; byte < nBytes; ++byte)
    {
        /*
        * Bring the next byte into the remainder.
        */
        remainder ^= (message[byte] << (WIDTH - 8));
        /*
        * Perform modulo-2 division, a bit at a time.
        */
        for (unsigned char bit = 8; bit > 0; bit--)
        {
            /*
            * Try to divide the current data bit.
            */
            if (remainder & TOPBIT)
            {
                remainder = (remainder << 1) ^ POLYNOMIAL;
            }
            else
            {
                remainder = (remainder << 1);
            }
        }
    }
    /*
    * The final remainder is the CRC result.
    */
    return (remainder);
}

4.1 传统的软件优化

图3：带CRC外围电路和DMA的系统模块示意图。

让我们看一下如何利用传统的软件技巧来优化CRC算法。因为CRC操作中的一个操作数，即多项式(除数)是常数，字节宽CRC操作的所有可能结果都可以预先计算并存储在一个查找表中。这样，通过一个读查找表动作就可让操作按逐个字节执行下去。

采用这一算法时，需要将这些预先计算好的值存储在存储器中。选择ROM或RAM都可以，只要在启动CRC计算之前将存储器初始化就行。查找表有256个字节，表中每个字节位置包含一个CRC结果，共有256种可能的8位消息(与多项式大小无关)。

列表2示出了采用查找表方法的C代码，包括生成查找表crcInit()中数值的代码。

crc crcTable[256];
void crcInit(void)
{
    crc remainder;
    /*
    * Compute the remainder of each possible dividend.
    */
    for (int dividend = 0; dividend < 256; ++dividend)
    {
        /*
        * Start with the dividend followed by zeros.
        */
        remainder = dividend << (WIDTH - 8);
        /*
        * Perform modulo-2 division, a bit at a time.
        */
        for (unsigned char bit = 8; bit > 0; bit--)
        {
            /*
            * Try to divide the current data bit.
            */
            if (remainder & TOPBIT)
            {
                remainder = (remainder << 1) ^ POLYNOMIAL;
            }
            else
            {
                remainder = (remainder << 1);
            }
        }
        /*
        * Store the result into the table.
        */
        crcTable[dividend] = remainder;
    }
} /* crcInit() */

crc crcFast(unsigned char const message[], int nBytes)
{
    unsigned char data;
    crc remainder = 0;
    /*
    * Divide the message by the polynomial, a byte at a time.
    */
    for (int byte = 0; byte < nBytes; ++byte)
    {
        data = message[byte] ^ (remainder >> (WIDTH - 8));
        remainder = crcTable[data] ^ (remainder << 8);
    }
    /*
    * The final remainder is the CRC.
    */
    return (remainder);
} /* crcFast() */

整个计算减少为一个循环，每字节(不是每位)有两个异或、两个移位操作和两个装载指令。基本上，这里是用查找表的存储空间来换取速度。该方法比逐位计算的方法要快9.9倍，这一提高对某些应用已经足够。如果需要更高的性能，可以尝试编写汇编代码或增加查找表容量以挤出更多性能来。但是，如果需要20、50甚至500倍的性能提高，就要考虑采用硬件加速来实现该算法了。

表1：各种规模的数据模块下CRC算法测试比较结果。

4.2 采用定制指令方法

CRC算法由连续的异或和移位操作构成，用很少的逻辑即可在硬件中简单实现。由于这一硬件模块仅需几个周期来计算CRC，采用定制指令来实现CRC计算要比采用外围电路更好。此外，无须涉及系统中任何其它外围电路或存储器。仅需要一个微处理器来支持定制指令即可，一般是指可配置微处理器。

当在硬件中实现时，算法应该每次执行16或32位计算，这取决于所采用的CRC标准。如果采用CRC-CCITT标准(16位多项式)，最好每次执行16位计算。如果使用8位微处理器，效率可能不太高，因为装载操作数值及返回CRC值需要额外的周期。图2示出了用硬件实现16位CRC算法的内核。

信号msg(15..0)每次被移入异或/移位硬件一位。列表3示出了在64KB数据模块上计算CRC的一些C代码例子。该实例是针对Nios 嵌入式处理器。

列表3：采用定制指令的CRC计算C代码。

unsigned short crcCompute(unsigned short *data_block, unsigned int nWords)
{
    unsigned short* pointer;
    unsigned short word;
    /*
    * initialize crc reg to 0xFFFF
    */
    word = nm_crc (0xFFFF, 1); /* nm_crc() is the CRC custom instruction */
    /*
    * calculate CRC on block of data
    * nm_crc() is the CRC custom instruction
    *
    */
    for (pointer = data_block; pointer < (data_block + nWords); pointer ++)
    word = nm_crc(*pointer, 0) return (word);
}

int main(void)
{
    #define data_block_begin (na_onchip_memory)
    #define data_block_end (na_onchip_memory + 0xffff)
    unsigned short crc_result;
    unsigned int data_block_length = (unsigned short *)data_block_end - 
                                     (unsigned short *)data_block_begin + 1;
    crc_result = crcCompute((unsigned short *)data_block_begin, data_block_length);
}

采用定制指令时，用于计算CRC值的代码是一个函数调用，或宏。当针对Nios处理器实现定制指令时，系统构建工具会生成一个宏。在本例中为nm_crc()，可用它来调用定制指令。

在启动CRC计算之前，定制指令内的CRC寄存器需要先初始化。装载初始值是CRC标准的一部分，而且每种CRC标准都不一样。接着，循环将为数据模块中的每16位数据调用一次CRC定制指令。这种定制指令实现方式要比逐位实现的方法快27倍。

4.3 CRC外围电路方法

如果将CRC算法作为硬件外围电路来实现，并利用DMA将数据从存储器转移到外围电路，这样还可以进一步提高速度。这种方法将省去处理器为每次计算而装载数据所需要的额外周期。DMA可在此外围电路完成前一次CRC计算的时钟周期内提供新的数据。图3示出了利用DMA、CRC外围电路来实现加速的系统模块示意图。

在64KB数据模块上，利用带DMA的定制外围电路可获得比逐位计算的纯软件算法快500倍的性能。要知道，随着数据模块规模的增加，使用 DMA所获得的性能也随之提高。这是因为设置DMA仅需很少的开销，设置之后DMA运行得特别快，因为每个周期它都可以传递数据。因此，若只有少数字节的数据，用DMA并不划算。

这里所讨论的所有采用CRC-CCITT标准(16位多项式)的算法都是在Altera Stratix FPGA的Nios处理器上实现的。表1示出了各种数据长度的测试比较结果，以及大致的硬件使用情况(FPGA中的存储器或逻辑单元)。

可以看出，算法所用的硬件越多，算法速度越快。这是用硬件资源来换取速度。

5. FPGA的优点

当采用基于FPGA的嵌入式系统时，在设计周期之初不必为每个模块做出用硬件还是软件的选择。如果在设计中间阶段需要一些额外的性能，则可以利用FPGA中现有的硬件资源来加速软件代码中的瓶颈部分。由于FPGA中的逻辑单元是可编程的，可针对特定的应用而定制硬件。因此，仅使用所需要的硬件即可，而不必做出任何板级变动(前提是FPGA中的逻辑单元足够用)。设计者不必转换到另一个新的处理器或者编写汇编代码，就可做到这一点。

使用带可配置处理器的FPGA可获得设计灵活性。设计者可以选择如何实现软件代码中的每个模块，如用定制指令，或硬件外围电路。此外，还可以通过添加定制的硬件而获取比现成微处理器更好的性能。

另一点要知道的是，FPGA有充裕的资源，可配置处理器系统可以充分利用这一资源。

算法可以用软件，也可用硬件实现。出于简便和成本考虑，一般利用软件来实现大部分操作，除非需要更高的速度以满足性能指标。软件可以优化，但有时是不够的。如果需要更高的速度，利用硬件来加速算法是一个不错的选择。

FPGA使软件模块和硬件模块的相互交换更加简便，不必改变处理器或进行板级变动。设计者可以在速度、硬件逻辑、存储器、代码大小和成本之间做出折衷。利用FPGA可以设计定制的嵌入式系统，以增加新的功能特性及优化性能。

审核编辑：黄飞

阅读全文

处理器(221453) 处理器(221453)
FPGA(591969) FPGA(591969)
寄存器(117355) 寄存器(117355)
嵌入式系统(128115) 嵌入式系统(128115)
RISC(83081) RISC(83081)

纵览FFmpeg硬件加速方案，涉及主流硬件和操作系统！

被称为“多媒体技术领域的瑞士军刀”，FFmpeg拥有广泛的应用基础。不过，当（实时）处理海量视频时，需要借助各种方法提升效率。本文将纵览FFmpeg的硬件加速方案，涉及各主流硬件方案和操作系统。

2018-05-18 09:03:30

8487

FPGA硬件加速的图像大小调整案例分析

大小调整，另一种使用Xilinx xfopencv library实现了在FPGA上硬件加速的图像大小调整。初始化 1. 首先在SD卡内配置Pynq-Z2最新镜像PYNQ image v2.5并烧录

2020-11-19 15:29:43

3044

基于赛灵思FPGA的广告推荐算法Wide and deep硬件加速案例

作者：雪湖科技梅碧峰在这篇文章里你可以了解到广告推荐算法Wide and deep模型的相关知识和搭建方法，还能了解到模型优化和评估的方式。我还为你准备了将模型部署到赛灵思 FPGA上做硬件加速

2020-11-27 10:46:44

2669

针对LSTM实现硬件加速的稀疏化案例分析

的应用于语音识别、机器翻译、手写识别等。LSTM涉及到大量的矩阵乘法和向量乘法运算，会消耗大量的FPGA计算资源和带宽。为了实现硬件加速，提出了稀疏LSTM。核心是通过剪枝算法去除影响较小的权重，不断迭代训练以达到目标函数收敛。参与实际运算的权重数量大大缩减，这可以有效降低FPGA计算资源

2020-11-29 11:24:19

2746

2017双11技术揭秘—千亿级流量来袭，如何用硬件加速技术为CPU减负？

利用硬件模块来替代软件算法以充分利用硬件所固有的快速特性（硬件加速通常比软件算法的效率要高），从而达到性能提升、成本优化目的，当前主要是如下两大加速方式：FPGA 现场可编程门阵列，可针对某个具体的软件

2017-12-29 11:25:28

硬件实现EMD算法用那种架构比较好？

本人学生，在实验室打算做EMD算法的硬件实现，看了一些论文，感觉主要是单独用FPGA实现，或者用DSP+FPGA实现（DSP做EMD算法，FPGA做数据流控制），请问大家用哪种架构做硬件实现EMD算法比较好？

2018-04-25 21:04:33

Firefly-RK3288 Linux硬件加速，可安装Kodi

适用于Firefly-RK3288的板子* rockchip kernel 4.4 (VPU, GPU, DRM RGA and WIFI设备驱动)* rockchip debian stretch (xserver已加入GPU加速,带硬件加速的gstreamer )

2017-08-19 15:10:30

GNN（图神经网络）硬件加速的FPGA实战解决方案

算法的软件实现方式非常低效，所以业界对GNN的硬件加速有着非常迫切的需求。我们知道传统的CNN（卷积神经网络网络）硬件加速方案已经有非常多的解决方案；但是，GNN的硬件加速尚未得到充分的讨论和研究，在

2021-07-07 08:00:00

H.264解码器中CABAC硬件加速器怎么实现？

2021-06-07 06:48:58

MCU厂推多样解决方案 DSP/FPU硬件加速芯片整合

处理对应至各式演算法应用，两者功能可以说是各有互补效用，比较难被独立拆分。以ARM Cortex-M4来看，若仅提供DSP硬件加速处理器反而没设置FPU浮点运算加速器反而会造成应用限制，因为在

2016-10-14 17:17:54

XCKU115板卡资料：1-基于Xilinx XCKU115的半高PCIe x8 硬件加速卡

基于Xilinx XCKU115的半高PCIe x8 硬件加速卡一、概述本板卡系我公司自主研发，采用Xilinx公司的XCKU115-3-FLVF1924-E芯片作为主处理器，主要用于FPGA

2019-10-25 16:00:50

labview可用硬件怎么加速？

目前我使用NI的机箱采集数据，labview做软件平台生成一个系统。想要达到实时性效果。能否给NI或labview采用硬件加速，提高处理速的呢？如何做呢？有什么资料可以参考？

2018-09-29 09:34:24

【FPGA干货分享六】基于FPGA协处理器的算法加速的实现

HDL的转换工具将C代码转换到HDL加速器是一种创建硬件协处理器的高效方法。图2所示以及下面详述的步骤总结了C到HDL转换的过程：[/url]图2：C-HDL设计流程1. 使用标准C工具实现应用程序或

2015-02-02 14:18:19

【KV260视觉入门套件试用体验】硬件加速之—使用PL加速FFT运算（Vivado）

的应用，比如在数学，密码学，天文学，地震学，生物学等领域。本文主旨利用PL端的并行性和灵活性来实现高效的FFT运算，在KV260搭建一个硬件加速算法，作为对比，我同时使用ARM核进行fft运算，验证PL

2023-10-02 22:03:13

【PYNQ-Z2申请】图像目标识别FPGA硬件加速

项目名称：图像目标识别FPGA硬件加速试用计划：申请理由本人供职于一家AI公司，现在在使用FPGA硬件加速相关目标检测算法的端侧实现（鉴黄/司机行为识别），公司已经有非常成熟的软件算法以及GPU

2019-01-09 14:51:09

【国产FPGA+OMAPL138开发板体验】（原创）7.硬件加速Sora文生视频源代码

信号 text_ready <= 0; end // 文本处理与视频生成（占位符，调用硬件加速器或实现相应算法） if (text_processing &&

2024-02-22 09:49:01

一种基于FPGA的图神经网络加速器解决方案

（Baidu）都无法搜索到关于GNN硬件加速的中文研究资料。本白皮书的写作动机是将国外最新的GNN算法、对加速技术的研究以及对基于现场可编程逻辑门阵列（FPGA）的GNN加速技术的探讨相结合，并以概述

2021-09-25 17:20:41

为什么FPGA协处理器可以实现算法加速？

代码加速和代码转换到硬件协处理器的方法如何采用FPGA协处理器实现算法加速？

2021-04-13 06:39:25

为什么要进入最佳硬件加速板？

我想进入硬件加速。什么板对此有好处，为什么？

2019-10-10 07:00:38

基于 FPGA 的目标检测网络加速电路设计

流水线结构和很强的并行处理能力，还拥有低功耗、配置方便灵活的特性，可以根据应用需要来编程定制硬件，已成为研究实现 CNN 硬件加速的热门平台。综上所述，使用功耗低、并行度高的 FPGA 平台加速

2023-06-20 19:45:12

基于FPGA的FFT算法硬件实现

本帖最后由 gk320830 于 2015-3-8 21:23 编辑开始科创，老师给了我们一个题基于FPGA的FFT算法硬件实现。但是什么都不会，想找些论文看看，求相关的论文

2012-05-24 22:14:40

基于FPGA的超高速FFT硬件实现

基于FPGA的超高速FFT硬件实现介绍了频域抽取基二快速傅里叶运算的基本原理；讨论了基于FPGA达4 096点的大点数超高速FFT硬件系统设计与实现方法，当多组大点数进行FFT运算时，利用FPGA

2009-06-14 00:19:55

基于FPGA的边缘检测和Sobel算法

转帖摘要：针对嵌入式软件无法满足数字图像实时处理速度问题，提出用硬件加速器的思想，通过FPGA实现Sobel边缘检测算法。通过乒乓操作、并行处理数据和流水线设计，大大提高算法的处理速度。采用模块

2017-11-29 08:57:04

基于Xilinx XCKU115的半高PCIe x8 硬件加速卡解决方案

基于Xilinx XCKU115的半高PCIe x8 硬件加速卡一、概述本板卡系我公司自主研发，采用Xilinx公司的XCKU115-3-FLVF1924-E芯片作为主处理器，主要用于FPGA

2018-07-27 16:49:30

基于Xilinx XCKU115的半高PCIe x8硬件加速卡

，主要用于FPGA硬件加速。板卡设计满足工业级要求。如下图所示：图 1：硬件加速卡实物图二、技术指标图 2：硬件加速卡结构框图标准PCIe半高、半长卡，符合PCI Express 3.0 规范

2018-08-22 17:31:55

如何充分利用数字信号处理器上的片内FIR和IIR硬件加速器？

上的片内FIR和IIR硬件加速器也分别称为FIRA和IIRA，我们可以利用这些硬件加速器来分担FIR和IIR处理任务，让内核去执行其他处理任务。在本文中，我们将借助不同的使用模型以及实时测试示例来探讨如何在实践中利用这些加速器。

2020-12-28 06:26:54

如何让opencv使用官方的GStreamer-rockchip实现硬件加速呢

opencv编译和运行时，使用的是安装的GStreamer视频IO，那么如何让opencv使用官方的GStreamer-rockchip实现硬件加速呢？

2022-04-08 15:25:33

想用FPGA实现双边滤波算法，有懂得能说一下具体的实现步骤吗

想用FPGA实现双边滤波算法，有懂得能说一下具体的实现步骤吗

2017-03-21 15:41:13

找不到3d硬件加速器怎么办

器解决办法　　1：Flash设置　　Flash从10开始引入了显卡硬件加速功能，可以大幅度提高Flash播放速度和流畅度。如果未开启显卡硬件加速，那么游戏卡是很正常。　　设置方法：　　右键点击游戏页面

2019-08-21 09:04:31

指纹识别算法的研究及基于FPGA的硬件实现

本帖最后由 eehome 于 2013-1-5 10:04 编辑指纹识别算法的研究及基于FPGA的硬件实现

2012-05-23 20:14:46

无法导入硬件加速器

嗨！我已经创建了一个硬件加速器（在vhdl中）并且合成成功完成。但是，当我使用创建和导入外围设备向导时，它向我显示我的包在库中不可用，尽管它是。我能做什么？？？L'enfer，c'est l

2019-02-27 14:15:31

机器学习实战：GNN加速器的FPGA解决方案

，其算法的软件实现方式非常低效，所以业界对GNN的硬件加速有着非常迫切的需求。我们知道传统的CNN（卷积神经网络网络）硬件加速方案已经有非常多的解决方案；但是，GNN的硬件加速尚未得到充分的讨论和研究

2020-10-20 09:48:39

求一种基于Xilinx XCKU115的半高PCIe x8 硬件加速卡

半高PCIe x8硬件加速卡有哪些技术指标？半高PCIe x8硬件加速卡的物理特性是什么？半高PCIe x8硬件加速卡的接口测试软件有哪些？

2021-06-25 07:16:05

求助：小波算法的FPGA硬件如何实现

用FPGA硬件实现。现在我没有FPGA硬件实现的经验，不知道如何用FPGA硬件实现小波算法。恳请赐教！谢谢！

2012-11-20 21:35:16

转：用fpga 实现图形算法的硬件加速设计有源码

,刀剑棍棒皆可用，无论单片机,FPGA或是ARM DSP.下面是Bresenham画线算法分别用C语言和verilog 分别实现，这是我做的LCD控制器里硬件加速的一个模块,其它如画圆，字符，填充等可以

2012-12-25 16:33:01

问下ARM3的硬件加速器只能用verilog写吗？

问下ARM3的硬件加速器只能用verilog写吗？

2022-09-30 10:45:39

阿里七层流量入口 Tengine硬件加速探索之路

卸载，相对于QAT并不具有加速作用。方案三是FPGA卡方案，相对来说开发成本较高，且相关资源匮乏。综上评估，选择方案一对Gzip进行卸载及加速。Tengine Gzip 硬件加速方案实践左边的图是软件

2018-06-04 17:07:55

基于FPGA 的指纹识别算法硬件实现

提出用FPGA 来实现指纹识别算法, 代替了PC 机、通用MCU 或者DSP。算法由硬件来实现, 提高了运算速度。同时具体说明了指纹识别系统的基本原理、系统总体结构、FPGA 模块划分, 以及指

2009-07-22 15:17:27

数字集成电路设计中的硬件加速验证技术

摘要：在芯片规模指数式上升和要求面市时间快速缩短的双重压力下，验证已成为数字集成电路设计的瓶颈。利用硬件加速验证技术能很好地解决这一问题。该文论述了硬件加速验

2010-04-26 10:20:15

ARM：未来视觉体验将通过图形硬件加速得到提升

ARM：未来视觉体验将通过图形硬件加速得到提升 iPhone所带来的“蝴蝶效应”让业界对视觉体验(Visual Experience)有了全新的认识，其图形的缩放、翻转、倒置、井深、反射、三

2008-10-24 09:06:06

520

采用硬件加速发挥MicroBlaze处理能力

采用硬件加速发挥MicroBlaze处理能力　　MicroBlaze处理器是赛灵思(Xilinx)在嵌入式开发套件 (EDK) 中提供的两款32位内核之一，是实现硬件加速的灵活工具。图1是MicroBlaze的

2010-03-10 10:24:16

1132

加速处理器的正弦函数计算步骤

有很多种算法可对单精度浮点数字的正弦值进行计算，但添加硬件加速器是功能最为强大的方法之一。之所以得出这一结论，是因为客户的应用要求使用此类正弦计算，而我们又针对能

2011-08-31 15:36:46

基于VxWorks的硬件加速技术探讨

简述了爱普生S1D13A05芯片的架构特征，并且介绍了其中的2D硬件加速引擎的工作模式和相关的寄存器设置，最后以VxWorks操作系统作为开发环境，基于风河公司WindML图形开发包，对S1D13A0

2011-09-01 14:07:47

960

基于FPGA Nios-Ⅱ的矩阵运算硬件加速器设计

针对复杂算法中矩阵运算量大, 计算复杂, 耗时多, 制约算法在线计算性能的问题, 从硬件实现角度, 研究基于FPGA/Nios-Ⅱ的矩阵运算硬件加速器设计, 实现矩阵并行计算。首先根据矩阵运算

2011-12-06 17:30:41

Nios II C语言至硬件加速编译器

电子发烧友网核心提示: 获奖的Nios II 嵌入式处理器C语言至硬件（C2H）加速编译器将对时间要求较高的ANSI C函数转换为FPGA中的硬件加速器，从而提高了性能。特性： (1)ANSI/ISO C 代码按键

2012-10-17 14:29:34

1901

Mentor Graphics硬件加速仿真服务使用Veloce 硬件加速仿真平台加速验证

　　俄勒冈州威尔逊维尔，2016 年 4 月 20 日 — Mentor Graphics公司（纳斯达克代码：MENT）今日宣布，Mentor® 硬件加速仿真服务采用具有专业服务和 IP 的 Veloce® 硬件加速仿真平台，借此加速仿真验证并降低与片上系统（SoC）设计相关的风险。

2016-04-20 11:22:08

2307

精确分类的视角无关人脸检测方法与硬件加速体系结构

精确分类的视角无关人脸检测方法与硬件加速体系结构，不错的论文，值得学习参考。

2016-09-18 15:22:48

基于硬件加速的实时仿真平台构建技术

基于硬件加速的实时仿真平台构建技术_孔璐

2017-01-03 17:41:58

Bitfusion支持通过云访问基于赛灵思All Programmable器件的FPGA硬件加速功能

这是必然趋势，肯定有人会通过云访问 FPGA 硬件加速功能。 Bitfusion 既开发软件，又设计硬件，并且与 Rackspace 协作共同创建专用于加速云计算的数据中心。这一理念与 FPGA

2017-02-08 19:48:30

238

UVM验证平台执行硬件加速

UVM已经成为了一种高效率的、从模块级到系统级完整验证环境开发标准，其中一个关键的原则是UVM可以开发出可重用的验证组件。获得重用动力的一个方面表现为标准的仿真器和硬件加速之间的验证组件和环境的复用

2017-09-15 17:08:11

基于SHA-1算法的硬件设计及实现（FPGA实现）

算法进行深入研究，面向Xilinx K7 410T FPGA 芯片设计SHA-1算法实现结构，完成SHA-1算法编程，进行测试和后续应用。该算法在FPGA 上实现，可以实现3.2G bit/s的吞吐

2017-10-30 16:25:54

基于硬件加速系统的PCIe-SRIO桥的逻辑结构

基于混合架构的硬件加速是计算机领域中很重要的研究方向之一。它是指将一些特定的任务从通用CPU移植到硬件处理模块上并进行相应的算法优化。由于硬件设备的专用结构，这些硬件处理模块往往比在基于顺序指令集

2017-11-03 16:29:44

实现重要分析与硬件加速的可编程Xilinx zynq-7000平台推荐

Xilinx Zynq-7000 全可编程 SoC (AP SoC) 系列集成 ARM处理器的软件可编程性与 FPGA 的硬件可编程性，不仅可实现重要分析与硬件加速，同时还在单个器件上高度集成 CPU、DSP、ASSP 以及混合信号功能。

2017-11-07 14:37:52

7144

硬件加速边缘检测优化处理方案

电路实现，根据硬件电路工作频率高和数据位宽自定义，可以解决延时长和数据宽度受限的缺点。实验结果表明，边缘检测硬件加速方法不仅使延时和数据带宽都得到了改善，而且也缩短了边缘检测的开发周期。

2017-11-15 18:02:01

1874

国内首款FPGA云服务器的深度学习算法背景及算法分析

由腾讯云基础产品中心、腾讯架构平台部组成的腾讯云FPGA联合团队，在这里介绍国内首款FPGA云服务器的工程实现深度学习算法（AlexNet），讨论深度学习算法FPGA硬件加速平台的架构

2017-11-15 20:20:08

2468

添加硬件加速器可以加快处理器的正弦计算

如果修改软件不能实现所需速度，那么你可能顺理成章的想到在你的设计中加入硬件加速模块。作有很多种算法可对单精度浮点数字的正弦值进行计算，但添加硬件加速器是功能最为强大的方法之一。之所以得出这一结论

2017-11-24 18:38:33

1895

基于VxWorks的硬件加速技术探讨

简述了爱普生S1D13A05芯片的架构特征，并且介绍了其中的2D硬件加速引擎的工作模式和相关的寄存器设置，最后以VxWorks操作系统作为开发环境，基于风河公司WindML图形开发

2017-12-01 04:26:01

258

利用硬件加速器提高处理器的性能

处理器内部集成的硬件加速器可以实现三种广泛使用的信号处理操作：FIR(有限冲激响应)、IIR(无限冲激响应)和FFT(快速傅里叶变换)。硬件加速器减轻了核处理器的负担，能潜在的提升处理器的计算吞吐

2017-12-04 15:22:36

1036

MD5算法硬件加速模型

针对MD5软件实现方法存在占用资源大、安全性差等缺点，提出了基于NetMagic平台的MD5硬件加速模型设计方案，并基于ModelSim和NetMagic平台对提出的非流水线与流水线硬件加速模型进行

2018-01-12 16:45:07

Veloce仿真环境下的SoC端到端硬件加速器功能验证

很多人认为硬件加速器无非是一种速度更快的仿真器而已。毫无疑问，由于硬件加速器使用物理硬件进行仿真，使用硬件加速器验证复杂的集成电路和大型片上系统（SoC）能比软件仿真器快若干数量级。与仿真用通用计算机相比，仿真用单一功能计算机能提供更高容量、更高效的系统。

2018-03-28 14:50:00

3160

四强联手发布了基于FPGA的一系列vBRAS解决方案，加快了FPGA硬件加速的步伐

在近日举行的2018上海世界移动大会期间，中国电信、英特尔、联想与赛特斯联合发布了基于FPGA的一系列vBRAS解决方案，包括vBRAS IPv6方案、vBRAS P4方案、vBRAS FPGA硬件加速解决方案。

2018-08-14 16:20:36

1007

Vivado HLS实现Canny边缘检测硬件加速实现方法

Vivado HLS是Xilinx公司推出的加速数字系统设计开发工具，直接使用C、C++或SystemC开发的高层描述来综合数字硬件，替代用VHDL或Verilog实现FPGA硬件设计[6]，实现设计的功能和硬件分离，不需要关心低层次具体细节，具有很强的灵活性，有效降低数字系统设计开发周期。

2018-10-04 10:41:00

7096

基于Xilinx FPGA的Memcached硬件加速器的介绍

本教程讨论基于Xilinx FPGA的Memcached硬件加速器的技术细节，该硬件加速器可为10G以太网端口提供线速Memcached服务。

2018-11-27 06:41:00

3433

Achronix新一代嵌入式FPGA IP为AI/ML和网络硬件加速应用带来更高性能

和网络加速应用而设计的，并基于Speedster22i FPGA系列相同的高性能架构，采用Speedcore作为硬件加速器的方案被广泛应用到数据中心和通信基础设施等领域。据了解，eFPGA IP授权业务

2018-12-23 16:29:40

4151

想要实现FPGA的CNN加速需要考虑以下内容

网上对于FPGACNN加速的研究已经很多了，神经网络的硬件加速似乎已经满大街都是了，这里我们暂且不讨论谁做的好谁做的不好，我们只是根据许许多多的经验来总结一下实现硬件加速，需要哪些知识，考虑哪些因素。

2019-02-14 14:25:46

1222

FPGA的CNN实现硬件加速需要考虑这些因素

2019-03-08 14:44:33

3601

分享硬件加速仿真的 11 个谬论介绍和说明

硬件加速仿真可以实现寄存器传输级(RTL)和现代SoC设计门级的最佳功耗分析。只有硬件加速仿真才有处理大量逻辑以及产生针对所有元素的切换活动的独有能力。

2019-10-11 17:54:29

4550

如何将硬件加速器关闭？

硬件加速是指在计算机中通过把计算量非常大的工作分配给专门的硬件来处理以减轻中央处理器的工作量之技术。尤其是在图像处理中这个技术经常被使用。

2019-08-15 15:29:35

6839

LSTM的硬件加速方式

Long-short term memory，简称LSTM，被广泛的应用于语音识别、机器翻译、手写识别等。LSTM涉及到大量的矩阵乘法和向量乘法运算，会消耗大量的FPGA计算资源和带宽。为了实现硬件加速，提出了稀疏LSTM。

2019-08-24 10:32:35

2798

基于FPGA的硬件加速解决方案

FPGA加速卡采用CAPI接口设计，通过CAPI接口与P&P服务器紧密集成；应用于大数据分析、密码解算、图像图片处理等领域，实现百倍的加速比；

2020-07-07 16:16:12

基于FPGA的神经网络硬件实现方法

基于FPGA的神经网络硬件实现方法说明。

2021-06-01 09:35:16

如何去确定一个硬件加速器件？有哪些步骤？

在开发一个加速程序的之前，有一个很重要的步骤：正确设计程序架构。

2021-06-11 13:05:17

1205

OpenHarmony 分论坛-华秋电子新硬件加速器

OpenHarmony 分论坛-华秋电子新硬件加速器今天的华为开发者大会2021上，OpenHarmony分论坛上展示了华秋电子新硬件加速器。 HDC分论坛-OpenHarmony 分论坛推荐链接：http://t.elecfans.com/live/1708.html 责任编辑：haq

2021-10-23 16:53:48

1500

用FPGA实现FFT算法的方法

摘要：在对FFT(快速傅立叶变换)算法进行研究的基础上，描述了用FPGA实现FFT的方法，并对其中的整体结构、蝶形单元及性能等进行了分析。

2022-04-12 19:28:25

4515

基于CORTEX-M3硬件加速的目标跟踪锁定系统

本项目采用Cortex-M3软核做控制部分，大规模专用硬件加速器做滤波跟踪计算和智能目标检测部分，视频输入输出通过HDMI直接进入硬件加速器，绕过软核实现更快的数据处理速度。

2022-05-16 10:04:26

959

AR机器人公司发布机器人操作系统(ROS)硬件加速框架ROBOTCORE

)硬件加速框架——ROBOTCORE™。ROS是机器人技术的标准。该公司为机器人提供半导体构建模块，通过硬件加速为高性能机器人创建定制计算架构，同时保持机器人和加速器的硬件无关性（支持流行的FPGA和GPU）。 ROBOTCORE™可帮助机器人工程师创建与ROS和ROS 2 API兼容的知识产权(IP)核心，以提高包括

2022-06-16 12:40:20

1685