0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

图像处理硬件加速引擎是什么 如何提高CPU芯片性能

FPGA自习室 来源:FPGA自习室 作者:FPGA自习室 2021-06-30 15:34 次阅读

什么是硬件加速引擎?

软件在CPU上执行,首先是从控制器从存储器取指(Fetch),接着控制器进行译码(Decode),然后由算数逻辑单元(ALU)执行指令(Execute),这就是指令周期,如下图所示。因此CPU每执行一个运算,都是一个流水线式调用计算的过程。普通计算机用指令运算速度衡量计算性能,而超算通常用浮点运算速度来衡量其性能。但不管是指令运算还是浮点运算,在CPU上都是线程的运算,并且要耗费n个指令周期。线程的机制决定了运算只能按部就班,执行完当前的操作才能进行下一个,所以经常电脑会卡住,因为性能不足以快速执行当前的运算。

6a120a3a-d8d3-11eb-9e57-12bb97331649.png

想要提高CPU芯片性能,最简单粗暴的办法:要么提升主频,要么增加核数:

1)提高主频:当前流片的制程限制了主频,我们一直徘徊在3-5GHz,且进一步提高主频,功耗和散热也是很大的问题。

2)增加核数:无限制的增加核数是一种非常笨拙的办法 ,并且软件不好优化,同时又受面积、功耗、散热、成本的制约,芯片良品率也将会进一步降低。

除非是云服务器类芯片等以为追求性能为目标,对能耗比不敏感的芯片,否则消费类芯片核心竞争力仍以能耗比和性价比为主。这意味着随着摩尔定律的终结,我们很难再从通用CPU榨出更多的性能,那么架构的演进也许才能突破限制——采用硬件加速器引擎(协处理器),比如采用GPU/DSP/DPU等专用处理单元加速器来完成特定的功能,提升处理的效率。

典型的在2020.11.11,apple在WWDC上发布了采用自研SOC的全芯Macbook系列产品,使用的就是最新自研的号称地表最强的M1芯片。该芯片采用了apple的手机SOC架构,由TSMC最新5nm制程工艺代工,集成了8个CPU,8个GPU(128个执行单元,可同时执行24576个线程,运算能力高达2.6TFLOPS),以及16核的神经网络加速引擎Neural Engine(即上述所谓DPU,每秒可进行11万亿次操作),硬件编解码核(硬件完成AVS、264/5等制式视频的编解码)。

这款地表最强的SOC,在同等功耗下,号称达到了2倍目前最快的CPU性能,再次刷新了数据。这里的GPU与Neural Engine,硬件编解码核等,这就我们所谓的硬件加速器。芯片充分利用硬件加速引擎,有效缓解了CPU线程运算的压力。GPU是专用的图形处理单元,Neural Engine是专用的卷积神经网络计算单元,硬件编解码是专用的视频编解码处理单元,三者异曲同工,无非就是将原本要用CPU计算的卷积/浮点运算进行了硬化,采用门电路进行并行加速运算,而非传统CPU的指令运算流程。

文章出处:【微信公众号:FPGA自习室】

责任编辑:gt

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 控制器
    +关注

    关注

    112

    文章

    16064

    浏览量

    176919
  • cpu
    cpu
    +关注

    关注

    68

    文章

    10794

    浏览量

    210662
  • 引擎
    +关注

    关注

    1

    文章

    357

    浏览量

    22510

原文标题:图像处理硬件加速引擎——不断突破限制(上)

文章出处:【微信号:FPGA_Study,微信公众号:FPGA自习室】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    基于 DSP5509 进行数字图像处理中 Sobel 算子边缘检测的硬件连接电路图

    和 DSP5509 相匹配的接口电路,确保图像数据的正确传输和显示。常见的接口有 RGB、LVDS 等。 五、Sobel 算子计算模块设计 硬件加速:可以考虑使用硬件加速器来加速 So
    发表于 09-25 15:25

    TDA4VM上的硬件加速运动恢复结构算法

    电子发烧友网站提供《TDA4VM上的硬件加速运动恢复结构算法.pdf》资料免费下载
    发表于 09-24 11:39 0次下载
    TDA4VM上的<b class='flag-5'>硬件加速</b>运动恢复结构算法

    AM62A SoC通过硬件加速视觉处理改进条形码读取器

    电子发烧友网站提供《AM62A SoC通过硬件加速视觉处理改进条形码读取器.pdf》资料免费下载
    发表于 09-04 09:52 0次下载
    AM62A SoC通过<b class='flag-5'>硬件加速</b>视觉<b class='flag-5'>处理</b>改进条形码读取器

    图形图像硬件加速器卡设计原理图:270-VC709E 基于FMC接口的Virtex7 XC7VX690T PCIeX8 接口卡

    扩展。软件支持windows,Linux操作系统。Net FPGA , XC7VX690T板卡 , 软件无线电处理平台 , 图形图像硬件加速
    的头像 发表于 08-06 10:16 359次阅读
    图形<b class='flag-5'>图像</b><b class='flag-5'>硬件加速</b>器卡设计原理图:270-VC709E 基于FMC接口的Virtex7 XC7VX690T PCIeX8 接口卡

    工业级HMI芯片Model3芯片详解(二)图像显示

    Model3芯片是一款集大容量存储、宽温操作范围及多功能接口于一身的MCU,配备了2D图像加速引擎和PNG解码/JPEG编解码引擎,可以满足
    的头像 发表于 06-19 17:45 683次阅读
    工业级HMI<b class='flag-5'>芯片</b>Model3<b class='flag-5'>芯片</b>详解(二)<b class='flag-5'>图像</b>显示

    PSoC 6 MCUBoot和mbedTLS是否支持加密硬件加速

    。 使用 MCUBoot 验证两个应用程序时,运行时间大约需要五秒钟。 在 README.md 的 \"安全 \"一栏中写道 与软件实现相比,硬件加速加密技术将启动时间缩短了四倍多
    发表于 05-29 08:17

    基于FPGA的实时边缘检测系统设计,Sobel图像边缘检测,FPGA图像处理

    算法 ,利用乒乓操作和 SDRAM 缓存图像,可以实时提取视频图像的边缘特征。文中对比了 MATLAB 和 FPGA 的处理效果,由于 FPGA 对算法采取了硬件加速,所以相较于 MA
    发表于 05-24 07:45

    新思科技硬件加速解决方案技术日在成都和西安站成功举办

    近日,【新思科技技术日】硬件加速验证解决方案专场成都站和西安站顺利举行,来自国内领先的系统级公司、芯片设计公司以及高校的250多名开发者们积极参与。
    的头像 发表于 04-19 17:35 408次阅读

    Elektrobit利用其首创的硬件加速软件优化汽车通信网络的性能

    Elektrobit今日宣布推出 EB zoneo GatewayCore——首款支持、配置和集成现代微控制器新一代硬件加速器的软件产品,可应用于先进的汽车电子/电气架构(基于被广泛采用
    的头像 发表于 04-17 09:51 309次阅读

    用DE1-SOC进行硬件加速的2D N-Body重力模拟器设计

    该项目的目标是创建一个用DE1-SOC进行硬件加速的2D N-Body重力模拟器。
    的头像 发表于 04-09 11:08 470次阅读
    用DE1-SOC进行<b class='flag-5'>硬件加速</b>的2D N-Body重力模拟器设计

    330-基于FMC接口的Kintex-7 XC7K325T PCIeX4 3U PXIe接口卡 图形图像硬件加速

    标签: Net FPGA , XC7K325T板卡 , XC7K325T处理板 , 软件无线电处理平台 , 图形图像硬件加速
    的头像 发表于 03-04 14:14 542次阅读
    330-基于FMC接口的Kintex-7 XC7K325T PCIeX4 3U PXIe接口卡 图形<b class='flag-5'>图像</b><b class='flag-5'>硬件加速</b>器

    【国产FPGA+OMAPL138开发板体验】(原创)7.硬件加速Sora文生视频源代码

    算法,如循环神经网络(RNN)或Transformer,用于文本处理,以及卷积神经网络(CNN)或生成对抗网络(GAN)用于视频生成。通常涉及对模型中的计算密集型部分进行硬件加速。文本到视频生成模型
    发表于 02-22 09:49

    音视频解码器硬件加速:实现更流畅的播放效果

    思想是利用专门的硬件资源,如GPU或专用的解码芯片,来分担原本由CPU承担的解码任务。这种方式不仅可以大幅提高解码速度,还能降低CPU的负载
    的头像 发表于 02-21 14:40 855次阅读
    音视频解码器<b class='flag-5'>硬件加速</b>:实现更流畅的播放效果

    《数据处理器:DPU编程入门》+初步熟悉这本书的结构和主要内容

    之一。随着人们对云计算和大数据处理需求的增加,数据中心的计算负载也不断增加。传统的中央处理器(CPU)在处理这些工作负载时可能会遇到瓶颈,难以提供足够的
    发表于 12-08 18:03

    利用 NVIDIA Isaac Transport for ROS 提升自定义 ROS 图形性能

    特定硬件加速器优化的数据格式进行工作。经过适配的类型用于处理图形,以消除 CPU 和内存加速器之间的内存拷贝。 通过 类型协商 ,处理图中的
    的头像 发表于 11-30 19:35 557次阅读
    利用 NVIDIA Isaac Transport for ROS 提升自定义 ROS 图形<b class='flag-5'>性能</b>