0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用粗粒度可重构阵列加速处理

星星科技指导员 来源:嵌入式计算设计 作者:Monique DeVoe 2022-06-14 10:05 次阅读

随着性能需求的增加和对低功耗设计的推动,需要更有效的方法来执行处理任务,因为由于功率限制,将更多处理器投入性能问题不再可行。加速器旨在以更快的速度和更低的功耗进行计算,但今天的加速器在功耗和性能方面存在缺陷。

加速器阵容

亚利桑那州立大学计算、信息学和决策系统工程学院副教授 Aviral Shrivastava 正在对可编程加速器进行研究,以增强当今的加速技术。Shrivastava 列出了当今使用的三种常见类型的加速器:硬件加速器、FPGAGPU。硬件加速器将特定的计算元素专用于处理计算,而不是在 CPU 上运行它们。它们速度快、功耗低,但不适合当今快速变化的技术迭代,因为它们不可编程。FPGA 是可编程的——开发人员可以在其上编写任何逻辑并且它们可以充当加速器——但 Shrivastava 说它们通常过于通用并且消耗太多功率。GPU 是当今流行的加速器,

粗粒度可重构阵列

Shrivastava 正在开发粗粒可重构阵列 (CGRA),它可以加速非并行循环,并在 GPU 的并行循环优势之上实现更多加速功能。CGRA 由一个由算术逻辑单元 (ALU) 和寄存器组成的二维网格组成,这些单元接收输入和指令,计算指令的算术或逻辑运算,并将输出发送给它的四个邻居以计算下一个步骤(图 1)。

图 1:粗粒度可重构阵列。

pYYBAGKn7RuAfDpEAATcUI-H07s228.png

CGRA 的潜力来自于他们能够在消耗很少的电力的情况下执行操作。在常规处理器中执行加法运算需要很大的功率:它必须经过 20 多个流水线阶段。在 CGRA 中,只需要从邻居那里获取操作数并执行加法运算。CGRA 可以通过流水线加速——循环的操作被布置在 CGRA 的 PE 上,数据在它们之间流动。

CGRA 本身并不新鲜,但开发人员对现有的 CGRA 进行编程以仅执行一种类型的计算。Shrivastava 说,挑战在于映射,因为循环内核需要映射到 CGRA,操作映射到节点,数据依赖关系映射到 CGRA 的路径。Shrivastava 的目标是消除耗时的手动编码,并使任何类型的循环或计算能够通过编译器映射到 CGRA,这是一种相对较新的方法。他正在开发一个生成映射代码的编译器工具链。

Shrivastava 说 CGRA 的研究引起了 IBM 的兴趣,IBM 希望将这种方法应用于并行循环轻型服务器应用程序。用于科学研究和多媒体扩展的图形和高性能计算也可以从使用 CGRA 中获益。

解决分支分歧问题

所有现有加速技术面临的一个挑战是“分支分歧”。当执行具有“if-then-else”结构的循环时,加速器分配资源以执行来自分支的两条路径(真路径和假路径)的指令,然后丢弃假路径指令的影响。FPGA 将两个路径的功能映射到计算资源上,GPU 执行来自两个分支路径的指令并丢弃错误路径指令的结果。加速器必须这样做,因为在分配分支路径资源时,分支的结果在编译时是未知的(分支的结果是在运行时计算的,当执行分支时)。这种冗余执行会导致分支花费双倍的性能时间和执行能力。

Shrivastava 和他的团队提出了通过智能硬件-软件协同设计解决分支分歧问题的方法。不是为真路径分配一些PE,而为假路径分配一些PE,而是分配相同的PE来执行来自两条路径的指令。来自真路径和来自假路径的指令都发给PE。在运行时,PE 只选择正确的一个来执行。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    19461

    浏览量

    231439
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4798

    浏览量

    129516
  • 编译器
    +关注

    关注

    1

    文章

    1643

    浏览量

    49345
收藏 人收藏

    评论

    相关推荐

    粒度控制在结晶过程中的从小规模试验到放大应用

    引言 结晶作为API生产的最后一道工序,除了用于纯化外,还可以实现晶型与粒度控制。晶型和粒度影响口服药物生物利用度。其中,粒度分布(PSD)是一个重要的粉体性质,它影响晶浆的过滤速率、滤饼的干燥效率
    的头像 发表于 02-18 09:45 33次阅读
    <b class='flag-5'>粒度</b>控制在结晶过程中的从小规模试验到放大应用

    突破传统桎梏,富唯重构柔性装配系统引领行业新变革

    在当今竞争激烈的制造业领域,传统装配系统正面临着诸多难以突破的困境。多层控制器架构冗余、产线生产种类单一、对人员要求过高以及标准化程度低等问题,严重制约着企业的发展与创新。而富唯智能基于 AI-ICDP 打造的重构柔性装配系统,宛如一颗璀璨的新星,为行业带来了全新的希望
    的头像 发表于 02-13 14:22 42次阅读
    突破传统桎梏,富唯<b class='flag-5'>可</b><b class='flag-5'>重构</b>柔性装配系统引领行业新变革

    什么是麦克风阵列

    什么是麦克风阵列?想象一下一个小型音响部队在你面前,它们站成一排,用不同的麦克风捕捉声音。这就是麦克风阵列的基本概念。麦克风阵列由多个麦克风组成,按照特定的布局排列在一起,用来捕捉和处理
    的头像 发表于 11-30 01:08 470次阅读
    什么是麦克风<b class='flag-5'>阵列</b>

    基于相变材料的重构超构表面用于图像处理

    光学超构表面(metasurface)实现了在亚波长尺度内的模拟计算和图像处理,并具备更低的功耗、更快的速度。虽然人们已经展示了各种图像处理超构表面,但大多数考虑的器件都是静态的,缺乏重构
    的头像 发表于 11-13 10:24 495次阅读
    基于相变材料的<b class='flag-5'>可</b><b class='flag-5'>重构</b>超构表面用于图像<b class='flag-5'>处理</b>

    共模电感漆包线越电流越大吗

    电子发烧友网站提供《共模电感漆包线越电流越大吗.docx》资料免费下载
    发表于 09-04 11:49 0次下载

    高速信号处理板卡设计原理图:519-基于ZU19EG的4路100G光纤的PCIe 雷达信号处理

    XCZU19EG板卡 , XCZU19EG存储阵列 , 高速信号处理 , 智能加速计算卡
    的头像 发表于 06-19 10:48 510次阅读
    高速信号<b class='flag-5'>处理</b>板卡设计原理图:519-基于ZU19EG的4路100G光纤的PCIe 雷达信号<b class='flag-5'>处理</b>卡

    麦格纳为中国本土汽车制造商提供重构座椅系统

    在过去的逾65年时间里,麦格纳始终致力于重新定义驾乘体验和车辆设计概念。如今,麦格纳再一次颠覆传统座舱设计,为一家中国本土汽车制造商提供重构座椅系统,这也是麦格纳全球的首个重构座椅
    的头像 发表于 06-18 17:13 1919次阅读

    重构柔性装配产线:AI边缘控制技术的崭新探索

    在信息化和智能化浪潮的推动下,制造业正面临着前所未有的转型升级挑战。其中,重构柔性装配产线以其独特的AI边缘控制技术,为制造业的智能化转型提供了新的解决方案。
    的头像 发表于 04-30 16:11 499次阅读
    <b class='flag-5'>可</b><b class='flag-5'>重构</b>柔性装配产线:AI边缘控制技术的崭新探索

    重构柔性装配产线整体解决方案,智能化生产转型的引领者

    在当今数字化时代,智能制造已成为企业提升生产效率和降低成本的关键。而重构柔性装配产线基于富唯智能AI工业控制与决策平台打造,通过一台AI边缘控制器即可控制整个系统,实现跨品类产品的数控自动化
    的头像 发表于 04-29 16:29 1615次阅读
    <b class='flag-5'>可</b><b class='flag-5'>重构</b>柔性装配产线整体解决方案,智能化生产转型的引领者

    基于太空级Virtex FPGA建立高灵活性的扩展架构

    AIP架构的最新应用是猎户座载人太空船的视觉处理单元(VPU)。VPU可为处理影像算法提供重构的平台,有利于位姿估计、光学导航以及压缩/ 解压缩。
    发表于 03-21 11:41 415次阅读
    基于太空级Virtex FPGA建立高灵活性的<b class='flag-5'>可</b>扩展架构

    瑞萨发布下一代动态重构人工智能处理加速

    瑞萨最新发布的动态重构人工智能处理器(DRP-AI)加速器,在业界引起了广泛关注。这款加速器拥有卓越的10 TOPS/W高功率效率,相比传
    的头像 发表于 03-08 13:45 848次阅读

    Zeta电位纳米粒度仪的原理介绍

    Zeta电位纳米粒度仪是一种用于测量纳米材料电位和粒度分布的重要仪器。其原理基于电泳或电渗原理,通过测量纳米颗粒在电场作用下的移动行为,来获得其电位和粒度信息。
    的头像 发表于 03-06 10:51 2026次阅读

    宽带放大器在CMUT阵列的超声反射成像研究中的应用

      实验名称:CMUT阵列的超声反射成像研究   实验原理:超声断层成像技术是通过物体外检测到的超声数据对被测物进行内部结构重构的技术。超声CT技术最初借鉴了X-CT技术的相关理论及实现方法图像重建
    发表于 02-28 16:01

    什么是粒度分布?D10、D5O、D90又代表着什么意思?

    颗粒的大小称为“粒径(grain size)”,又称“粒度”或者“直径”。
    的头像 发表于 02-21 09:53 6943次阅读
    什么是<b class='flag-5'>粒度</b>分布?D10、D5O、D90又代表着什么意思?

    基于超表面天线阵列的射频前端与数字后端联合抗干扰方案

    本文提出一种基于超表面天线阵列的射频前端与数字后端联合抗干扰方案,利用超表面天线快速重构能力,对同一信号切换不同方向图接收,令单通道等效为多通道,提高阵列自由度。
    发表于 02-20 11:01 650次阅读
    基于超表面天线<b class='flag-5'>阵列</b>的射频前端与数字后端联合抗干扰方案