0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用粗粒度可重构阵列加速处理

星星科技指导员 来源:嵌入式计算设计 作者:Monique DeVoe 2022-06-14 10:05 次阅读

随着性能需求的增加和对低功耗设计的推动,需要更有效的方法来执行处理任务,因为由于功率限制,将更多处理器投入性能问题不再可行。加速器旨在以更快的速度和更低的功耗进行计算,但今天的加速器在功耗和性能方面存在缺陷。

加速器阵容

亚利桑那州立大学计算、信息学和决策系统工程学院副教授 Aviral Shrivastava 正在对可编程加速器进行研究,以增强当今的加速技术。Shrivastava 列出了当今使用的三种常见类型的加速器:硬件加速器、FPGAGPU。硬件加速器将特定的计算元素专用于处理计算,而不是在 CPU 上运行它们。它们速度快、功耗低,但不适合当今快速变化的技术迭代,因为它们不可编程。FPGA 是可编程的——开发人员可以在其上编写任何逻辑并且它们可以充当加速器——但 Shrivastava 说它们通常过于通用并且消耗太多功率。GPU 是当今流行的加速器,

粗粒度可重构阵列

Shrivastava 正在开发粗粒可重构阵列 (CGRA),它可以加速非并行循环,并在 GPU 的并行循环优势之上实现更多加速功能。CGRA 由一个由算术逻辑单元 (ALU) 和寄存器组成的二维网格组成,这些单元接收输入和指令,计算指令的算术或逻辑运算,并将输出发送给它的四个邻居以计算下一个步骤(图 1)。

图 1:粗粒度可重构阵列。

pYYBAGKn7RuAfDpEAATcUI-H07s228.png

CGRA 的潜力来自于他们能够在消耗很少的电力的情况下执行操作。在常规处理器中执行加法运算需要很大的功率:它必须经过 20 多个流水线阶段。在 CGRA 中,只需要从邻居那里获取操作数并执行加法运算。CGRA 可以通过流水线加速——循环的操作被布置在 CGRA 的 PE 上,数据在它们之间流动。

CGRA 本身并不新鲜,但开发人员对现有的 CGRA 进行编程以仅执行一种类型的计算。Shrivastava 说,挑战在于映射,因为循环内核需要映射到 CGRA,操作映射到节点,数据依赖关系映射到 CGRA 的路径。Shrivastava 的目标是消除耗时的手动编码,并使任何类型的循环或计算能够通过编译器映射到 CGRA,这是一种相对较新的方法。他正在开发一个生成映射代码的编译器工具链。

Shrivastava 说 CGRA 的研究引起了 IBM 的兴趣,IBM 希望将这种方法应用于并行循环轻型服务器应用程序。用于科学研究和多媒体扩展的图形和高性能计算也可以从使用 CGRA 中获益。

解决分支分歧问题

所有现有加速技术面临的一个挑战是“分支分歧”。当执行具有“if-then-else”结构的循环时,加速器分配资源以执行来自分支的两条路径(真路径和假路径)的指令,然后丢弃假路径指令的影响。FPGA 将两个路径的功能映射到计算资源上,GPU 执行来自两个分支路径的指令并丢弃错误路径指令的结果。加速器必须这样做,因为在分配分支路径资源时,分支的结果在编译时是未知的(分支的结果是在运行时计算的,当执行分支时)。这种冗余执行会导致分支花费双倍的性能时间和执行能力。

Shrivastava 和他的团队提出了通过智能硬件-软件协同设计解决分支分歧问题的方法。不是为真路径分配一些PE,而为假路径分配一些PE,而是分配相同的PE来执行来自两条路径的指令。来自真路径和来自假路径的指令都发给PE。在运行时,PE 只选择正确的一个来执行。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    19083

    浏览量

    228729
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4667

    浏览量

    128544
  • 编译器
    +关注

    关注

    1

    文章

    1615

    浏览量

    49007
收藏 人收藏

    评论

    相关推荐

    共模电感漆包线越电流越大吗

    电子发烧友网站提供《共模电感漆包线越电流越大吗.docx》资料免费下载
    发表于 09-04 11:49 0次下载

    高速信号处理板卡设计原理图:519-基于ZU19EG的4路100G光纤的PCIe 雷达信号处理

    XCZU19EG板卡 , XCZU19EG存储阵列 , 高速信号处理 , 智能加速计算卡
    的头像 发表于 06-19 10:48 354次阅读
    高速信号<b class='flag-5'>处理</b>板卡设计原理图:519-基于ZU19EG的4路100G光纤的PCIe 雷达信号<b class='flag-5'>处理</b>卡

    麦格纳为中国本土汽车制造商提供重构座椅系统

    在过去的逾65年时间里,麦格纳始终致力于重新定义驾乘体验和车辆设计概念。如今,麦格纳再一次颠覆传统座舱设计,为一家中国本土汽车制造商提供重构座椅系统,这也是麦格纳全球的首个重构座椅
    的头像 发表于 06-18 17:13 1792次阅读

    重构柔性装配产线:AI边缘控制技术的崭新探索

    在信息化和智能化浪潮的推动下,制造业正面临着前所未有的转型升级挑战。其中,重构柔性装配产线以其独特的AI边缘控制技术,为制造业的智能化转型提供了新的解决方案。
    的头像 发表于 04-30 16:11 345次阅读
    <b class='flag-5'>可</b><b class='flag-5'>重构</b>柔性装配产线:AI边缘控制技术的崭新探索

    基于太空级Virtex FPGA建立高灵活性的扩展架构

    AIP架构的最新应用是猎户座载人太空船的视觉处理单元(VPU)。VPU可为处理影像算法提供重构的平台,有利于位姿估计、光学导航以及压缩/ 解压缩。
    发表于 03-21 11:41 306次阅读
    基于太空级Virtex FPGA建立高灵活性的<b class='flag-5'>可</b>扩展架构

    瑞萨发布下一代动态重构人工智能处理加速

    瑞萨最新发布的动态重构人工智能处理器(DRP-AI)加速器,在业界引起了广泛关注。这款加速器拥有卓越的10 TOPS/W高功率效率,相比传
    的头像 发表于 03-08 13:45 682次阅读

    Zeta电位纳米粒度仪的原理介绍

    Zeta电位纳米粒度仪是一种用于测量纳米材料电位和粒度分布的重要仪器。其原理基于电泳或电渗原理,通过测量纳米颗粒在电场作用下的移动行为,来获得其电位和粒度信息。
    的头像 发表于 03-06 10:51 1570次阅读

    基于超表面天线阵列的射频前端与数字后端联合抗干扰方案

    本文提出一种基于超表面天线阵列的射频前端与数字后端联合抗干扰方案,利用超表面天线快速重构能力,对同一信号切换不同方向图接收,令单通道等效为多通道,提高阵列自由度。
    发表于 02-20 11:01 441次阅读
    基于超表面天线<b class='flag-5'>阵列</b>的射频前端与数字后端联合抗干扰方案

    ICLR 2024 清华/新国大/澳门大学提出一模通吃的多粒度图文组合检索MUG:通过不确定性建模,两行代码完成部署

    如上图所示,不再采用严格的一对一匹配,而是促使模型专注于一对多匹配,即从细粒度过渡到粒度。因此,首先引入了一个用于噪声增强的Augmenter来生成抖动,这个模块直接作用于最终的特征空间。
    的头像 发表于 01-25 16:53 545次阅读
    ICLR 2024 清华/新国大/澳门大学提出一模通吃的多<b class='flag-5'>粒度</b>图文组合检索MUG:通过不确定性建模,两行代码完成部署

    英特尔专家为您揭秘第五代英特尔® 至强® 扩展处理器如何为AI加速

    近日,英特尔发布了第五代至强 扩展处理器,尤其是其“为 AI 加速”的口号引起了广泛关注。 在 AI 快速发展的今天,第五代英特尔 至强 扩展
    的头像 发表于 12-23 12:20 691次阅读

    阵列型光场相机实现图像遮挡物移除实验研究

    本文首先利用数字重聚焦技术,根据遮挡物与目标物体深度上的不同选择合适的深度重聚焦,突出目标物体细节信息。根据子图像阵列与相机阵列的位置关系,利用几何特征连续迭代选择效果最佳的倾斜因子,得到重构图像。
    发表于 12-19 13:55 373次阅读
    <b class='flag-5'>阵列</b>型光场相机实现图像遮挡物移除实验研究

    一种重构的莫尔相干纳米激光阵列

    ,展示了纳米激光能够以“P”“K”“U”和“中”“国”等图形生成重构阵列化相干激射。研究成果以《相位同步重构莫尔纳米激光
    的头像 发表于 12-16 11:42 587次阅读
    一种<b class='flag-5'>可</b><b class='flag-5'>重构</b>的莫尔相干纳米激光<b class='flag-5'>阵列</b>

    量产二维扩瞳阵列光波导技术将加速推进XR产业普及分享

    11月15日艾邦在上海举办了第四届AR/VR产业链论坛。灵犀微光VP储洁出席了本次活动,并以《量产二维扩瞳阵列光波导技术将加速推进XR产业普及》为题进行了分享。
    的头像 发表于 11-25 09:29 781次阅读
    <b class='flag-5'>可</b>量产二维扩瞳<b class='flag-5'>阵列</b>光波导技术将<b class='flag-5'>加速</b>推进XR产业普及分享

    fpga是什么?看完你就明白了

    的可编程性使得硬件设计变得更加灵活和定制,缩短了设计周期,提高了设计效率;其次,FPGA的重构性使得硬件系统可以随时进行升级和优化,无需更换硬件设备;此外,FPGA的并行处理能力和
    发表于 11-13 15:43

    基于全息控制理论的低剖面双极化双波束扫描天线阵列

    巧妙设计辐射单元,以通过控制集成在每个单元上的PIN二极管的状态实现重构极化和辐射相位调制。将一个72通道的串并联等幅同相馈电网络与辐射阵列集成,实现阵列的低剖面特性。
    发表于 11-13 09:49 404次阅读
    基于全息控制理论的低剖面双极化双波束扫描天线<b class='flag-5'>阵列</b>