0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

用于有效使用TinyML的随机计算架构

星星科技指导员 来源:嵌入式计算设计 作者:Abhishek Jadhav 2022-07-11 09:20 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

神经网络是一种流行的机器学习模型,但它们需要更高的能耗和更复杂的硬件设计。随机计算是平衡硬件效率和计算性能之间权衡的一种有效方式。然而,由于算术单元的低数据精度和不准确性,随机计算见证了 ML 工作负载的低准确性。

为了解决与传统随机计算方法相关的问题,并通过更高的精度和更低的功耗来提高性能,正在进行的研究提出了一种改进的基于块的随机计算架构。通过在输入层中引入块,可以通过利用高数据并行性来减少延迟。更重要的是确定全局优化方法所需要的块数。

现有的方法包括增加比特流的长度以提高数据精度,甚至使用指数比特来获得准确的结果。然而,这引入了较长的计算延迟,这对于 TinyML 应用程序来说是不合理的。因此,为了应对这种不断上升的计算延迟,比特流被分成块然后并行执行。结合块内算术单元和输出修正 (OUR) 方案可缓解块间不准确问题,从而提供高计算效率。

基于块的随机计算架构

研究提供了一种新颖的架构,其中输入被划分为块并使用优化的块内算术单元并行执行乘法和加法。此外,在 TinyML 应用程序的延迟-功耗权衡方面,所提出的模型是一个出色的架构。

架构划分如下:

块划分

如上图所示,输入比特流被划分为“k”个值块。所提出的想法是,为比特流选择大量块并不能保证是最佳的,但可以用于接近近似值。如果在选择块数时出现错误,这可能会自相矛盾地导致大错误。在确定来自输入比特流的正和负部分的两个平均值的概率方面存在复杂的计算。

块内计算

缓解了传统加法器面临的OR加法器相关问题和分离加法器溢出问题。新修改的架构设计在输入之间带有 XNOR+AND 门,以消除双极计算的相关性。

每个输入位都在并行计数器 (PC) 中获取,对于正负部分 (Ap, An) 分别进行处理。有两个专用累加器用于处理有符号位。取输入位后,累加器之间发生减法,如正负部分所示。目标是获得所有输入的累积 1 的数量。进一步地,比较取时间输出(Sop,Son)中的一位,在多个“n”个循环之后,计算符号位,并根据符号位Ap和An,选择Sop和Son的输出结果。

这种新的基于累加器的符号幅度格式加法器利用 unNSADD 加法器来比较输出和输入中的实际累加 1 以确定输出位。这种方法消除了相关性和快速溢出问题的影响。

块间​​输出修正方案

尽管块内加法器解决了相关性和溢出问题,但块划分引入了新的块间不准确错误。乘法器不会发生这种情况,因为输入是 XNORed 和 ANDed。但是对于加法器,输出中 1 的数量可能会偏离所产生的不准确性。输出修订方案在并行块内计算阶段之后添加或删除 1s,而不会引入任何额外的延迟来解决这些块间不准确错误。

新颖的基于块的随机计算架构旨在提高随机计算运算电路的精度,同时降低计算延迟和能源效率。根据研究结果,该方法比现有方法的准确度提高了 10% 以上,并节省了 6 倍以上的功率。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4842

    浏览量

    108166
  • 机器学习
    +关注

    关注

    67

    文章

    8564

    浏览量

    137217
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    下一代汽车中现代计算架构的性能组件和保护

    随着现代汽车的不断发展,其电气和电子(EE)架构必须进行调整,以有效管理日益增长的电力需求。传统分布式和基于域的控制系统在复杂性、大量布线和通信瓶颈等问题上举步维艰。分区控制架构通过将电子控制单元(ECU)整合到局部区域、优化功
    的头像 发表于 03-13 09:04 9478次阅读
    下一代汽车中现代<b class='flag-5'>计算</b><b class='flag-5'>架构</b>的性能组件和保护

    如何在LTspice仿真中实现伪随机数和真随机数的生成

    本文讨论如何在LTspice仿真中利用flat()、gauss()和mc()函数来实现伪随机数和真随机数的生成,并介绍如何使用设置面板的Hacks部分中的 Use the clock
    的头像 发表于 01-09 14:08 4858次阅读
    如何在LTspice仿真中实现伪<b class='flag-5'>随机</b>数和真<b class='flag-5'>随机</b>数的生成

    深度解析 ARM 架构:从剑桥车库到未来计算

    架构的芯片。它早已不只是一个技术名词,而是成了我们数字生活的一部分。 很多人对ARM的印象还停留在“省电”、“用在手机上”。但你知道吗?它的技术触角已经伸向了超级计算机和数据中心。 今天,我们就来深度拆解一下ARM架构,聊聊它的
    的头像 发表于 01-05 07:09 548次阅读
    深度解析 ARM <b class='flag-5'>架构</b>:从剑桥车库到未来<b class='flag-5'>计算</b>

    双口SRAM静态随机存储器存储原理

    在各类存储设备中,SRAM(静态随机存储器)因其高速、低功耗和高可靠性,被广泛应用于高性能计算、通信和嵌入式系统中。其中,双口SRAM静态随机存储器凭借其独特的双端口设计,在高带宽和多
    的头像 发表于 11-25 14:28 777次阅读

    架构计算机系统能力核心课程教学研讨会圆满举行

    2025年11月8日,由教育部计算机类专业系统能力课程群虚拟教研室指导、北京航空航天大学计算机学院主办的龙架构计算机系统能力核心课程教学研讨会在京举行。
    的头像 发表于 11-14 13:52 779次阅读

    用于RISCV的F指令集实现的浮点计算单元(FPU)设计方案

    实现功能 为了完成F拓展,我们计划在ALU内添加一个专用于计算单精度浮点数的FPU单元。 2.1 实现riscv的F指令集拓展 即需要实现26条F指令: 以下部分指令返回地址是给整数寄存器,红色
    发表于 10-24 07:43

    随机数和伪随机数的区别

    随机数在当前程序运行环境中是一种常用参数,目前主要分为两种,伪随机数和真随机数,本期我们就来讲一下二者的区别。
    的头像 发表于 08-27 17:46 2883次阅读

    奕斯伟计算CTO何宁:新场景助力新架构实现突破!

    电子发烧友网报道(文/黄晶晶)RISC-V作为开源指令集架构以其简洁、开放、可定制等特性受到行业广泛关注,目前RISC-V芯片年出货量已达百亿级,并且还在持续高速增长。RISC-V跻身主流计算架构
    的头像 发表于 07-31 18:29 5863次阅读
    奕斯伟<b class='flag-5'>计算</b>CTO何宁:新场景助力新<b class='flag-5'>架构</b>实现突破!

    【PZ-ZU15EG-KFB】——ZYNQ UltraScale + 异构架构下的智能边缘计算标杆

    及747K逻辑单元FPGA,形成"通用计算+实时控制+定制加速"架构。产品具备8GB DDR4/64GB eMMC存储、8×16.3Gb/s高速接口,支持-40~85℃宽温工作,适用于机器视觉、工业控制、医疗
    的头像 发表于 07-22 09:47 1305次阅读
    【PZ-ZU15EG-KFB】——ZYNQ UltraScale + 异构<b class='flag-5'>架构</b>下的智能边缘<b class='flag-5'>计算</b>标杆

    知合计算:RISC-V架构创新,阿基米德系列剑指高性能计算

    在2025 RISC-V中国峰会上,知合计算处理器设计总监刘畅就高性能RISC-V处理器架构探索与实践进行了精彩分享。 在以X86和ARM为代表的处理器架构之下,RISC-V在高性能计算
    的头像 发表于 07-18 14:17 2977次阅读
    知合<b class='flag-5'>计算</b>:RISC-V<b class='flag-5'>架构</b>创新,阿基米德系列剑指高性能<b class='flag-5'>计算</b>

    异构计算解决方案(兼容不同硬件架构

    异构计算解决方案通过整合不同类型处理器(如CPU、GPU、NPU、FPGA等),实现硬件资源的高效协同与兼容,满足多样化计算需求。其核心技术与实践方案如下: 一、硬件架构设计 异构处理器组合‌ 主从
    的头像 发表于 06-23 07:40 1046次阅读

    如何释放异构计算的潜能?Imagination与Baya Systems的系统架构实践启示

    报告作者:PallaviSharma,Imaginaiton产品管理总监Dr.EricNorige,BayaSystems首席软件架构师关注Imagination公众号,消息框发送【异构计算】,即可
    的头像 发表于 06-13 08:33 1379次阅读
    如何释放异构<b class='flag-5'>计算</b>的潜能?Imagination与Baya Systems的系统<b class='flag-5'>架构</b>实践启示

    GPU架构深度解析

    GPU架构深度解析从图形处理到通用计算的进化之路图形处理单元(GPU),作为现代计算机中不可或缺的一部分,已经从最初的图形渲染专用处理器,发展成为强大的并行计算引擎,广泛应
    的头像 发表于 05-30 10:36 2020次阅读
    GPU<b class='flag-5'>架构</b>深度解析

    能效提升3倍!异构计算架构让AI跑得更快更省电

    电子发烧友网报道(文/李弯弯)异构计算架构通过集成多种不同类型的处理单元(如CPU、GPU、NPU、FPGA、DSP等),针对不同计算任务的特点进行分工协作,从而在性能、能效和灵活性之间实现最优平衡
    的头像 发表于 05-25 01:55 4274次阅读

    Arm架构何以成为现代计算的基础

    2025 年 4 月,Arm 架构迎来了问世 40 周年。这个始于英国剑桥一隅、怀揣雄心壮志的项目,如今已成为全球广泛采用的计算架构。从传感器、智能手机、笔记本电脑,到汽车、数据中心等诸多领域,有数十亿设备如今运行在 Arm
    的头像 发表于 05-20 10:02 1364次阅读