0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI新兴应用通过带可配置加速的片上系统器件来满足严格性能、效率需求

YCqV_FPGA_EETre 来源:YXQ 2019-08-06 16:07 次阅读

随着智能安全、机器人无人驾驶汽车等应用越来越依靠嵌入式人工智能技术来提高性能,交付全新的用户体验,传统计算平台上的推断引擎很难在有限的功耗、时延和物理尺寸限制下满足实际要求。推断引擎必须满足严格定义的推断精度,还受限于总线宽度,而且存储器难以为最佳速度、效率和芯片面积进行调整优化。我们需要灵活应变的计算平台来满足运行一流卷积神经网络 (CNN) 的嵌入式 AI 的要求。

放眼未来,适应于更多前沿神经网络的灵活性是我们的主要关注点。今天广受欢迎的 CNN 正加速被新型的先进架构所取代。然而,传统的 SoC 设计要使用当前的神经网络架构知识,从开发开始到未来部署通常需要大约三年时间。RNN 或 Capsule Network 等新型神经网络可能会让传统 SoC 变得低效,也难以提供保持竞争力所需的性能。

嵌入式 AI 要满足最终用户期望,特别是要跟上可预见的未来不断提升的需求,就必须采用更加灵活的自适应计算平台。我们可利用用户可配置的多核片上系统 (MPSoC) 器件,整合主应用处理器和可扩展的可编程逻辑结构,包含可配置的存储器架构和满足可变精度推断所需的信号处理技术,从而满足上述要求。

推断精度

在传统的 SoC 中,决定性能的特性如存储器架构和计算精确度等是固定的。最小值通常为 8 位,由核心 CPU 定义,不过就给定的算法而言最佳精度可能更低。MPSoC 支持可编程逻辑优化至晶体管层面,这就能根据需要让推断精度降低到 1 位。此外,这类器件还包含成千上万可配置的 DSP slice,能高效处理乘积累加 (MAC) 计算。

能自由优化推断精度,根据平方律提供刚好满足需求的计算效率,也就是说单位的运算用 1 位核心执行,相对于用 8 位核心完成相同计算而言,所需的逻辑仅为 1/64。此外,MPSoC 能让推断精度针对神经网络的每层做出不同优化,从而以最大的效率提供所需的性能。

存储器架构

除了通过改变推断精度来提高计算效率之外,配置可编程片上存储器的带宽和结构能进一步提高嵌入式 AI 的性能和效率。定制 MPSoC 相对于运行相同推断引擎的传统计算平台而言,片上存储器可能达到 4 倍多,存储器—接口带宽可能达到 6 倍。存储器的可配置性使得用户能减少瓶颈,并优化芯片资源的利用率。此外,典型的子系统只有有限的片上集成高速缓存,必须与片外存储设备频繁交互,这就会增加时延和功耗。在 MPSoC 中,大多数存储器交换都在片上进行,这就会大幅提高速度,而且相对于片外存储器交互而言功耗降低超过 99%。

芯片面积

解决方案的尺寸也越来越重要,特别就采用移动 AI 的无人机、机器人或无人/自动驾驶汽车而言尤其如此。MPSoC 的 FPGA 结构上实现的推断引擎可能仅占用传统 SoC 八分之一的芯片面积,这就能让开发人员在更小的器件中构建功能更强大的引擎。

此外,MPSoC 器件系列为设计人员提供了实现推断引擎的丰富选择,能支持最节能、成本效率最高、面积占用最小的方案,从而满足系统性能要求。一些通过汽车应用认证的部件具备硬件功能安全特性,达到业界标准的 ISO 26262 ASIL-C 安全规范,这对自动驾驶应用而言至关重要。比如赛灵思的 Automotive XA Zynq UltraScale+ 系列采用 64 位四核 ARM Cortex-A53 和双核 ARM Cortex-R5 处理系统以及可扩展的可编程逻辑结构,这就能在单个芯片上整合控制处理、机器学习算法和安全电路,同时提供故障容错功能。

今天,嵌入式推断引擎可用单个 MPSoC 器件实现,功耗低至 2 瓦,这对移动机器人或自动驾驶汽车而言都是比较合适的功耗水平。传统计算平台即便现在也无法用这么低的功耗运行实时 CNN 应用,未来也不太可能在更严格的功耗限制条件下满足更快响应和更复杂功能的日益严格的要求。基于可编程 MPSoC 的平台能够提供更高的计算性能,更高的效率,也能在 15瓦以上的功率水平下减小面积和减轻重量。

如果开发人员不能在自己的项目中轻松地实现这些优势,那么这种可配置型多平行计算架构的优势就仅限于学术领域。成功需要适当的工具来帮助开发人员优化目标推断引擎的实现。为了满足有关需求,赛灵思不断扩展开发工具生态系统和机器学习软件堆栈,并与专业合作伙伴合作,一起简化和加速计算机视觉和视频监控等应用的实现。

面向未来的灵活性

利用 SoC 的可配置性为手头应用创建最佳平台,也使得 AI 开发人员能够灵活地跟上神经网络架构快速发展演进的要求。业界可能迁移到新型神经网络的可能性,对于平台开发人员来说是一个巨大的风险。可重配置的 MPSoC 通过重配置并用当前最先进的策略来构建最高效的处理引擎,能够让开发人员灵活地响应神经网络架构方式的变化。

AI 越来越多地嵌入到各种设备中,包括工业控制、医疗设备、安全系统、机器人和自动驾驶汽车等。利用可编程逻辑结构的 MPSoC 器件的灵活应变加速技术,是提供保持竞争力所需的快速响应和高级功能的关键。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 赛灵思
    +关注

    关注

    32

    文章

    1794

    浏览量

    131144
  • AI
    AI
    +关注

    关注

    87

    文章

    29928

    浏览量

    268242

原文标题:灵活应变的加速是将人工智能从云端带到边缘的关键

文章出处:【微信号:FPGA-EETrend,微信公众号:FPGA开发圈】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    66AK2Hx系统(SoC)器件系列的功耗摘要

    电子发烧友网站提供《66AK2Hx系统(SoC)器件系列的功耗摘要.pdf》资料免费下载
    发表于 10-10 09:11 0次下载
    66AK2Hx<b class='flag-5'>片</b><b class='flag-5'>上</b><b class='flag-5'>系统</b>(SoC)<b class='flag-5'>器件</b>系列的功耗摘要

    严格性能测试确保连接器可满足复杂环境的应用需求

    严苛环境下,连接器的使用安全性正面临严峻挑战。严格性能测试可确保连接器能满足客户的多种应用环境需求。 耐电压测试:当设备出现短时过载时,耐电压性能
    的头像 发表于 07-23 08:48 184次阅读

    FPGA基础知识学习

    、导航系统等。这些系统对实时性和可靠性要求极高,FPGA能够满足这些需求。 人工智能和深度学习 :FPGA可以用于加速深度学习算法的计算和训
    发表于 04-29 23:26

    risc-v多核芯片在AI方面的应用

    在极低的能耗下实现高效的AI器件的运行。这对于需要长时间运行和依赖电池供电的AI设备来说尤为重要。 其次,RISC-V的模块化架构允许其不同部分以模块化的方式串在一起,从而满足各种不
    发表于 04-28 09:20

    系统代表芯片吗

    系统并不直接等同于芯片。系统(SoC)是一种集成电路(IC)的设计方案,它将多个功能模块
    的头像 发表于 03-28 15:07 628次阅读

    什么是可编程系统?PSOC和FPGA的区别

    可编程系统(PSoC)是一种高度集成化和灵活性的嵌入式系统解决方案。它将数字逻辑、模拟电路和可配置模块等功能融合在一起,形成一个单一的集
    的头像 发表于 03-28 14:59 1513次阅读

    可编程系统是什么

    可编程系统(Programmable System-on-Chip,PSoC)是一种特殊的嵌入式系统,它集成了数字逻辑、模拟电路和可配置
    的头像 发表于 03-28 14:55 579次阅读

    系统的组成

    系统,也被称为SoC(System on a Chip),是一种集成度极高的芯片产品。它将原本分散于多个芯片的处理器、存储器、接口、控制器等组件集成到一个单独的芯片
    的头像 发表于 03-28 14:26 431次阅读

    系统是什么意思

    系统(SoC,System on Chip)是一种高度集成化的产品,它将传统的微处理器、微控制器和可编程逻辑器件等功能融合到一个芯片中,并通过
    的头像 发表于 03-28 14:25 1519次阅读

    Hitek Systems开发基于PCIe的高性能加速器以满足行业需求

    Hitek Systems 使用开放式 FPGA 堆栈 (OFS) 和 Agilex 7 FPGA,以开发基于最新 PCIe 的高性能加速器 (HiPrAcc),旨在满足网络、计算和高容量存储应用的
    的头像 发表于 03-22 14:02 549次阅读
    Hitek Systems开发基于PCIe的高<b class='flag-5'>性能</b><b class='flag-5'>加速</b>器以<b class='flag-5'>满足</b>行业<b class='flag-5'>需求</b>

    TPS650864可配置多轨PMU适用于多核处理器、FPGA和系统的TPS650861可配置多轨PMU数据表

    电子发烧友网站提供《TPS650864可配置多轨PMU适用于多核处理器、FPGA和系统的TPS650861可配置多轨PMU数据表.pdf》资料免费下载
    发表于 03-07 09:06 0次下载
    TPS650864<b class='flag-5'>可配置</b>多轨PMU适用于多核处理器、FPGA和<b class='flag-5'>系统</b>的TPS650861<b class='flag-5'>可配置</b>多轨PMU数据表

    台积电大幅上调SoIC产能规划,以满足未来AI、HPC的强劲需求

    近日,据消息人士透露,台积电已大幅上调其SoIC(系统整合单芯片)产能规划。到2024年底,月产能将从2023年底的约2000跳增至5000~6000,而原先预计今年将扩充至3000~4000
    的头像 发表于 01-22 15:57 631次阅读

    满足特殊要求的定制化载设计

    涌现出的新型半导体材料,对载的设计和工艺制造也提出了更高的要求。普通的矩形口袋的设计已经无法满足现有的芯片承载和保护需求,我们需要设计并开发出更多满足客户
    的头像 发表于 12-12 17:09 478次阅读
    <b class='flag-5'>满足</b>特殊要求的定制化载<b class='flag-5'>带</b>设计

    带有快速体二极管的MOSFET器件通过LLC拓扑和FREDFET提高效率

    带有快速体二极管的MOSFET器件通过LLC拓扑和FREDFET提高效率
    的头像 发表于 12-08 17:35 652次阅读
    带有快速体二极管的MOSFET<b class='flag-5'>器件</b><b class='flag-5'>通过</b>LLC拓扑和FREDFET<b class='flag-5'>来</b>提高<b class='flag-5'>效率</b>

    瞬变对AI加速卡供电的影响

    图形处理单元(GPU)、张量处理单元(TPU)和其他类型的专用集成电路(ASIC)通过提供并行处理能力实现高性能计算,以满足加速人工智能(
    的头像 发表于 12-01 18:10 379次阅读
    瞬变对<b class='flag-5'>AI</b><b class='flag-5'>加速</b>卡供电的影响