0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

低功耗下,高能效AI加速器如何设计?

新思科技 来源:新思科技 2023-10-26 09:18 次阅读

如果在数据中心和边缘设备中部署上人工智能AI)加速器,那么它们将能够快速处理PB级的数据量,还能帮助克服传统的冯·诺依曼瓶颈。在Chat GPT、高级驾驶辅助系统(ADAS)、摄像头和传感器等智能边缘设备中,我们都能看到AI加速器的身影。

半导体领域,实现出色的性能功耗比永远都是首要目标。AI加速器的能效比通用系统的能效通常会高出100倍甚至1000倍,但生成出色AI模型所需的算力资源每3.4个月就会翻一番。AI产生的能耗不容小觑,以GPT3为例,仅训练这一个深度学习模型所产生的二氧化碳就高达500吨,相当于一辆普通燃油车行驶100多万英里。

降低能耗不仅能够尽量减少对环境的影响,还能降低运营成本,并在有限的功耗预算内尽可能地提高性能,缓解热挑战。

本文将进一步讨论开发者们如何利用端到端功耗分析解决方案,打造新一代更高效节能的AI加速器。

为十亿门级以上设计优化功耗

AI加速器的端到端节能方法必须从设计流程的初始阶段开始,涵盖架构和微架构层面,并一直延续到签核阶段。因此,AI芯片开发者需要利用架构探索平台,对具体训练或推理应用的功耗、性能和面积(PPA)进行权衡分析和评估,并主动识别后续分析的关键矢量。

由于AI硬件通常包括多个由数千个处理单元组成的大型阵列,因此十亿门级以上设计需要进行多域软硬件功耗验证,尽可能降低能耗和漏电。然而,要想分析关键功耗模块和时间窗口,需要先进的硬件加速系统,以便运行数十亿个循环并快速精确地实现多次迭代。只有在完成这一步后,寄存器传输级(RTL)功耗分析和物理实现工具才能有效地优化动态(晶体管门开关)功耗和静态(漏电)功耗。

为了始终提供准确的结果,用于AI芯片设计的RTL功耗分析工具应具备以下功能:

时序驱动型快速综合:内部功耗计算错误通常是基于扇出的快速综合工具未能根据时序约束正确地确定单元大小。同后续的布局布线工具相同,RTL功耗分析工具中嵌入的快速综合功能必须由时序驱动。

物理感知型快速综合:RTL功耗分析工具应该具备“物理感知”能力,能够通过完成一次设计单元摆放以及全局布线就可以获得准确的连线电容值。与基于扇出的方法不同,基于物理感知的电容估算能够为每条连线提供唯一的准确值。

签核质量的功耗计算引擎:传统的RTL功耗分析工具使用word-level逻辑推理进行快速综合,这种方法只能采用启发式算法来计算毛刺功耗,因此并不准确。要准确计算毛刺功耗(可能高达芯片总功耗的40%)并减少高度重复的处理单元,RTL功耗分析工具必须具备签核质量功耗分析引擎、网表级设计表示并集成时序计算引擎。

在完成RTL功耗分析和优化后,便可使用物理实现(综合和布局布线)工具来进一步优化PPA。为确保可靠性、可扩展性以及良好的用户体验,这些实现工具应包含统一的集成式数据模型架构、交错式引擎和统一的命令界面。同样重要的是,实现工具应能对先进节点效应和毛刺功耗进行精确建模,从而加速工程变更命令(ECO)和最终设计收敛。

出色的能效与性能

新思科技提供全面的端到端功耗解决方案,帮助AI芯片开发者以经济高效的方式达成或超越充满挑战性的性能和能效目标,同时缩短产品上市时间。新思科技的Platform Architect用于设计流程的初始阶段,能够为AI芯片开发者提供SystemC事务级建模(TLM)工具和高效方法,帮助开发者快速地对复杂的芯片架构进行建模、分析和优化。新思科技ZeBu Empower是一款快速的功耗分析工具,用于AI芯片设计流程的下一阶段:基于数亿个循环来分析和调试软件实际工作负载下的能耗。

许多业内领先的半导体公司借助新思科技ZeBu Empower大幅降低了功耗,其中包括美国硅谷的AI芯片初创公司SiMa.ai,该公司致力于为智能边缘设计高性能、低能耗的AI芯片。具体而言,该公司的SiMa.ai低功耗MLSoC实现了每瓦特帧率(FPS)提升2.5倍的成果。在2023年硅谷SNUG大会上,SiMa.ai公司的芯片开发总监Sounil Biswas指出,流片后验证结果表明,新思科技ZeBu Empower给出的数据与电路板的测量结果之间具有出色的相关性。

为了补充ZeBu Empower并助力实现低功耗RTL设计,新思科技提供了PrimePower RTL,这是一款RTL功耗分析与优化工具,通过将时序驱动型综合、物理感知型综合与集成式计算引擎相结合,可以持续获得准确的结果(与布线后实现的结果相比误差在+/- 15%以内)。新思科技PrimePower RTL还提供分步指导,帮助AI芯片开发者进一步减少毛刺并降低总功耗。

新思科技的Fusion Compiler是一款综合的集成式RTL-to-GDSII实现系统,可帮助实现进一步的PPA优化。在这之后,可以使用新思科技的黄金功耗签核解决方案PrimePower对AI设计进行分析。新思科技的PrimePower通过了全球多家领先代工厂的认证,3nm工艺能够在签核时实现高精度,同SPICE的芯片测量的误差极小。

为边缘AI推理设计差异化芯片

AI加速器使许多热门应用能够在几毫秒内快速分析海量信息并准确推断结果。与此同时,实现出色的性能功耗比依然是芯片开发者的首要目标。这一点在边缘领域尤为明显,在该领域,为了缩小芯片尺寸并尽可能地降低功耗,性能通常会受到限制。

然而,这些限制也为半导体公司创造了新的机遇,让半导体公司可以通过精确校准PPA来满足低延迟、高带宽应用的特定要求,从而设计出差异化芯片。例如,自主导航应用要求计算响应延迟时间限制在20μs以内,而语音和视频助手则要求能够在10μs之内理解语音关键词,并在几百毫秒内理解手势含义。要想成功实现PPA权衡,芯片开发者应该采用整体性方法,利用端到端解决方案,从早期架构探索到最后的黄金功耗签核,持续优化功耗。








审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 加速器
    +关注

    关注

    2

    文章

    795

    浏览量

    37741
  • 晶体管
    +关注

    关注

    77

    文章

    9629

    浏览量

    137808
  • 人工智能
    +关注

    关注

    1791

    文章

    46820

    浏览量

    237460
  • RTL
    RTL
    +关注

    关注

    1

    文章

    385

    浏览量

    59692
  • AI芯片
    +关注

    关注

    17

    文章

    1859

    浏览量

    34900

原文标题:边缘端也要跑大模型:低功耗下,高能效AI加速器如何设计?

文章出处:【微信号:Synopsys_CN,微信公众号:新思科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    IBM与AMD携手部署MI300X加速器,强化AI与HPC能力

    举措预计将于2025年上半年正式推出。 此次合作的核心目标是提升通用人工智能(AI)模型的性能与能,并为企业客户提供高性能计算(HPC)应用的强大支持。AMD的Instinct MI300X加速器凭借其
    的头像 发表于 11-21 11:07 99次阅读

    IBM将在云平台部署AMD加速器

    IBM与AMD近期宣布了一项重要合作协议,根据协议,IBM将在其云平台上部署AMD Instinct MI300X加速器。这一举措旨在提升企业客户在生成式AI模型方面的性能和能,进一步推动A
    的头像 发表于 11-19 16:24 105次阅读

    瑞萨电子推出新一代高能AI加速器DRP-AI3

    必须兼顾高效能与低能耗,确保在执行复杂计算任务的同时,保持低功耗并有效控制发热,以保障设备的稳定运行,延长设备使用寿命。
    的头像 发表于 10-11 11:47 356次阅读

    什么是神经网络加速器?它有哪些特点?

    )和图形处理(GPU)虽然可以处理神经网络计算,但在能比和计算密度上往往难以满足特定应用场景的需求。因此,神经网络加速器应运而生,它通过优化硬件架构和算法实现,针对神经网络计算的特点进行定制化设计,以达到更高的计算效率和更低
    的头像 发表于 07-11 10:40 415次阅读

    美国限制向中东AI加速器出口,审查国家安全

    AI加速器能协助数据中心处理大量人工智能聊天机器人和其他工具的开发信息。如今,它们已然成为构建AI基础设施的企业和政府的必需品。
    的头像 发表于 05-31 09:20 525次阅读

    芯品#MAX78002 新型AI MCU,能够使神经网络以超低功耗运行

    人工智能(AI)需要超强的计算能力,而Maxim则大大降低了AI计算所需的功耗。MAX78002是一款新型的AI微控制,使神经网络能够在互
    的头像 发表于 05-07 17:47 7345次阅读
    芯品#MAX78002 新型<b class='flag-5'>AI</b> MCU,能够使神经网络以超<b class='flag-5'>低功耗</b>运行

    MCX N系列微处理之NPU使用方法简析

    MCX N系列是高性能、低功耗微控制,配备智能外设和加速器,可提供多任务功能和高能
    的头像 发表于 04-18 10:32 1748次阅读
    MCX N系列微处理<b class='flag-5'>器</b>之NPU使用方法简析

    MCX N微处理SmartDMA对图像数据的定制处理实现

    MCX N系列是高性能、低功耗微控制,配备智能外设和加速器,可提供多任务功能和高能
    的头像 发表于 03-28 11:42 1192次阅读
    MCX N微处理<b class='flag-5'>器</b>SmartDMA对图像数据的定制处理实现

    瑞萨发布下一代动态可重构人工智能处理加速器

    瑞萨最新发布的动态可重构人工智能处理(DRP-AI加速器,在业界引起了广泛关注。这款加速器拥有卓越的10 TOPS/W高功率效率,相比传统技术,效率提升了惊人的10倍。其独特之处在
    的头像 发表于 03-08 13:45 715次阅读

    家居智能化,推动AI加速器的发展

    电子发烧友网报道(文/黄山明)AI加速芯片,也称为人工智能加速器AI Accelerator),是一种专为执行机器学习和深度学习任务而设计的ASIC或定制化处理
    的头像 发表于 02-23 00:18 4531次阅读

    回旋加速器原理 回旋加速器的影响因素

    回旋加速器(Cyclotron)是一种用于加速带电粒子的可再生粒子加速器。它的工作原理基于带电粒子在恒定强磁场中的运动。本文将详细介绍回旋加速器的原理以及影响因素。 一、回旋
    的头像 发表于 01-30 10:02 3544次阅读

    粒子加速器加速原理是啥呢?

    高能量的目的。 粒子加速器加速原理可以分为两个主要部分:电场加速和磁场导引。 一、电场加速 粒子加速器
    的头像 发表于 12-18 13:52 1969次阅读

    ADI超低功耗人工智能(AI)MCU MAX78002介绍

    、更快的CNN加速器,更高的模型维度。本视频将介绍边缘AI的概念、ADI边缘AI低功耗微处理的架构、以及MAX78002的主要参数。
    的头像 发表于 12-15 12:36 1217次阅读

    在CCES环境如何使用21489的IIR加速器

    在VDSP++的环境程序已经实现,但是到了CCES,把中断初始化函数修改了,还是无法正确配置中断,直接返回IIR的中断初始化失败,请问CCES怎么使用IIR加速器
    发表于 11-30 08:20

    21489的IIR加速器滤波参数设置如何对应加速器的滤波参数?

    目前在用21489内部的IIR加速器去做一个低通滤波,在例程的基础上修改参数。通过平板的fda 工具工具去设计参数,但是设计出来的参数不知道如何对应加速器的滤波参数,手册里也看得不是很明白。 设计的参数如下: 请问
    发表于 11-30 08:11