0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

低功耗下,高能效AI加速器如何设计?

新思科技 来源:新思科技 2023-10-26 09:18 次阅读

如果在数据中心和边缘设备中部署上人工智能AI)加速器,那么它们将能够快速处理PB级的数据量,还能帮助克服传统的冯·诺依曼瓶颈。在Chat GPT、高级驾驶辅助系统(ADAS)、摄像头和传感器等智能边缘设备中,我们都能看到AI加速器的身影。

半导体领域,实现出色的性能功耗比永远都是首要目标。AI加速器的能效比通用系统的能效通常会高出100倍甚至1000倍,但生成出色AI模型所需的算力资源每3.4个月就会翻一番。AI产生的能耗不容小觑,以GPT3为例,仅训练这一个深度学习模型所产生的二氧化碳就高达500吨,相当于一辆普通燃油车行驶100多万英里。

降低能耗不仅能够尽量减少对环境的影响,还能降低运营成本,并在有限的功耗预算内尽可能地提高性能,缓解热挑战。

本文将进一步讨论开发者们如何利用端到端功耗分析解决方案,打造新一代更高效节能的AI加速器。

为十亿门级以上设计优化功耗

AI加速器的端到端节能方法必须从设计流程的初始阶段开始,涵盖架构和微架构层面,并一直延续到签核阶段。因此,AI芯片开发者需要利用架构探索平台,对具体训练或推理应用的功耗、性能和面积(PPA)进行权衡分析和评估,并主动识别后续分析的关键矢量。

由于AI硬件通常包括多个由数千个处理单元组成的大型阵列,因此十亿门级以上设计需要进行多域软硬件功耗验证,尽可能降低能耗和漏电。然而,要想分析关键功耗模块和时间窗口,需要先进的硬件加速系统,以便运行数十亿个循环并快速精确地实现多次迭代。只有在完成这一步后,寄存器传输级(RTL)功耗分析和物理实现工具才能有效地优化动态(晶体管门开关)功耗和静态(漏电)功耗。

为了始终提供准确的结果,用于AI芯片设计的RTL功耗分析工具应具备以下功能:

时序驱动型快速综合:内部功耗计算错误通常是基于扇出的快速综合工具未能根据时序约束正确地确定单元大小。同后续的布局布线工具相同,RTL功耗分析工具中嵌入的快速综合功能必须由时序驱动。

物理感知型快速综合:RTL功耗分析工具应该具备“物理感知”能力,能够通过完成一次设计单元摆放以及全局布线就可以获得准确的连线电容值。与基于扇出的方法不同,基于物理感知的电容估算能够为每条连线提供唯一的准确值。

签核质量的功耗计算引擎:传统的RTL功耗分析工具使用word-level逻辑推理进行快速综合,这种方法只能采用启发式算法来计算毛刺功耗,因此并不准确。要准确计算毛刺功耗(可能高达芯片总功耗的40%)并减少高度重复的处理单元,RTL功耗分析工具必须具备签核质量功耗分析引擎、网表级设计表示并集成时序计算引擎。

在完成RTL功耗分析和优化后,便可使用物理实现(综合和布局布线)工具来进一步优化PPA。为确保可靠性、可扩展性以及良好的用户体验,这些实现工具应包含统一的集成式数据模型架构、交错式引擎和统一的命令界面。同样重要的是,实现工具应能对先进节点效应和毛刺功耗进行精确建模,从而加速工程变更命令(ECO)和最终设计收敛。

出色的能效与性能

新思科技提供全面的端到端功耗解决方案,帮助AI芯片开发者以经济高效的方式达成或超越充满挑战性的性能和能效目标,同时缩短产品上市时间。新思科技的Platform Architect用于设计流程的初始阶段,能够为AI芯片开发者提供SystemC事务级建模(TLM)工具和高效方法,帮助开发者快速地对复杂的芯片架构进行建模、分析和优化。新思科技ZeBu Empower是一款快速的功耗分析工具,用于AI芯片设计流程的下一阶段:基于数亿个循环来分析和调试软件实际工作负载下的能耗。

许多业内领先的半导体公司借助新思科技ZeBu Empower大幅降低了功耗,其中包括美国硅谷的AI芯片初创公司SiMa.ai,该公司致力于为智能边缘设计高性能、低能耗的AI芯片。具体而言,该公司的SiMa.ai低功耗MLSoC实现了每瓦特帧率(FPS)提升2.5倍的成果。在2023年硅谷SNUG大会上,SiMa.ai公司的芯片开发总监Sounil Biswas指出,流片后验证结果表明,新思科技ZeBu Empower给出的数据与电路板的测量结果之间具有出色的相关性。

为了补充ZeBu Empower并助力实现低功耗RTL设计,新思科技提供了PrimePower RTL,这是一款RTL功耗分析与优化工具,通过将时序驱动型综合、物理感知型综合与集成式计算引擎相结合,可以持续获得准确的结果(与布线后实现的结果相比误差在+/- 15%以内)。新思科技PrimePower RTL还提供分步指导,帮助AI芯片开发者进一步减少毛刺并降低总功耗。

新思科技的Fusion Compiler是一款综合的集成式RTL-to-GDSII实现系统,可帮助实现进一步的PPA优化。在这之后,可以使用新思科技的黄金功耗签核解决方案PrimePower对AI设计进行分析。新思科技的PrimePower通过了全球多家领先代工厂的认证,3nm工艺能够在签核时实现高精度,同SPICE的芯片测量的误差极小。

为边缘AI推理设计差异化芯片

AI加速器使许多热门应用能够在几毫秒内快速分析海量信息并准确推断结果。与此同时,实现出色的性能功耗比依然是芯片开发者的首要目标。这一点在边缘领域尤为明显,在该领域,为了缩小芯片尺寸并尽可能地降低功耗,性能通常会受到限制。

然而,这些限制也为半导体公司创造了新的机遇,让半导体公司可以通过精确校准PPA来满足低延迟、高带宽应用的特定要求,从而设计出差异化芯片。例如,自主导航应用要求计算响应延迟时间限制在20μs以内,而语音和视频助手则要求能够在10μs之内理解语音关键词,并在几百毫秒内理解手势含义。要想成功实现PPA权衡,芯片开发者应该采用整体性方法,利用端到端解决方案,从早期架构探索到最后的黄金功耗签核,持续优化功耗。








审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 加速器
    +关注

    关注

    2

    文章

    814

    浏览量

    38375
  • 晶体管
    +关注

    关注

    77

    文章

    9837

    浏览量

    139500
  • 人工智能
    +关注

    关注

    1800

    文章

    48083

    浏览量

    242163
  • RTL
    RTL
    +关注

    关注

    1

    文章

    386

    浏览量

    60171
  • AI芯片
    +关注

    关注

    17

    文章

    1926

    浏览量

    35406

原文标题:边缘端也要跑大模型:低功耗下,高能效AI加速器如何设计?

文章出处:【微信号:Synopsys_CN,微信公众号:新思科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    Arm 推出 Armv9 边缘 AI 计算平台,以超高能与先进 AI 能力赋能物联网革新

    架构的超高能 CPU——Arm Cortex-A320 以及对 Transformer 网络具有原生支持的 Ethos-U85 AI 加速器为核心的边缘
    的头像 发表于 03-06 11:43 592次阅读
    Arm 推出 Armv9 边缘 <b class='flag-5'>AI</b> 计算平台,以超<b class='flag-5'>高能</b><b class='flag-5'>效</b>与先进 <b class='flag-5'>AI</b> 能力赋能物联网革新

    当我问DeepSeek AI爆发时代的FPGA是否重要?答案是......

    ,这为AI的持续创新提供了有力支持。 6.数据中心与云计算加速 • 在云计算和数据中心中,FPGA被用作AI计算加速器,尤其是针对深度学习工作负载。例如,微软在其数据中心中使用FPGA
    发表于 02-19 13:55

    ADI 新型AI微控制 # MAX78000 数据手册和芯片介绍

    MAX78000是一款新型的AI微控制,使神经网络能够在互联网边缘端以超低功耗运行,将高能AI
    的头像 发表于 02-08 16:50 517次阅读
    ADI 新型<b class='flag-5'>AI</b>微控制<b class='flag-5'>器</b> # MAX78000 数据手册和芯片介绍

    从版本控制到全流程支持:揭秘Helix Core如何成为您的创意加速器

    加速器
    龙智DevSecOps
    发布于 :2024年11月26日 13:42:47

    IBM与AMD携手部署MI300X加速器,强化AI与HPC能力

    举措预计将于2025年上半年正式推出。 此次合作的核心目标是提升通用人工智能(AI)模型的性能与能,并为企业客户提供高性能计算(HPC)应用的强大支持。AMD的Instinct MI300X加速器凭借其
    的头像 发表于 11-21 11:07 365次阅读

    IBM将在云平台部署AMD加速器

    IBM与AMD近期宣布了一项重要合作协议,根据协议,IBM将在其云平台上部署AMD Instinct MI300X加速器。这一举措旨在提升企业客户在生成式AI模型方面的性能和能,进一步推动A
    的头像 发表于 11-19 16:24 329次阅读

    瑞萨电子推出新一代高能AI加速器DRP-AI3

    必须兼顾高效能与低能耗,确保在执行复杂计算任务的同时,保持低功耗并有效控制发热,以保障设备的稳定运行,延长设备使用寿命。
    的头像 发表于 10-11 11:47 541次阅读

    什么是神经网络加速器?它有哪些特点?

    )和图形处理(GPU)虽然可以处理神经网络计算,但在能比和计算密度上往往难以满足特定应用场景的需求。因此,神经网络加速器应运而生,它通过优化硬件架构和算法实现,针对神经网络计算的特点进行定制化设计,以达到更高的计算效率和更低
    的头像 发表于 07-11 10:40 661次阅读

    美国限制向中东AI加速器出口,审查国家安全

    AI加速器能协助数据中心处理大量人工智能聊天机器人和其他工具的开发信息。如今,它们已然成为构建AI基础设施的企业和政府的必需品。
    的头像 发表于 05-31 09:20 725次阅读

    芯品#MAX78002 新型AI MCU,能够使神经网络以超低功耗运行

    人工智能(AI)需要超强的计算能力,而Maxim则大大降低了AI计算所需的功耗。MAX78002是一款新型的AI微控制,使神经网络能够在互
    的头像 发表于 05-07 17:47 7521次阅读
    芯品#MAX78002 新型<b class='flag-5'>AI</b> MCU,能够使神经网络以超<b class='flag-5'>低功耗</b>运行

    构建强大、高能的i.MX 8ULP应用处理合作生态体系

    工程师们正在借助i.MX 8ULP应用处理应对这一挑战,在更紧凑的体积中实现更强大的功能,同时为下一代边缘设备提供了惊艳的能水平。恩智浦最新的超低功耗微处理现在可供嵌入式设计工
    的头像 发表于 04-24 16:35 2078次阅读
    构建强大、<b class='flag-5'>高能</b><b class='flag-5'>效</b>的i.MX 8ULP应用处理<b class='flag-5'>器</b>合作生态体系

    Arm发布新一代Ethos-U AI加速器 Arm旨在瞄准国产CPU市场

    Arm发布的新一代Ethos-U AI加速器确实在业界引起了广泛关注。
    的头像 发表于 04-18 15:59 885次阅读

    MCX N系列微处理之NPU使用方法简析

    MCX N系列是高性能、低功耗微控制,配备智能外设和加速器,可提供多任务功能和高能
    的头像 发表于 04-18 10:32 2247次阅读
    MCX N系列微处理<b class='flag-5'>器</b>之NPU使用方法简析

    Arm推动生成式AI落地边缘!全新Ethos-U85 AI加速器支持Transformer 架构,性能提升四倍

    电子发烧友网报道(文/黄晶晶)在嵌入式领域,边缘与端侧AI推理需求不断增长,Arm既有Helium 技术使 CPU 能够执行更多计算密集型的 AI 推理算法,也有Ethos 系列 AI 加速器
    的头像 发表于 04-16 09:10 4846次阅读
    Arm推动生成式<b class='flag-5'>AI</b>落地边缘!全新Ethos-U85 <b class='flag-5'>AI</b><b class='flag-5'>加速器</b>支持Transformer 架构,性能提升四倍

    MCX N微处理SmartDMA对图像数据的定制处理实现

    MCX N系列是高性能、低功耗微控制,配备智能外设和加速器,可提供多任务功能和高能
    的头像 发表于 03-28 11:42 1332次阅读
    MCX N微处理<b class='flag-5'>器</b>SmartDMA对图像数据的定制处理实现