0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何解决AI处理器的效率问题和算法执行的挑战

汽车玩家 来源:eeweb 作者:eeweb 2021-06-28 09:11 次阅读

人工智能处理器需要大量的电力,而较低的能效对应于整个配电网络(PDN)的损耗增加。如何解决保持效率和实现高质量算法执行的挑战?Vicor 的 PE 公司副总裁 Robert Gendron 在接受 EEWeb 采访时指出,由于加入了 AI机器学习深度学习,数据中心的机架功率已跃升了 200% 以上,达到 20 kW 范围. 这促使 Vicor 使用 48-V 解决方案重新评估其 PDN,虽然重新设计解决了高电流 PDN 问题,但也给电源转换带来了新的挑战。

图 1:CPU/FPGA 峰值电流要求的进展(来源:Vicor)

对 PDN 的需求飙升

供电和电源效率已成为大规模计算系统中最大的问题(图 1)。随着处理复杂 AI 功能的 ASICGPU 的出现,该行业见证了处理器功耗的急剧增加。机架电源需求也与在大规模学习和推理应用程序部署中使用的 AI 能力成正比。在大多数情况下,供电现在是计算性能的限制因素,因为新 CPU 希望消耗不断增加的电流。最佳电力传输不仅需要电力分配,还需要效率、尺寸、成本和热性能。

为了支持大量的数据计算,传统的 PDN 需要承受巨大的功率需求,从而影响热管理。通过延长 PDN 系统的电缆来降低电阻或增加工作电压以降低电流是两种选择。为了满足功率的增加,现代设计正在采用第二种选择来更有效地满足数据中心的严格要求。

“目前,电力需求远远超过传统的电力输送网络,”Gendron 说。“切换到 48V 架构并采用更具创新性的供电方法是提供高性能电源以满足惊人的 AI/HPC 需求的唯一途径。”

当 2015 年处理器能力开始大幅增加时,拥有最多云、服务器和 CPU 公司成员的开放计算项目 (OCP) 联盟继续改进其 12-V 机架设计。响应是从电缆切换到母线,并在机架内部署更多 12V 单相交流转换器,以最大限度地减少 PDN 距离和服务器刀片的阻力。主要的变化是,由于功率增加,单相交流电是从三相电源的各个相位派生到机架的。随后,在具有 500-A 至 1,000-A 处理器的数据中心中引入 AI,促使一些公司转向 48-V 配电。这将 12 kW 机架的高电流 PDN 问题减少到 250 A,但给整个系统的电源转换带来了新的挑战。由于为刀片供电的 PDN 正在切换到 48 V,因此需要对刀片进行电源转换更改。在任何情况下,从 12V 配电切换到 48V 都会将输入电流要求降低 4 倍,并将损耗降低 16 倍。

采用 48V 架构

48 V 用于可充电备用电池系统,为电信设备供电。这些系统中传统上使用的通用架构称为中间总线架构,它由一个隔离的未稳压总线转换器组成,用于将 48 V 转换为 12 V,然后将其馈送到一组多相降压稳压器以处理到 12 V 的转换和调节负载点 (PoL)。随着 AI 处理器和 CPU 电流的增加,由于稳压器和 PoL 之间的 PDN 电阻,PoL 的供电解决方案的密度成为 AI 应用中最关键的元素。PDN 损耗是计算 DC/DC 稳压器设计效率和性能的主要因素。

为了减少损耗,Vicor 建议使用 48V 预调节模块 (PRM),然后使用固定比率(1/K 因子)变压级 (VTM)。这种专有架构允许优化每个阶段的性能。

PRM 使用零电压开关拓扑,而 VTM 使用专有的高频正弦振幅转换器 (SAC) 拓扑。VTM 可以看作是一个 DC/DC 变压器,电压比为 1/K,电流比为 K。VTM 提供高功率密度,并且可以非常靠近处理器放置。

VTM 采用 SAC 拓扑,因此与多相开关及其相关电感器相比,其辐射低且窄带。它还提供比多相设计更高的功率密度,单个 VTM 取代了六个多相开关级。VTM 占用空间小,完全符合支持四通道内存的高级处理器的布局限制,而不会占用内存子系统的布局区域。

图 2:横向供电(来源:Vicor)

大电流传输是通过模块化电流倍增器 (MCM) 模块提供的,这些模块靠近处理器放置在主板上或处理器基板上。在基板上放置 MCM 可最大限度地减少 PDN 损耗并减少电源所需的处理器基板 BGA 引脚数量。LPD 旨在支持 OCP 加速器模块卡和定制 AI 加速器卡的供电需求和独特的外形。

图 3:垂直供电(来源:Vicor)

垂直供电 (VPD) 进一步消除了配电损耗和 VR PCB 板面积消耗。VPD 在设计上与 Vicor LPD 解决方案相似,只是将旁路电容集成到电流倍增器或齿轮电流倍增器 (GCM) 模块中。

根据处理器电流,工程师可以在横向供电 (LPD) 或 VPD 之间进行选择。在前一种情况下,电流倍增器位于 AI 处理器旁边,位于同一基板上或直接位于主板上几毫米之内,使 PDN 降低到约 50 µΩ。为了获得更高的性能,VPD 将电流倍增器直接移到处理器下方,还集成了高频接地电容器。这种类型的电流倍增器称为齿轮电流倍增器。VPD 将 PDN 电阻降低到 5–7 µΩ,让 AI 处理器可以自由地利用全部功率。

图 4:该 AI 解决方案重点介绍了 Vicor 48V 直接负载 VR 解决方案,支持高达 650A 的连续电流和超过 1,000A 的峰值电流传输。(来源:Vicor)

最大化 AI 处理器性能

高级 AI 处理器加速模块的典型 Vicor VR 解决方案如图 4 所示。 Vicor VR 由三个动力总成模块、一个模块化电流驱动器 (MCD) 和两个 MCM 组成,提供 48-V输入至 0.8-V输出VR 具有高达 650 A 的连续电流和超过 1,000 A 的峰值电流传输能力。就像飞机的喷气燃料一样,这种供电水平可确保 AI 处理器以最佳时钟频率运行并最大限度地提高性能。

Gendron 说:“如果我们的技术没有用于这些高级 AI 应用程序,多相 VR 设备的数量将超过电路板尺寸,并且不会保持相同的外形尺寸。” “此外,噪声贡献很可能太高而无法保持信号完整性。”

通过使用Vicor NBM2317,可保持与传统 12V 服务器机架配电的兼容性,并为 Vicor VR 提供 48V 电压。这种 12-V 至 48-V 转换器也可以在“相反”方向运行,从而实现 48-V 至 12-V 的转换。

传统的电源架构跟不上当今耗电的 AI 处理器及其在云计算中的采用。Vicor 电源方法支持 48V 配电和支持高级 AI 处理需求的 VR。与 CPU 使用的传统多相设计不同,Vicor 解决方案专为解决在云服务器中快速迁移的新型处理器而开发。

需要一种为 AI/HPC 提供动力的新方法。随着领先公司在电源方面不断突破,从云服务器机架分配 12 V 电源已不再可行。为当今的 ASIC 和 GPU 供电需要的不仅仅是通过更换部件来增加功率。最有效的解决方案从高压电源开始,结合创新的架构和拓扑,并使用高效的高密度电源模块

文章来源:eeweb

编辑:ymf

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • asic
    +关注

    关注

    34

    文章

    1199

    浏览量

    120419
  • PDN
    PDN
    +关注

    关注

    0

    文章

    83

    浏览量

    22701
  • AI处理器
    +关注

    关注

    0

    文章

    92

    浏览量

    9489
收藏 人收藏

    评论

    相关推荐

    下一代AI处理器需要48V

    人工智能处理器需要大量电力,而较低的能源效率对应于整个配电网络 (PDN) 中损耗的增加。如何解决保持效率和实现高质量算法执行
    发表于 07-26 15:32 777次阅读
    下一代<b class='flag-5'>AI</b><b class='flag-5'>处理器</b>需要48V

    充电也要算法?储能充电芯片中的算法处理器

    电子发烧友网报道(文/黄山明)充电算法处理器是一种专门设计用于执行充电算法的微处理器或ASIC,这些算法
    的头像 发表于 07-30 00:07 3680次阅读

    处理器的代码是如何执行的呢

    处理器的结构是由哪些部分组成的?微处理器的代码是如何执行的呢?
    发表于 02-28 09:25

    ARM Cortex-A72 MPCore处理器加密扩展技术参考手册

    Cortex-A72处理器加密引擎支持ARMv8加密扩展。加密扩展添加了高级SIMD可以用来加速AES、SHA1和SHA2-256算法执行的新指令。
    发表于 08-02 08:54

    图形处理器的流执行模型

    图形处理器极高的流计算能力使其成为实现实时流应用的有效方案。该文抽象出图形处理器的流执行模型,描述图形处理器处理机制的
    发表于 04-11 09:00 28次下载

    ARM协处理器指令介绍

    处理器(coprocessor),一种芯片,用于减轻系统微处理器的特定处理任务。协处理器,这是一种协助中央处理器完成其无
    发表于 11-10 15:56 2799次阅读

    处理器的节能调度算法

    针对多处理器系统中随机到达的任务,设计了可靠性约束下的节能调度算法( ESACR)。该算法在满足任务截止期限的前提下选择一个预计产生能耗最小的处理器以节能,在单个
    发表于 01-08 14:20 0次下载

    处理器是什么_intel协处理器有什么用

    处理器,这是一种协助中央处理器完成其无法执行执行效率、效果低下的处理工作而开发和应用的
    发表于 01-09 13:43 2.7w次阅读
    协<b class='flag-5'>处理器</b>是什么_intel协<b class='flag-5'>处理器</b>有什么用

    处理器的介绍及应用

    处理器,这是一种协助中央处理器完成其无法执行执行效率、效果低下的处理工作而开发和应用的
    的头像 发表于 07-15 09:27 4054次阅读

    利用Xtensa可配置处理器加速嵌入式算法的性能和增强系统的灵活性

    可配置处理器允许嵌入式开发人员来定制适合目标算法处理器,使得处理器算法能够更好地匹配。设计人员可以增加专用的、可变宽度的寄存
    发表于 04-25 10:40 1318次阅读
    利用Xtensa可配置<b class='flag-5'>处理器</b>加速嵌入式<b class='flag-5'>算法</b>的性能和增强系统的灵活性

    48V 电源架构支持下一代 AI 处理器

    AI 处理器提供动力的挑战在于保持效率和实现最高质量的算法执行AI
    发表于 08-03 10:27 1059次阅读
    48V 电源架构支持下一代 <b class='flag-5'>AI</b> <b class='flag-5'>处理器</b>

    深度学习算法进行优化的处理器——NPU

    NPU(Neural-network Processing Unit,嵌入式神经网络处理器)是针对深度学习*算法进行优化的处理器。它能像人类神经网络一样快速、高效地处理大量数据,因此它
    发表于 10-17 10:53 2398次阅读

    TDA4 Edge AI处理器的性能和效率基准测试

    电子发烧友网站提供《TDA4 Edge AI处理器的性能和效率基准测试.pdf》资料免费下载
    发表于 09-11 09:21 0次下载
    TDA4 Edge <b class='flag-5'>AI</b><b class='flag-5'>处理器</b>的性能和<b class='flag-5'>效率</b>基准测试

    处理器执行指令的基本过程

    处理器,作为现代计算机的核心部件,负责执行存储在内存中的指令,完成各种计算和控制任务。指令的执行过程不仅体现了微处理器的设计思想和架构特点,还直接影响到计算机的性能和
    的头像 发表于 10-05 15:07 584次阅读

    处理器执行单元是什么

    处理器执行单元(Execution Unit,简称EU)是微处理器中负责执行指令的核心部分,它集成了多种功能单元,共同协作完成算术运算、逻辑运算以及指令的译码和
    的头像 发表于 10-05 15:19 358次阅读