0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AMD助力HyperAccel开发全新AI推理服务器

Xilinx赛灵思官微 来源:Xilinx赛灵思官微 2024-09-18 09:37 次阅读

HyperAccel 是一家成立于 2023 年 1 月的韩国初创企业,致力于开发 AI 推理专用型半导体器件和硬件,最大限度提升推理工作负载的存储器带宽使用,并通过将此解决方案应用于大型语言模型来提高成本效率。HyperAccel 针对新兴的生成式 AI 应用提供超级加速的芯片 IP/解决方案。HyperAccel 已经打造出一个快速、高效且低成本的推理系统,加速了基于转换器的大型语言模型( LLM )的推理,此类模型通常具有数十亿个参数,例如 OpenAI 的 ChatGPT 和 Meta 的 Llama 3 等 Llama LLM。其 AI 芯片名为时延处理单元( LPU ),是专门用于 LLM 端到端推理的硬件加速器。

项目挑战

随着 LLM 应用的扩展,对高效、快速和具成本效益的推理解决方案的需求不断上升。对于云服务提供商而言,快速且成本效益高的推理硬件对于托管高性能的生成式 AI 应用并降低总拥有成本( TCO )至关重要。对于 AI 企业来说,一个直观的软件堆栈平台是实现其应用或模型无缝部署的必备条件。对于服务业务,提供全面的端到端解决方案也是必要的,有利于将最先进的 AI 技术集成到更有效和先进的服务中。

解决方案

HyperAccel 提出通过开发名为“Orion”的服务器来解决成本和性能问题,该服务器搭载了一个为 LLM 推理量身定制的专用处理器,基于多个高性能 AMD FPGA部署。Orion 充分利用每个 FPGA 的存储器带宽和硬件资源以获得最高水平的性能。这种可扩展的架构支持最新的 LLM,此类模型通常包含数十亿个参数。

Orion 拥有 16 个时延处理单元( LPU ),它们分布在两个 2U 机架中,提供总共 7.36TB/s 的 HBM 带宽和 14.4 万个 DSP。LPU 能加速内存和计算都非常密集的超大规模生成式 AI 工作负载。Orion 及其 256GB 的 HBM 容量支持多达千亿参数的最先进 LLM。上图展示了两个 2U 机箱之一,配有 8 个 LPU。

下图显示了 LPU 架构,其中矢量执行引擎由 AMD Alveo U55C 高性能计算卡支持。Alveo U55C 卡具有高带宽存储器( HBM2 ),解决了提供低时延AI 的最关键性能瓶颈——存储器带宽。此外,它们能够将 200 Gbps的高速网络集成到单个小型板卡中,并且经过精心设计可在任何服务器中部署。

反过来,每个 Alveo 加速卡都由 FPGA 架构驱动。鉴于 FPGA 的大规模硬件并行性和灵活应变的存储器层次结构,FPGA 固有的低时延特性非常适合 LLM 所需的实时 AI 服务。Alveo 卡采用了强大的 Virtex XCU55P UltraScale+ FPGA,可提供高达 38 TOPS 的 DSP 计算性能,有助于 AI 推理优化,包括用于定点与浮点计算的 INT8。这款 FPGA 能够根据客户反馈调整其处理器( LPU )的架构,例如,根据要求在Llama模型中实现一些非标准的处理,进而提供灵活的解决方案,能够适应不断变化的市场和 LLM 参数条件。

wKgaombqLxCAdBaIAAGAxEvslZA335.png

设计成效

Orion 的高性能和可扩展性是通过 LPU 实现的,由 AMD Alveo 加速卡和相关的 FPGA 以及HyperAccel 的可扩展同步链路( ESL )技术提供支持。这些技术最大限度提升了 P2P 传输中的存储器带宽使用,有利于灵活处理,同时消除了 P2P 计算的同步开销 ESL 属于为 LLM 推理中的数据传输优化的通信链路。值得注意的是,Orion 在支持标准 FP16 数据精度的硬件上保持了卓越的准确性。

HyperAccel Orion

的性能

针对时延进行优化的 HyperAccel Orion 与基于转换器的 LLM(如 GPT、Llama 和 OPT)无缝集成,能够在 1.3B 模型上每秒生成超过 520 个令牌,在 7B 模型上每秒生成 175 个令牌。除了卓越的性能外,Orion 还展示了出色的能源效率,在 66B 模型上生成单个令牌只需 24 毫秒,而功耗仅为 600W。

wKgaombqLxWAduahAADVjgfBfyc650.png

HyperAccel LPU 的性能(来源:https://www.hyperaccel.ai)

HyperAccel Orion

—— 工作负载多样性

Orion 提供端到端的解决方案服务,可作为云端服务部署。对于拥有专有 LLM 的AI 企业或存在内部数据隐私与安全需求的专业部门,Orion 也能够以本地解决方案的形式进行安装。Orion 能够处理以下工作负载/应用:

客户服务:通过虚拟聊天机器人和虚拟助手实时处理查询,因此人工客服将有时间处理更复杂的问题。

人机界面:在自助服务终端、机器人和其它设备中支持与语言相关的功能,以增强客户互动体验。

文本生成:协助生产、总结和精炼复杂的文本内容,为用户提供便利。

语言翻译:翻译客户查询和回复信息,打破语言障碍,扩大企业的全球影响力。

问答:根据大量数据以及此前的互动和偏好记录,定制针对个别客户的回复,以提高客户满意度。

进一步了解AMD Virtex UltraScale+ FPGA和Alveo U55C 加速卡,请访问产品专区。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • FPGA
    +关注

    关注

    1627

    文章

    21685

    浏览量

    602323
  • amd
    amd
    +关注

    关注

    25

    文章

    5453

    浏览量

    133987
  • 服务器
    +关注

    关注

    12

    文章

    9046

    浏览量

    85237
  • AI
    AI
    +关注

    关注

    87

    文章

    30348

    浏览量

    268602

原文标题:HyperAccel 借助 AMD 加速卡与 FPGA 打造全新 AI 推理服务器

文章出处:【微信号:赛灵思,微信公众号:Xilinx赛灵思官微】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    上海永铭电子全新高压牛角型铝电解电容IDC3系列,助力AI服务器电源高效运转

    随着数据中心和云计算的高速发展,AI服务器的能效要求日益提高。如何在有限空间内实现更高的功率密度和稳定的电源管理,成为AI服务器电源设计的一大挑战。永铭推出
    的头像 发表于 12-03 15:27 58次阅读

    什么是AI服务器AI服务器的优势是什么?

    AI服务器是一种专门为人工智能应用设计的服务器,它采用异构形式的硬件架构,通常搭载GPU、FPGA、ASIC等加速芯片,利用CPU与加速芯片的组合来满足高吞吐量互联的需求,为自然语言处理、计算机视觉、机器学习等人工智能应用场景提
    的头像 发表于 09-21 11:43 692次阅读

    AI服务器:开启智能计算新时代

    一、AI服务器的定义与特点 AI服务器的定义 AI服务器是一种基于云计算技术,专为处理人工
    的头像 发表于 08-09 16:08 762次阅读

    英伟达推出全新NVIDIA AI Foundry服务和NVIDIA NIM推理服务

    NVIDIA 宣布推出全新 NVIDIA AI Foundry 服务和 NVIDIA NIM 推理服务,与同样刚推出的 Llama 3.1
    的头像 发表于 07-25 09:48 684次阅读

    AI服务器的特点和关键技术

    AI服务器,即人工智能服务器,是一种专门设计用于运行和加速人工智能(AI)算法与模型的硬件设备。随着人工智能技术的快速发展和普及,AI
    的头像 发表于 07-17 16:34 1388次阅读

    安徽京准:北斗卫星授时服务器 NTP服务器 助力智慧城市建设

    安徽京准:北斗卫星授时服务器(NTP服务器助力智慧城市建设
    的头像 发表于 07-16 15:32 292次阅读
    安徽京准:北斗卫星授时<b class='flag-5'>服务器</b> NTP<b class='flag-5'>服务器</b> <b class='flag-5'>助力</b>智慧城市建设

    ai服务器是什么架构类型

    AI服务器,即人工智能服务器,是专门为人工智能应用设计的高性能计算服务器AI服务器的架构类型有
    的头像 发表于 07-02 09:51 967次阅读

    ai服务器和通用服务器的区别在哪

    注重稳定性和可靠性,通常采用较为稳定的硬件配置。 1.1 CPU AI服务器通常采用高性能的CPU,如Intel Xeon或AMD EPYC等。这些CPU具有更多的核心和更高的主频,可以提供更高的计算能力。而通用
    的头像 发表于 07-02 09:46 919次阅读

    英伟达新业务动向:AI服务器市场的新变局

    在全球AI技术迅猛发展的浪潮中,英伟达正积极布局,寻求新的业务增长点。据最新报道,英伟达计划为其即将推出的GB200旗舰人工智能芯片设计服务器机架,此举无疑将对该领域的传统厂商如戴尔、HPE和AMD等构成一定压力,甚至可能引发
    的头像 发表于 06-21 14:11 978次阅读

    英飞凌推出全新CoolSiC™ 400V MOSFET系列,满足AI服务器需求

    扩展至400V领域,并推出了全新的CoolSiC™400VMOSFET系列。这一创新产品不仅满足了AI服务器电源(PSU)日益增长的功率需求,同时保持了服务器机架规
    的头像 发表于 05-29 11:36 759次阅读
    英飞凌推出<b class='flag-5'>全新</b>CoolSiC™ 400V MOSFET系列,满足<b class='flag-5'>AI</b><b class='flag-5'>服务器</b>需求

    台积电:AI服务器处理预计翻番,拉动收入增长 

    台积电将 AI 服务器处理严格限定为用于 AI 训练与推理的 GPU、CPU 及 AI 加速
    的头像 发表于 04-19 15:04 346次阅读

    AMD EPYC处理AI推理能力究竟有多强?

    如今,AMD EPYC处理已经成为最常被选择用于AI推理服务器平台,尤其是第四代Genoa EPYC 9004系列,执行
    发表于 03-15 09:47 457次阅读

    使用NVIDIA Triton推理服务器来加速AI预测

    这家云计算巨头的计算机视觉和数据科学服务使用 NVIDIA Triton 推理服务器来加速 AI 预测。
    的头像 发表于 02-29 14:04 548次阅读

    YXC晶振解决方案AI服务器中的应用

    AI服务器常用频点:50MHZ、125MHZ、156.25MHZ,适用于AI服务器的YXC差分晶振
    的头像 发表于 12-18 18:06 498次阅读
    YXC晶振解决方案<b class='flag-5'>AI</b><b class='flag-5'>服务器</b>中的应用

    AI无处不在,宁畅G50系列服务器全新升级

    宁畅G50系列服务器涵盖通用机架服务器、人工智能服务器、边缘计算服务器等多种类型。全新的G50系列在内存通道等方面进行重要升级,基于最新的第
    的头像 发表于 12-15 16:43 709次阅读
    <b class='flag-5'>AI</b>无处不在,宁畅G50系列<b class='flag-5'>服务器</b><b class='flag-5'>全新</b>升级