0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Hold住千亿参数大模型,Gaudi®2 有何优势

英特尔中国 来源:未知 2023-09-15 19:30 次阅读

近日在北京举行的2023年中国国际服务贸易交易会(下文简称:服贸会)上,作为英特尔人工智能产品组合的重要成员,Habana Gaudi2实力亮相,它在海内外诸多大语言模型(Large Language Model,下文简称:LLM)的加速上,已展现了出众实力,成为业界焦点。

AI技术飞速发展,LLM风起云涌,但由于AI模型尤其是LLM的训练与推理需要消耗大量资源和成本,在生产环境部署和使用这些模型变得极具挑战。如何提升性能降低开销,使AI技术更快普及,是行业内共同关注的话题

wKgZomUEQWiAP6hmAAH7mC8BB3E152.jpg

专为加速LLM的训练和推理设计

Habana Gaudi2 正是专为高性能、高效率大规模深度学习任务而设计的AI加速器,具备24个可编程Tensor处理器核心(TPCs)、21个100Gbps(RoCEv2)以太网接口、96GB HBM2E内存容量、2.4TB/秒的总内存带宽、48MB片上SRAM,并集成多媒体处理引擎。该加速器能够通过性能更高的计算架构、更先进的内存技术和集成RDMA实现纵向扩展,为中国用户提供更高的深度学习效率与更优性价比。Gaudi2 的计算速度十分出色,它的架构能让加速器并行执行通用矩阵乘法 (GeMM) 和其他运算,从而加快深度学习工作流。这些特性使 Gaudi2 成为 LLM 训练和推理的理想选择,亦将成为大规模部署AI的更优解。

wKgZomUEQWiAD_IvAAHwyqm3CR4823.jpg

在服贸会上,英特尔展示了Habana Gaudi2 对ChatGLM2-6B的加速能力。ChatGLM2-6B是开源中英双语对话模型ChatGLM-6B的第二代版本,加强了初代模型对话流畅等优质特性。得益于专为深度学习设计的架构,Habana Gaudi2 可以灵活地满足单节点、多节点的大规模分布式大语言模型训练,在ChatGLM2-6B上,能够支持更长的上下文,并带来极速对话体验。

在千亿参数大模型上大显身手

实际上,Habana Gaudi2 的卓越性能早已崭露头角。在今年6月公布的MLCommonsMLPerf基准测试中,Gaudi2在GPT-3模型、计算机视觉模型ResNet-50(使用8个加速器)、Unet3D(使用8个加速器),以及自然语言处理模型BERT(使用8个和64个加速器)上均取得了优异结果。近日,MLCommons又继续公布了针对60亿参数大语言模型及计算机视觉与自然语言处理模型GPT-J的MLPerf推理v3.1性能基准测试结果,其中包括基于Habana Gaudi2加速器、第四代英特尔至强可扩展处理器,以及英特尔至强CPU Max系列的测试结果。

数据显示,Habana Gaudi2在GPT-J-99 和GPT-J-99.9 上的服务器查询和离线样本的推理性能分别为78.58 次/秒和84.08 次/秒。该测试采用 FP8数据类型,并在这种新数据类型上达到了 99.9% 的准确率,这无疑再一次印证了Gaudi2的出色性能。此外,基于第四代英特尔至强可扩展处理器的7个推理基准测试也显示出其对于通用AI工作负载的出色性能。截至目前,英特尔仍是唯一一家使用行业标准的深度学习生态系统软件提交公开CPU结果的厂商

另一个让Habana Gaudi2 大显身手的模型是BLOOMZ。BLOOM是一个拥有 1760 亿参数的自回归模型,训练后可用于生成文本序列,它可以处理 46 种语言和 13 种编程语言,而BLOOMZ是与BLOOM架构完全相同的模型,它是BLOOM基于多个任务的调优版本。Habana与著名AI平台Hugging Face合作进行了 Gaudi2 在BLOOMZ模型上的基准测试1。如图1所示,对于参数量达1760亿的模型 BLOOMZ(BLOOMZ-176B),Gaudi2性能表现出色,时延仅为约3.7 秒;对于参数量为 70 亿的较小模型 BLOOMZ-7B,Gaudi2 的时延优势更加显著,单设备约为第一代 Gaudi 的37.21%,而当设备数量都增加为8后,这一百分比进一步下降至约24.33%。

wKgZomUEQWiAHiZiAAFknVTYkmY555.png

图 1. BLOOMZ 在 Gaudi2 和第一代 Gaudi 上的推理时延测试结果

此外,在Meta发布的开源大模型Llama 2上,Gaudi2的表现依然出众。图2显示了70亿参数和130亿参数两种Llama 2模型的推理性能。模型分别在一台Habana Gaudi2设备上运行,batch size=1,输出token长度256,输入token长度不定,使用BF16精度。报告的性能指标为每个token的延迟(不含第一个)。对于128至2000输入token,在70亿参数模型上Gaudi2的推理延迟范围为每token 9.0-12.2毫秒,而对于130亿参数模型,范围为每token 15.5-20.4毫秒2

wKgZomUEQWmAKhF5AAGHaOrFSeA987.png

图 2.基于HabanaGaudi2,70亿和130亿参数Llama 2模型的推理性能

值得一提的是,Habana 的SynapseAI 软件套件在模型部署和优化的过程中起到了至关重要的作用。SynapseAI 软件套件不仅支持使用 PyTorch 和 DeepSpeed 来加速LLM的训练和推理,还支持 HPU Graph和DeepSpeed-inference,这两者都非常适合时延敏感型应用。因此,在Habana Gaudi2上部署模型非常简单,尤其是对LLM等数十亿以上参数的模型推理具有较优的速度优势,且无需编写复杂的脚本。

LLM的成功堪称史无前例。有人说,LLM让AI技术朝着通用人工智能(AGI)的方向迈进了一大步,而因此面临的算力挑战也催生了更多技术的创新。Habana Gaudi2 正是在这一背景下应运而生,以其强大的性能和性价比优势加速深度学习工作负载。Habana Gaudi2的出色表现更进一步显示了英特尔AI产品组合的竞争优势,以及英特尔对加速从云到网络到边缘再到端的工作负载中大规模部署AI的承诺。英特尔将持续引领产品技术创新,丰富和优化包括英特尔 至强 可扩展处理器、英特尔 数据中心GPU等在内的AI产品组合,助力中国本地AI市场发展。

参考资料

1.https://huggingface.co/blog/zh/habana-gaudi-2-bloom

2.Habana Gaudi2深度学习加速器:所有测量使用了一台HLS2 Gaudi2服务器上的Habana SynapseAI 1.10版和optimum-habana 1.6版,该服务器具有八个Habana Gaudi2 HL-225H Mezzanine卡和两个英特尔 至强 白金8380 CPU@2.30GHz以及1TB系统内存。2023年7月进行测量。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英特尔
    +关注

    关注

    61

    文章

    9978

    浏览量

    171882
  • cpu
    cpu
    +关注

    关注

    68

    文章

    10873

    浏览量

    212045

原文标题:Hold住千亿参数大模型,Gaudi®2 有何优势

文章出处:【微信号:英特尔中国,微信公众号:英特尔中国】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    【「大模型启示录」阅读体验】+开启智能时代的新钥匙

    那些拥有数十亿甚至数千亿参数的大规模模型成为了现实可能。Transformer 等机制模型架构的横空出世,彻底改变了模型训练的效率和性能。
    发表于 12-24 13:10

    阶跃星辰发布国内首个千亿参数端到端语音大模型

    近日,阶跃星辰在官方公众号上宣布了一项重大突破——推出Step-1o千亿参数端到端语音大模型。该模型被誉为“国内首个千亿
    的头像 发表于 12-17 13:43 223次阅读

    【迅为电子】龙芯LS2K1000LA和LS2K1000区别?

    【迅为电子】龙芯LS2K1000LA和LS2K1000区别?
    的头像 发表于 11-13 14:13 282次阅读
    【迅为电子】龙芯LS<b class='flag-5'>2</b>K1000LA和LS<b class='flag-5'>2</b>K1000<b class='flag-5'>有</b><b class='flag-5'>何</b>区别?

    英特尔发布Gaudi3 AI加速器,押注低成本优势挑战市场

    英特尔近期震撼发布了专为AI工作负载设计的Gaudi3加速器,这款新芯片虽在速度上不及英伟达热门型号H100与H200 GPU,但英特尔巧妙地将竞争优势聚焦于其更为亲民的价格与总拥有成本(TCO)上。
    的头像 发表于 09-26 16:16 836次阅读

    昆仑万维开源2千亿稀疏大模型Skywork-MoE

    近日,昆仑万维公司宣布开源一款名为Skywork-MoE的稀疏大模型,该模型拥有高达2千亿参数,不仅性能强劲,而且推理成本更低,为人工智能领
    的头像 发表于 06-04 14:44 583次阅读

    通义千问开源千亿参数模型

    通义千问近日开源了其首个千亿参数模型Qwen1.5-110B,这是其全系列中首个达到千亿级别的开源模型。Qwen1.5-110B模型继承了
    的头像 发表于 05-08 11:01 759次阅读

    通义千问推出1100亿参数开源模型

    通义千问近日震撼发布1100亿参数的开源模型Qwen1.5-110B,这一举措标志着通义千问在AI领域迈出了重大步伐。该模型成为通义千问全系列首个千亿
    的头像 发表于 05-06 10:49 590次阅读

    ARM-based相比ARM cortex优势

    你看好ARM-based架构吗 相比ARM cortex优势 ARM其他还有什么架构啊,感觉曝光的好少。。
    发表于 04-24 06:55

    英特尔进军AI芯片市场:推出Gaudi 3 AI加速卡与Xeon 6处理器

    Gaudi 3作为英特尔在AI领域的最新力作,旨在与英伟达等市场领导者展开竞争。据英特尔透露,这款芯片在能效和AI模型运行速度方面均表现出色,相比英伟达的芯片具有显著优势
    的头像 发表于 04-10 15:37 805次阅读

    百度智能云推出全新轻量级大模型

    在近日举办的百度智能云千帆产品发布会上,三款全新的轻量级大模型——ERNIE Speed、ERNIE Lite以及ERNIE Tiny,引起了业界的广泛关注。相较于传统的千亿级别参数模型
    的头像 发表于 03-22 10:28 678次阅读

    百川智能发布超千亿模型Baichuan 3

    百川智能近日发布了超千亿参数的大语言模型Baichuan 3,引发了业界的广泛关注。这款模型在多个权威通用能力评测中表现卓越,展现了其强大的语义理解和生成能力。
    的头像 发表于 01-31 14:58 862次阅读

    猎户星空发布强大AI大模型

    近日,猎户星空在2024·傅盛的开年AI大课暨猎户星空企业应用大模型发布会上,正式发布了其最新研发的大模型。这个大模型拥有140亿参数,却能实现千亿
    的头像 发表于 01-22 14:31 712次阅读

    热电分离铜基板与普通铜基板相比优势

    热电分离铜基板与普通铜基板相比优势? 热电分离铜基板与普通铜基板相比,在许多方面都具有显着的优势。以下将详细介绍热电分离铜基板的优点,并向您解释其为何在许多应用中被广泛采用。 首先
    的头像 发表于 01-18 11:43 882次阅读

    M.2接口的固态硬盘优势

    M.2接口的固态硬盘优势? M.2接口的固态硬盘(M.2 SSD)是现代计算机存储设备中的一
    的头像 发表于 01-15 14:31 2088次阅读

    UPS大功率电源优势?购买大功率UPS电源的诀窍

    UPS大功率电源优势?购买大功率UPS电源的诀窍  UPS(不间断电源)是一种能够在停电或电网出现问题时提供临时电力供应的设备。大功率UPS电源是指电力输出大于10千瓦的UPS设备。它与普通
    的头像 发表于 01-10 13:46 1136次阅读