0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于英特尔至强可扩展处理器的浪潮信息服务器AI训推一体化方案

英特尔中国 来源:英特尔中国 2024-05-11 09:27 次阅读

概 述

大模型已经成为新一轮数字化转型的重要驱动力,为了降低对算力与语料资源的要求,加快大模型在实际应用的部署,目前企业普遍在开源/商用大模型中,加入少量语料对模型进行预训练,以构建面向具体场景的微调版大模型,并在实际业务中进行模型推理,这种方式在经济性与灵活性方面通常更具优势。对于轻量级的人工智能 (AI) 场景而言,找到一个既经济又灵活的AI微调和推理解决方案显得尤为重要。

浪潮信息英特尔紧密合作,结合在硬件和软件开发方面的技术优势,推出了基于英特尔至强可扩展处理器的浪潮信息服务器AI训推一体化方案。该AI训推一体化方案支持计算机视觉模型的推理工作,同时还支持大语言模型 (LLM) 的微调和推理工作,并可以用于支持其他通用业务。这一方案具备高性能、高性价比、高灵活性等优势,可以充分满足用户构建轻量级AI微调与推理系统的需求。

挑战

在AI模型尤其是大模型微调及推理过程中,用户普遍面临着以下性能挑战:

如何满足AI微调及推理对于算力的要求

在AI模型微调和推理过程中,特别是在大语言模型微调中,对算力的需求尤其突出。这既包括硬件提供的算力支持,也包括向量化指令集和矩阵计算指令集的支持。

如何满足模型微调对于内存规模的需求

在模型训练和微调中,需要存储中间激活值、梯度信息,以及用于优化器(如Adam、AdamW等)参数更新的信息,这就需要庞大的内存作为支撑。模型微调实践表明,Batch size设定不能太小(通常需要大于16),避免Batch size过小造成不稳定的优化器梯度下降。同时,训练过程中会产生大量的中间激活值,所需的内存远远超过模型本身的大小。但是,传统训练方案(双路服务器,一机两卡/一机四卡/一机八卡)由于显存数量有限,难以满足模型微调的显存需求。

如何提供充足的内存带宽

AI推理任务对内存带宽有着高度需求,因此,AI训推服务器需要提供足够大的内存带宽与内存访问速度,传统的双路服务器在内存带宽与访问速度方面难以支撑模型的高效推理。

如何实现便捷扩展

为了提升服务器的算力、内存规模和带宽,模型训练和推理通常需要将多个 CPU socket高效链接起来。而采用以太网作为连接方式将面临速度慢、不稳定、多颗CPU socket的扩展性能差等问题。 除了性能挑战之外,用户还希望能够尽可能地降低模型微调、推理平台的构建与运营成本,提升平台的灵活性,从而进一步推动AI任务的普及和发展。

基于英特至强可扩展处理器的浪潮信息服务器AI训推一体化方案

浪潮信息服务器AI训推一体化方案的硬件基础是基于第四代英特尔至强可扩展处理器的浪潮信息四路服务器。该服务器能够充分发挥第四代英特尔至强可扩展处理器强大的计算性能,并借助英特尔高级矩阵扩展(英特尔AMX)和 IntelExtension for PyTorch (IPEX) 进一步加速大模型微调和推理任务,帮助用户攻克AI应用中的各项挑战。

5f0c915a-0ed6-11ef-a297-92fbcf53809c.png

1. 浪潮信息服务器AI训推一体化方案架构

浪潮信息四路服务器

为了支持在单台浪潮信息四路服务器上,实现复杂的计算机视觉模型和大语言模型的微调及推理任务,浪潮信息服务器AI训推一体化方案推荐采用英特尔至强金牌处理器或以上的型号。这不仅可以为高负荷情况下的任务提供额外的性能提升,还能支持在多线程处理能力上取得优秀表现。 该方案推荐搭配DDR5内存。DDR5内存提供了比前代更高的带宽,特别适合处理内存密集型的应用任务。当处理大规模数据和复杂的计算任务时,DDR5能确保系统运行的流畅性。同时,方案建议按照每个内存通道1个DIMM (1DPC) 的配置,将内存扩展至2TB以上,以满足同时对高带宽和高内存容量的需求。这一配置不仅可以优化系统的运行效率,还能在处理大型数据集时,提供足够的内存支持,从而确保微调任务以及推理任务的顺畅执行。

5f25369c-0ed6-11ef-a297-92fbcf53809c.png

2-1. NF8260M7(2U4路)服务器

5f3eee98-0ed6-11ef-a297-92fbcf53809c.png

2-2. NF8480M7(4U4路)服务器

四代英特尔至强扩展处理器提供强大AI算力支持

第四代英特尔至强可扩展处理器通过创新架构增加了每个时钟周期的指令,每个插槽多达60个核心,支持8通道DDR5内存,有效提升了内存带宽与速度,并通过PCIe 5.0(80个通道)实现了更高的PCIe带宽提升。第四代英特尔至强可扩展处理器提供了出色性能和安全性,可根据用户的业务需求进行扩展。借助内置的加速器,用户可以在AI、分析、云和微服务、网络、数据库、存储等类型的工作负载中获得优化的性能。通过与强大的生态系统相结合,第四代英特尔至强可扩展处理器能够帮助用户构建更加高效、安全的基础设施。

第四代英特尔至强可扩展处理器内置了创新的英特尔AMX加速引擎。英特尔AMX针对广泛的硬件和软件优化,通过提供矩阵类型的运算,显著增加了人工智能应用程序的每时钟指令数 (IPC),可为AI工作负载中的训练和推理上提供显著的性能提升。在实际AI推理负载中,英特尔AMX能够加速模型微调、提升模型的首包推理速度并降低延迟。英特尔AVX-512指令集能够加速在KV Cache模式下的第二个及以上的token推理。

5f5d2034-0ed6-11ef-a297-92fbcf53809c.png

3. 英特尔至强可扩展处理器为数据中心提供多种优势

英特尔丰富软件生态助力加速AI部署,释放算力潜能

除了在硬件领域取得显著进展之外,英特尔在人工智能领域亦构建了一个强大且全面的软件生态系统,提供了包含 IntelExtension for PyToch和英特尔oneDNN在内的丰富软件,能够帮助用户充分利用英特尔硬件的强大性能,提高计算效率和运行速度。

IntelExtension for PyTorch是一种开源扩展,可优化英特尔处理器上的深度学习性能。许多优化最终将包含在未来的PyTorch主线版本中,但该扩展允许PyTorch用户更快地获得最新功能和优化。IntelExtension for Pytorch充分利用了英特尔AVX- 512、矢量神经网络指令 (VNNI) 和英特尔AMX,将最新的性能优化应用于英特尔硬件平台。这些优化既包括对PyTorch操作符、Graph和Runtime的改进,也包括特定于使用场景的自定义操作符和优化器的添加。用户可以通过简易的Python API,只需对原始代码做出微小更改即可在英特尔硬件平台应用最新性能优化。

英特尔oneAPI Deep Neural Network Library (oneDNN) 是英特尔在软件优化领域的又一亮点。英特尔oneDNN是一个开源性能库,专为深度学习应用设计,支持广泛的深度学习框架和应用。该库提供了高级性能优化的深度学习原语,专门优化了用于英特尔架构的深度学习操作,包括英特尔至强处理器和 英特尔集成显卡。通过oneDNN,开发者可以轻松地在英特尔硬件上实现高效的深度学习模型推理和训练,而无需深入了解底层硬件细节。英特尔oneDNN已经被融合到多个开源平台中,包括PyTorch和TensorFlow等。

5f7e25d6-0ed6-11ef-a297-92fbcf53809c.png
4. IntelExtension for PyTorch框架 5e89d86e-0ed6-11ef-a297-92fbcf53809c.gif

测 试 验 证

在上述软硬件基础上,浪潮信息与英特尔合作,从多个方面入手,优化了AI模型微调及推理性能。

采用英特尔AMX加速器和IntelExtension for PyTorch加速模型微调

得益于对IntelExtension for PyTorch的支持,以及强大的运算能力和超大内存,浪潮信息四路服务器在微调方面表现出强大的性能。浪潮信息四路服务器采用分布式数据并行 + LoRA (Low-Rank Adaptation) 微调以减少通信开销,其具备的大内存有利于支持更大的batch size,从而提高训练的收敛效果,改善模型质量。目前,单台浪潮信息四路服务器能够支持高达30B模型的微调。

模型微调的测试数据如图5显示,当采用alpaca数据集(6.5M tokens,数据集大小24.2MB)时,单台四路服务器可以在72分钟的时间内完成Llama-2-7B微调 (batch size = 16);可以在362分钟的时间内完成Llama-30B模型的微调 (batch size = 16),稳定支持非梯度累积模式下高达64的batch size1。

5fb896c6-0ed6-11ef-a297-92fbcf53809c.png

5. Llama-2-7B/13B/30B模型的微调时间

采用英特尔AMX加速器和张量并行加速大语言模型推理

浪潮信息四路服务器采用了英特尔UPI全拓扑连接方式, 张量并行推理方案下等同于有效地扩展了内存带宽。这一优势与英特尔AMX加速器一起,使得服务器最终在推理7/13B参数级别的模型时表现出高度的可扩展性。

测试数据如图6-1和图6-2所示,在7B和13B规模的模型中,模型推理的延迟可以低至20毫秒左右2,能够满足实际业务对于推理性能的要求。

5fcf0848-0ed6-11ef-a297-92fbcf53809c.png

6-1. 不同batch size下Llama-2-7B推理延迟测试

5fe4ebb8-0ed6-11ef-a297-92fbcf53809c.png

6-2. 不同batch size下Llama-2-13B推理延迟测试

采用英特尔AMX加速器和IntelExtension for PyTorch提升视觉模型推理性能

在非大语言模型的通用AI负载中,一般矩阵乘法(General Matrix Multiplication, GEMM) 往往消耗最多时间,推理训练都受算力限制。浪潮信息四路服务器在为基于CNN的视觉模型推理带来更强算力的同时,利用英特尔高级矩阵扩展(AMX) 加速矩阵乘法运算。如图7所示,对于经典的视觉模型ResNet50,在推理阶段,单颗处理器吞吐量最高可以达到2942.57FPS。同时,该解决方案可以支持高并发,在单台四路配置时可以达到11322.08 FPS的吞吐量3。

600aa45c-0ed6-11ef-a297-92fbcf53809c.png

7. 浪潮信息四路服务器 ResNet50推理性能 5e89d86e-0ed6-11ef-a297-92fbcf53809c.gif

收 益

基于英特尔至强可扩展处理器的浪潮信息服务器AI训推一体化方案能够为用户AI任务带来以下收益:

满足中小规模的模型对于微调及推理的算力需求:通过硬件构建与软件优化,该AI训推一体化方案提供了强大的模型微调与推理算力支持,在7B和13B规模的模型中,模型推理的延迟可以低至20毫秒左右,在基于CNN的视觉模型推理中,单台四路服务器上可以达到11322.08FPS的吞吐量4。

更高的适用性、扩展性:该AI训推一体化方案可以灵活地支持计算机视觉模型推理、大语言模型的微调和推理,以及其它通用业务,并实现更高的扩展性。

更高的性价比与投资回报:对比专用的AI服务器方案,该AI训推一体化方案具备高性价比、高可及性等优势,可助力用户获得更高的投资回报。

展 望

智能化成为业务关键驱动力的今天,用户急切希望搭建自己的AI训练与推理计算平台,以便能够跻身人工智能热潮之中,探索和扩展他们的AI业务领域。以英特尔至强可扩展处理器为基础的浪潮信息服务器AI训推一体化方案凭借在性价比与灵活性等方面的优势,有望成为推动AI微调与推理的关键基础设施。

展望AI技术的未来发展,其不仅将创造更多的业务形态,而且为企业创造了巨大的商业潜力和发展机遇。浪潮和英特尔双方将在技术探索、产品升级、应用推广等多个层面深度协作,推动AI在更多应用场景的创新以及普及,助力AI的应用与发展。



审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    19225

    浏览量

    229534
  • 以太网
    +关注

    关注

    40

    文章

    5407

    浏览量

    171451
  • DDR5
    +关注

    关注

    1

    文章

    422

    浏览量

    24126
  • pytorch
    +关注

    关注

    2

    文章

    805

    浏览量

    13184
  • AI大模型
    +关注

    关注

    0

    文章

    311

    浏览量

    302

原文标题:浪潮信息基于至强® 可扩展处理器推出 AI 服务器训推一体化方案

文章出处:【微信号:英特尔中国,微信公众号:英特尔中国】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    英特尔发布全新企业AI一体化方案

    近日,英特尔正式推出了全新的企业AI一体化方案。该方案英特尔
    的头像 发表于 12-03 11:20 193次阅读

    英特尔发布全新企业AI一体化解决方案

    近日,英特尔正式推出了其全新的企业AI一体化解决方案,这一方案旨在为企业提供更加开放、扩展且高
    的头像 发表于 12-02 10:48 449次阅读

    英特尔发布至强6处理器产品

    以“绿色向新,释放新质生产力”为主题的英特尔至强6能效核处理器新品发布会在北京举行。会上,英特尔重磅推出首款配备能效核的英特尔
    的头像 发表于 09-23 15:48 343次阅读

    浪潮信息元脑®服务器率先支持英特尔®至强®6处理器

    北京2024年6月7日 /美通社/ -- 6月6日,英特尔在全球范围内发布了英特尔®至强®6处理器浪潮信息
    的头像 发表于 06-07 15:36 381次阅读
    <b class='flag-5'>浪潮信息</b>元脑®<b class='flag-5'>服务器</b>率先支持<b class='flag-5'>英特尔</b>®<b class='flag-5'>至强</b>®6<b class='flag-5'>处理器</b>

    宁畅B5000 G5多节点服务器采用第五代英特尔至强扩展处理器

    “基于第五代英特尔 至强 扩展处理器的宁畅B5000 G5多节点服务器,可以在满足大量
    的头像 发表于 05-27 11:46 806次阅读
    宁畅B5000 G5多节点<b class='flag-5'>服务器</b>采用第五代<b class='flag-5'>英特尔</b><b class='flag-5'>至强</b><b class='flag-5'>可</b><b class='flag-5'>扩展</b><b class='flag-5'>处理器</b>

    浪潮信息英特尔合作推出种大模型效率工具“YuanChat”

    3月26日,浪潮信息英特尔正式宣布,浪潮信息“源2.0系列基础大模型”已和最新的英特尔® 酷睿™ Ultra处理器平台完成适配,本地推理速
    的头像 发表于 03-27 13:50 611次阅读
    <b class='flag-5'>浪潮信息</b>与<b class='flag-5'>英特尔</b>合作推出<b class='flag-5'>一</b>种大模型效率工具“YuanChat”

    第五代英特尔至强处理器AI特化的通用服务器CPU

      电子发烧友网报道(文/周凯扬)随着AI已经成了数据中心与服务器市场的主流应用,就连通用服务器CPU,也开始着重加强AI计算能力。为此,英特尔
    的头像 发表于 03-18 08:14 4320次阅读
    第五代<b class='flag-5'>英特尔</b><b class='flag-5'>至强</b><b class='flag-5'>处理器</b>,<b class='flag-5'>AI</b>特化的通用<b class='flag-5'>服务器</b>CPU

    新升级 浪潮信息边缘服务器支持英特尔第五代至强处理器

    北京2024年3月5日 /美通社/ -- 近日,浪潮信息边缘服务器NE5260G7完成第五代英特尔®至强®处理器适配,实现平均性能提升 21
    的头像 发表于 03-06 14:34 367次阅读
    新升级 <b class='flag-5'>浪潮信息</b>边缘<b class='flag-5'>服务器</b>支持<b class='flag-5'>英特尔</b>第五代<b class='flag-5'>至强</b><b class='flag-5'>处理器</b>

    浪潮信息NE5260G7服务器适配第五代英特尔至强处理器

    浪潮信息近日宣布,其边缘服务器NE5260G7已成功适配第五代英特尔至强处理器,实现了平均性能21%的提升。这
    的头像 发表于 03-06 09:29 877次阅读

    英特尔至强处理器优化升级,助力打造未来高能效数据中心

    %。与此同时,英特尔还对该处理器进行了大量优化,以满足日益增长的AI算力需求。 该适用于企业级服务器英特尔高端CPU受到了众多行业专家们的
    的头像 发表于 02-26 17:39 698次阅读

    英特尔专家为您揭秘第五代英特尔® 至强® 扩展处理器如何为AI加速

    近日,英特尔发布了第五代至强 扩展处理器,尤其是其“为 AI 加速”的口号引起了广泛关注。 在
    的头像 发表于 12-23 12:20 718次阅读

    宝德服务器全面升级到第五代英特尔®至强®平台

    发布全新代基于第五代英特尔®至强®扩展处理器的宝德服务器
    的头像 发表于 12-21 16:12 698次阅读
    宝德<b class='flag-5'>服务器</b>全面升级到第五代<b class='flag-5'>英特尔</b>®<b class='flag-5'>至强</b>®平台

    第五代英特尔至强扩展处理器,为AI加速而生

    今日,在以“AI无处不在 创芯无所不及”为主题的2023英特尔新品发布会暨AI技术创新派对上,英特尔正式推出第五代英特尔
    的头像 发表于 12-16 16:15 439次阅读
    第五代<b class='flag-5'>英特尔</b><b class='flag-5'>至强</b><b class='flag-5'>可</b><b class='flag-5'>扩展</b><b class='flag-5'>处理器</b>,为<b class='flag-5'>AI</b>加速而生

    AI 无处不在,英特尔酷睿Ultra 和第五代英特尔至强扩展处理器正式发布

    英特尔  酷睿 Ultra处理器和第五代英特尔   至强   扩展
    的头像 发表于 12-16 16:05 701次阅读
    <b class='flag-5'>AI</b> 无处不在,<b class='flag-5'>英特尔</b>酷睿Ultra 和第五代<b class='flag-5'>英特尔</b><b class='flag-5'>至强</b><b class='flag-5'>可</b><b class='flag-5'>扩展</b><b class='flag-5'>处理器</b>正式发布

    第五代英特尔至强扩展处理器,为AI加速而生

    今日,在以“AI无处不在 创芯无所不及”为主题的2023英特尔新品发布会暨AI技术创新派对上,英特尔正式推出第五代英特尔®
    发表于 12-16 15:53 357次阅读
    第五代<b class='flag-5'>英特尔</b><b class='flag-5'>至强</b><b class='flag-5'>可</b><b class='flag-5'>扩展</b><b class='flag-5'>处理器</b>,为<b class='flag-5'>AI</b>加速而生