英特尔AMX助华栖云多场景AI推理性能大幅提升多达96倍-电子发烧友网

AI技术应用已经深入到各行各业，特别是云服务提供商将AI能力集成到云服务中，能够更好地满足用户对性能、效率和体验的需求。而在主流媒体全面进入互联网阵地的大趋势下，媒体行业面临融合、高效、智能化的挑战。成都华栖云科技有限公司（简称：华栖云）正是这样一家面向蓬勃兴起的泛媒体、大视频时代的企业用户市场，为用户提供媒体云服务的提供商。

为了给用户带来更加智慧的应用体验，大幅提升内容来源的宽度，内容生产的速度、内容发布的广度，华栖云媒体云平台正在集成广泛的AI技术，推动光学字符识别(OCR) 识别、图像超分修复、人体姿态识别、大型语言模型 (LLM) 等应用的落地。

对于最终用户而言，这些 AI 技术对于媒体云基础设施带来了 AI 推理等方面的算力挑战，用户需要通过高性能、低成本、高灵活度的算力方案，来满足实际应用的严苛需求。于是，华栖云与英特尔合作，在媒体云平台上验证了第四代英特尔至强可扩展处理器及其内置的英特尔高级矩阵扩展（英特尔AMX）加速器。验证结果显示，在英特尔AMX 的加持下，第四代英特尔至强可扩展处理器可显著提升大型语言模型、人体姿态识别、CLIP 图像文本分类处理模型、OCR 识别、图像超分修复等模型的推理能力，提供了高性价比、高灵活性的 AI 基础设施构建选项。

英特尔AMX及CPU大模型推理与主流GPU性能一致

华栖云之所以选择基于英特尔 CPU 的 AI 推理方案，是因为该方案能够充分利用媒体云已有的服务器资源，在架构上无需进行大幅变动，性价比较高，且在性能上足以满足智能资源管理、智能审核、智能生产等场景所需。

现在，AIGC技术得到越来越多应用。华栖云同样采用了基于大语言模型的 AIGC 技术，使智能媒体云平台能够自动进行要点归纳及内容创作、改写，做到一课一虚拟助教，提高师生教学互动能力。此外，AIGC 技术还能用于课程内容识别理解等更多场景，带来智慧教育新体验。所以，大语言模型的推理能力对于华栖云至关重要。

华栖云采用内置AI加速器英特尔AMX的第四代英特尔至强可扩展处理器，在大语言模型推理性能上表现出强劲实力。在华栖云的测试中，对比了某主流 GPU 与第四代英特尔至强可扩展处理器的大语言模型推理性能，测试数据如图1 所示，两者性能基本保持在同一层面。这得益于英特尔AMX 针对广泛的硬件和软件优化，通过提供矩阵类型的运算，显着增加了人工智能应用程序的每时钟指令数 (IPC)，可为 AI 工作负载中的训练和推理上提供显著的性能提升。从而使华栖云使用CPU不额外增加成本的情况下，获得了同样的AI推理性能。

图1：大语言模型推理性能测试1

英特尔助华栖云多个AI推理场景性能大幅提升

除了大语言模型推理之外，华栖云多项AI推理性能均在英特尔至强可扩展处理器和英特尔AMX的加持下得到显著提升。

第一，对比语言图像预训练 (CLIP)是一种在各种（图像、文本）对上训练的神经网络，可以用自然语言指示它在给定图像的情况下推理最相关的文本片段，而无需直接针对任务进行优化。在媒体云平台场景中，CLIP 不仅提供了先进的图像分类结果，而且还提供了对象分类、视频中的动作识别和 OCR 等其他视觉任务。CLIP 有助于媒体云平台在不构建巨大数据集的前提下，训练高质量的模型，同时降低计算成本。

华栖云 CLIP 算法推理性能测试数据如图 2 所示，在将模型转化为BF16 后，第四代英特尔至强可扩展处理器的 CLIP 推理性能相较第二代英特尔至强可扩展处理器最高提升了 95.63 倍2。

图2：华栖云 CLIP 算法推理性能测试3

第二，OCR 识别在媒体云平台中，常用于图像中的信息提取，如课件识别、版面识别、试卷识别等。华栖云在测试中，对比了第二代英特尔至强可扩展处理器与第四代英特尔至强可扩展处理器的单线程吞吐性能差异。测试数据如图 3 所示，对比第二代英特尔至强可扩展处理器，第四代英特尔至强可扩展处理器的性能最高可提升约 6.41 倍4。

图3：OCR 单线程吞吐测试5

第三，超分辨率 (Super-Resolution) 是指通过硬件或软件的方法提高原有图像的分辨率，超分辨率算法有效提高放大后图像的质量，同时节约带宽、存储等方面的资源。ESRGAN 是一种基于生成对抗网络 (GAN) 的图像超分辨率算法，其主要思想是通过学习低分辨率 (LR) 图像与其高分辨率 (HR) 对应物之间的映射，来实现从 LR 图像到 HR 图像的映射过程，从而实现图像的超分辨率。SwinIR 则是一种基于 Swin Transformer 的图像超分辨率重建算法，相对于传统的 Transformer 模型，在处理图像等二维数据时，具有更好的并行性和更高的计算效率。

华栖云测试了第二代/第四代英特尔至强可扩展处理器在ESRGAN 算法推理中的性能表现，测试数据如图 4 所示，在将模型转化为 BF16 后，第四代英特尔至强可扩展处理器的ESRGAN 推理性能相较第二代英特尔至强可扩展处理器最高提升了 3 倍6。

图4：ESRGAN 算法吞吐性能测试7

SwinIR 模型推理性能测试数据如图 5 所示，在将模型转化为BF16 后，第四代英特尔至强可扩展处理器的 SwinIR 推理性能相较第二代英特尔至强可扩展处理器最高提升了 7.4 倍8。

图5：SwinIR 模型推理性能测试9

第四，人体姿态识别算法能够通过图像获取并识别人体骨架信息，通过算法判断动作类别和姿态，从而实现动作识别。华栖云在智能媒体云平台中采用了基于 OpenPose 方法与 EfficientHRNet 方法的多人 2D 姿势估计网络，针对图像中的每个人，网络都会检测到一个人体姿势：一个由关键点和关键点之间的连接组成的身体骨架。

华栖云基于 OpenPose 方法的人体姿态识别算法推理性能测试数据如图 6 所示，在将模型转化为 BF16 后，第四代英特尔至强可扩展处理器的 OpenPose 推理性能相较第二代英特尔至强可扩展处理器最高提升了 64.82 倍10。

图6：基于 OpenPose 方法的人体姿态识别推理性能测试11

基于CPU的AI推理方案为华栖云降低TCO并增加灵活性

在采用内置了英特尔AMX 的第四代英特尔至强可扩展处理器之后，华栖云提升了多种典型算法的推理性能，满足了教育、广电等客户对于智能媒体云平台的性能要求，为客户带来以下价值：

在保证模型精度的前提下，显著提升多个 AI 模型的性能表现，有助于提供更加高效的智能媒体云服务；通过软件优化充分释放了硬件潜力，支持有效利用服务器资源，无需独立、专用的 AI 加速器，有助于降低媒体云平台构建的 TCO；通用的 CPU 平台不仅能够高效支撑 AI 推理，而且能够灵活应对编解码、转码等负载，更具可扩展性。

AIGC 等AI技术的应用正在为媒体行业注入充沛的活力，推动媒体行业的智能化转型。华栖云以超高清智能媒体处理云平台为驱动引擎，在泛媒体、大教育、政企等行业形成了成熟的云服务及云解决方案。通过与英特尔合作，并利用英特尔AMX 等创新技术，华栖云正在推动新一代智能融媒体平台覆盖媒体内容生产、管理、发布、运营和数据化管理全流程应用。

英特尔AMX及英特尔至强可扩展处理器以不逊于GPU的AI推理性能，为华栖云降低了云平台TCO的同时，提供了更大的灵活性和扩展性，支持华栖云智能媒体云平台以新思维、新技术重塑媒体全链路生产与运营模型，建立集内容、产品、用户、数据一体的全媒体融合运营体系，实现媒体基于内容的价值再造。

审核编辑：刘清

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

处理器

处理器

+关注

关注
68

文章
19535

浏览量
231858
英特尔

英特尔

+关注

关注
61

文章
10071

浏览量
172880
OCR

OCR

+关注

关注
0

文章
147

浏览量
16501
ai技术

ai技术

+关注

关注
1

文章
1305

浏览量
24682
AI加速器

AI加速器

+关注

关注
1

文章
69

浏览量
8762

原文标题：英特尔® AMX 助华栖云多场景 AI 推理性能大幅提升，最多达 96 倍

文章出处：【微信号：英特尔中国，微信公众号：英特尔中国】欢迎添加关注！文章转载请注明出处。

将英特尔®独立显卡与OpenVINO™工具套件结合使用时，无法运行推理怎么解决？

使用英特尔®独立显卡与OpenVINO™工具套件时无法运行推理

发表于 03-05 06:56

英特尔至强6助力HPE Gen12，AI推理性能提升3倍！

，CPU处理器永远都是C位的存在，没有它的基础性支撑，其他一切都是空中楼阁。当然，CPU处理器也在积极适应新的时代趋势，既要不断增强计算性能，也要低碳环保提高能效，但它们俩如同硬币的正反面，不可能完美兼顾，那该怎么办呢？对此，英特尔的解决方案是兵分

发表于 02-18 14:18 •144次阅读

<b class='flag-5'>英特尔</b>至强6助力HPE Gen12，<b class='flag-5'>AI</b><b class='flag-5'>推理性能</b><b class='flag-5'>提升</b>3<b class='flag-5'>倍</b>！

英特尔Gaudi 2D AI加速器助力DeepSeek Janus Pro模型性能提升

近日，DeepSeek公司发布了备受瞩目的Janus Pro模型，其凭借超强性能和高精度在业界引发了广泛关注。为了进一步提升该模型的应用效能，英特尔宣布其Gaudi 2D AI加速器已

发表于 02-10 11:10 •328次阅读

使用NVIDIA推理平台提高AI推理性能

NVIDIA推理平台提高了 AI 推理性能，为零售、电信等行业节省了数百万美元。

发表于 02-08 09:59 •323次阅读

使用NVIDIA<b class='flag-5'>推理</b>平台提高<b class='flag-5'>AI</b><b class='flag-5'>推理性能</b>

英特尔与扣子云平台合作推出AI PC Bot专区与端侧插件商店

。 Coze-AIPC是扣子云平台与英特尔联合发布的增强版智能体开发平台，它深度整合了英特尔AI PC的端侧能力与扣子云平台的优势。通过扣子

发表于 12-27 14:11 •523次阅读

英特尔带您解锁云上智算新引擎

在近日举办的2024火山引擎FORCE原动力大会上，英特尔与火山引擎联合发布基于英特尔 至强 6 性能核处理器的第四代服务器实例，以打造弹性算力底座的产品化实践。同时，英特尔也携手扣子

发表于 12-23 14:05 •510次阅读

英特尔计划明年AI PC出货一亿台

目标相较于原先2024年4000万台的目标有了大幅提升。这些AI PC将由英特尔的AI处理器驱动，其中大部分将基于去年年底推出的Meteor

发表于 10-31 14:26 •567次阅读

英特尔AI PC无所不能的实力

百业的最后一公里问题。而客户端的AI能力也在不断提升，最终将解决个人AI的数据隐私和个性化问题。可见，AI非常适合云边端三级架构，按照用户

发表于 10-12 10:26 •538次阅读

开箱即用，AISBench测试展示英特尔至强处理器的卓越推理性能

。中国电子技术标准化研究院赛西实验室依据国家标准《人工智能服务器系统性能测试规范》（征求意见稿）相关要求，使用AISBench 2.0测试工具，完成了第五代英特尔至强可扩展处理器的AI大模型

发表于 09-06 15:33 •518次阅读

英特尔发布AI创作应用AI Playground，将于今夏正式上线！

的AI PC入门应用程序AI Playground，让广大用户在本地即可快速实现AI个性化创作。 英特尔Xe2 GPU架构，带来50%的性能

发表于 06-14 09:44 •605次阅读

英特尔助力京东云用CPU加速AI推理，以大模型构建数智化供应链

英特尔助力京东云用CPU加速AI推理，以大模型构建数智化供应链

发表于 05-27 11:50 •649次阅读

宁畅B5000 G5多节点服务器采用第五代英特尔至强可扩展处理器

“基于第五代英特尔 至强可扩展处理器的宁畅B5000 G5多节点服务器，可以在满足大量AI推理场景在吞吐量、时延、容量、并发能力等方面的需求，而且与专用的GPU服务器相比，在灵活性方

发表于 05-27 11:46 •974次阅读

华擎推出AI QuickSet软件，支持英特尔锐炫Arc A系列显卡

今日，华擎宣布将AI QuickSet软件工具扩展至英特尔锐炫Arc A系列显卡，使其能够便捷地安装Stable Diffusion web UI OpenVINO，结合英特尔Open

发表于 05-11 10:58 •747次阅读

英特尔发布新一代神经拟态系统Hala Point，11.5亿神经元，12倍性能提升

Point改进了架构，将神经元容量提高了10倍以上，性能提高了12倍。 英特尔研究院神经拟态计算实验室总监Mike Davi

发表于 04-19 09:43 •583次阅读

浪潮信息"源2.0"大模型YuanChat支持英特尔最新商用AI PC

% 。企业可以在全新的英特尔商用客户端AI PC上，使用AI PC大模型效率工具"YuanChat"快速本地化部署和运行"源2.0"大模型，以更快的访问速度、更高的性能和更好的数据安

发表于 03-27 22:52 •606次阅读