0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

采用阿里云倚天实例g8y对深度学习推理性能进行测试和比较

jf_9aVl32Dp 来源:阿里云开发者社区 作者:弹性计算-百晓生 2022-11-25 10:33 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

简介:本次实测涵盖图像分类识别、图像目标检测、自然语言处理以及搜索推荐等四种常见的深度学习推理场景

近几年,深度学习在视觉、自然语言处理、搜索广告推荐等工业界的各个领域广泛落地。深度学习模型参数量的指数级上升、以及新的业务对复杂模型的需求,都要求云厂商的弹性计算能够降低算力成本、提高计算效率,尤其是深度学习的推理,将会成为优化的重点。在此因素影响下,阿里云平头哥团队推出了全球首个5nm 制程的 ARM Server 芯片倚天710。该芯片基于 ARM Neoverse N2 架构,支持最新的 ARMv9 指令集,其中包括 i8mm,bf16等扩展指令集,能在科学/AI计算领域获得性能优势。

在本文中,我们聚焦于采用倚天710芯片的 ECS倚天实例g8y,对深度学习推理任务的性能进行了测试和比较。

01 Workloads

本次分析,我们选择了四种常见的深度学习推理场景,涵盖图像分类识别、图像目标检测、自然语言处理以及搜索推荐领域。所使用的代表性模型如下:

Area Task Model
Vision Image Classification Resnet50-v1.5 and VGG19
Vision Object Detection SSD-Resnet34
Language Natural Language Processing BERT-Large
Recommendation Click-Through Rate Prediction DIN

02 Platforms

实例类型

我们在阿里云两种实例类型上进行测试,分别是ECS g8y(倚天710) 和 ECS g7(Ice Lake),实例均为 8-vCPU

Deep Learning Framework

在所有平台,我们使用 TensorFlow v2.10.0 和 PyTorch 1.12.1。

在 Arm 设备上,TensorFlow 支持两种后端,我们使用 OneDNN 后端。OneDNN 是一个开源的跨平台深度学习库,并且能够集成 Arm Compute Library(Arm设备的机器学习计算库)。在 Arm 设备上使用该后端能够取得更高的性能。

OneDNN 在 PyTorch 上的支持仍然是实验版本,因此在 PyTorch 框架上使用默认的 OpenBLAS 后端。

BFloat16

BFloat16 (BF16) 是一种浮点数表示形式,其指数位与单精度浮点数(IEEE FP32)保持一致,但是小数位只有 7 位,因此 BF16 的表示范围与 FP32 几乎一致,但是精度较低。BF16 非常适合深度学习,因为通常精度下降并不会显著降低模型的预测精度,但是16位的数据格式却能够节省空间、加速计算。

03 TensorFlow Performance Comparison

g8y 借助新的 BF16 指令,大幅提升了深度学习模型的推理性能,在多个场景下跑出了比 g7 更优秀的数据。此外,倚天 710 作为自研芯片,相比 g7 最大有 30% 的价格优势。

下面四幅图分别是 Resnet50,SSD,BERT 和 DIN 模型下的对比结果,其中,Resnet,SSD 和 BERT 都来自 MLPerf Inference Benchmark 项目,DIN 是 alibaba 提出的点击率预测模型。蓝色柱状条是直接性能对比,橙色柱状条是考虑了单位价格的性能对比,例如在 Resnet50 上,g8y 的性能是 g7 的 1.43倍,单位价格的性能是 g7 的 2.05 倍。

b3637baa-6c03-11ed-8abf-dac502259ad0.png

Figure 1: Resnet50 在 g8y 和 g7 上的推理性能对比图

说明:此处设置 Batch Size = 32,测试图像尺寸为 224 * 224

b3a2567c-6c03-11ed-8abf-dac502259ad0.png

Figure 2: SSD 性能对比图

说明:此处 Batch Size = 1,测试图像尺寸为1200 * 1200

b3bdb886-6c03-11ed-8abf-dac502259ad0.png

Figure 3: BERT 性能对比图

b3dae80c-6c03-11ed-8abf-dac502259ad0.png

Figure 4: DIN 性能对比图

04 PyTorch Performance Comparison

Arm 上的 OneDNN 后端的 PyTorch 版本仍然是实验性质,因此本次实验采用默认的 OpenBLAS 后端。OpenBLAS 是一个开源的线性代数库,我们为其添加了针对 Arm Neoverse N2 的 BFloat16 矩阵乘法计算的优化实现。

OpenBLAS BFloat16 矩阵乘法优化

矩阵乘法和深度学习存在非常紧密的关系,例如深度学习中常见的 Fully Connected Layer,Convolutional Layer等,最终是被转换成矩阵乘法实现的。因此,加速矩阵乘法最终能加速模型的计算。

OpenBLAS 是一个广泛使用的计算库,默认作为 Numpy,PyTorch 等库的后端,我们在调研中发现该库不支持倚天 710 的 bf16 指令扩展,在和社区交流后,我们决定利用倚天 710 支持的 BFMMLA 等向量指令实现支持 bf16 数据格式的矩阵乘法,实现后性能的到大幅提升,性能对比如图 5 所示。该实现目前已经贡献给开源社区,OpenBLAS 的最新版本 0.3.21 也已经合入。

b3fcf8c0-6c03-11ed-8abf-dac502259ad0.png

Figure5: OpenBLAS 矩阵乘法性能对比

说明:参与运算的矩阵的行数和列数均为 1000。

PyTorch CNN Performance

OpenBLAS 作为 PyTorch 的默认后端,在矩阵乘法上的优化可以体现在 PyTorch 实现的深度学习模型中,我们以卷积计算占比较高的模型 VGG19 为例,该模型推理时,所有的卷积算子会被转换为矩阵乘法,并调用 OpenBLAS 完成计算。下图是 VGG 19 的性能对比:

b41e7e28-6c03-11ed-8abf-dac502259ad0.png

Figure 6: VGG19性能对比图

05 结论

本文的分析显示,在阿里云倚天实例g8y上,多个深度学习模型的推理性能高于同规格 g7,这主要得益于 Arm Neoverse N2 的新指令以及不断更新的软件支持(OneDNN、ACL 和 OpenBLAS)。在这个过程中,阿里云编译器团队贡献了一部分软件优化,后续我们将继续关注该领域的软硬件优化,提高 Arm 系列实例在 ML/AI 方面的竞争力。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    463

    文章

    54463

    浏览量

    469604
  • ARM
    ARM
    +关注

    关注

    135

    文章

    9589

    浏览量

    393764
  • 深度学习
    +关注

    关注

    73

    文章

    5610

    浏览量

    124651

原文标题:性能最高提升50%,ECS倚天实例深度学习推理性能实测

文章出处:【微信号:Arm软件开发者,微信公众号:Arm软件开发者】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Supermicro率先发布NVIDIA BlueField-4 STX存储服务器,提升AI推理性能

    闪存阵列打造。 加利福尼亚州2026年3月19日 /美通社/ -- Supermicro, Inc. (NASDAQ:SMCI) 作为面向AI、、存储及5G/Edge的整体IT解决方案提供商,今日发布了业内首批上下文内存(CMX)存储服务器之一。该产品是NVIDI
    的头像 发表于 03-19 15:46 186次阅读
    Supermicro率先发布NVIDIA BlueField-4 STX存储服务器,提升AI<b class='flag-5'>推理性能</b>

    今日看点:消息称 AMD、高通考虑导入 SOCAMM 内存;曦望发布新一代推理GPU芯片启望S3

    推理深度定制的GPGPU芯片。其单芯片推理性能提升5倍,支持从FP16到FP8、FP6、FP4等多精度灵活切换,释放低精度推理效率,这种设计
    发表于 01-28 11:09 1359次阅读

    DeepX OCR:以 DeepX NPU 加速 PaddleOCR 推理,在 ARM 与 x86 平台交付可规模化的高性能 OCR 能力

    落地过程中,企业逐渐意识到:** 制约 OCR 应用进一步扩展的核心因素,已不再是模型准确率本身,而是整体推理性能与部署成本。 具体来说,规模化 OCR 应用主要面临以下几方面挑战: 吞吐量(FPS)不足 ,难以支撑高并发或多路输入场景; 推理
    的头像 发表于 01-22 21:02 351次阅读
    DeepX OCR:以 DeepX NPU 加速 PaddleOCR <b class='flag-5'>推理</b>,在 ARM 与 x86 平台交付可规模化的高<b class='flag-5'>性能</b> OCR 能力

    声智科技亮相2026阿里通义智能硬件展

    1月8日至11日,备受瞩目的阿里通义智能硬件展在深圳火热开启。作为专注声学AI的全球创新企业,声智科技(SoundAI)与阿里通义大模型
    的头像 发表于 01-19 16:06 731次阅读

    Powered by XuanTie,Qwen Inside:阿里通义大模型携手玄铁 RISC-V开启“端侧智能”新纪元

    的优势,深度融合,正式推出“Powered by XuanTie,Qwen Inside”技术战略——通义大模型算法与基于开源 RISC-V 架构的玄铁处理器将通过软硬全链路协同优化,实现通义大模型家族在 RISC-V 架构上的极致高效部署和推理性能,从端到
    的头像 发表于 01-12 11:49 411次阅读
    Powered by XuanTie,Qwen Inside:<b class='flag-5'>阿里</b>通义大模型携手玄铁 RISC-V开启“端侧智能”新纪元

    NVIDIA TensorRT LLM 1.0推理框架正式上线

    TensorRT LLM 作为 NVIDIA 为大规模 LLM 推理打造的推理框架,核心目标是突破 NVIDIA 平台上的推理性能瓶颈。为实现这一目标,其构建了多维度的核心实现路径:一方面,针对需
    的头像 发表于 10-21 11:04 1453次阅读

    英特尔助力阿里推出多款实例和存储方案

    AI时代数据爆发式增长,让企业对数据的实时处理、深度分析与智能决策等提出了更高要求,同时也对基础设施在性能、成本效益上的综合能力提出了更迫切的需求。为应对这些挑战,阿里
    的头像 发表于 10-16 10:22 771次阅读

    利用NVIDIA DOCA GPUNetIO技术提升MoE模型推理性能

    在第三届 NVIDIA DPU 中国黑客松竞赛中,我们见证了开发者与 NVIDIA 网络技术的深度碰撞。在 23 支参赛队伍中,有 5 支队伍脱颖而出,展现了在 AI 网络、存储和安全等领域的创新突破。
    的头像 发表于 09-23 15:25 1237次阅读

    使用NVIDIA NVLink Fusion技术提升AI推理性能

    本文详细阐述了 NVIDIA NVLink Fusion 如何借助高效可扩展的 NVIDIA NVLink scale-up 架构技术,满足日益复杂的 AI 模型不断增长的需求。
    的头像 发表于 09-23 14:45 1152次阅读
    使用NVIDIA NVLink Fusion技术提升AI<b class='flag-5'>推理性能</b>

    Vision Board开发板使用paho_mqtt连接阿里失败是什么原因呢?

    mqtt_sample中添加阿里平台连接参数, 在下方的代码也进行了对应的修改 4.编译烧录,可以看到wifi模块初始化正常,并且进行联网 5.启动mqtt,然后就报错了,主要
    发表于 09-18 06:37

    华为亮相2025金融AI推理应用落地与发展论坛

    创新技术——UCM推理记忆数据管理器,旨在推动AI推理体验升级,提升推理性价比,加速AI商业正循环。同时,华为携手中国银联率先在金融典型场景开展UCM技术试点应用,并联合发布智慧金融AI推理
    的头像 发表于 08-15 09:45 1405次阅读

    阿里设备的物模型数据里面始终没有值是哪里的问题?

    如上图,不知道讲清楚没有。 IG502自定义TOPIC 上发到阿里没问题。采用阿里物模型的格式来上发就不行。请大佬指教!
    发表于 08-05 06:43

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    网络智能诊断平台。通过对私有化网络数据的定向训练,信而泰打造了高性能、高可靠性的网络诊断模型,显著提升了AI辅助诊断的精准度与实用性。该方案实现了网络全流量深度解析能力与AI智能推理分析能力的有机融合
    发表于 07-16 15:29

    大模型推理显存和计算量估计方法研究

    方法。 一、引言 大模型推理是指在已知输入数据的情况下,通过深度学习模型进行预测或分类的过程。然而,大模型的推理过程对显存和计算资源的需求较
    发表于 07-03 19:43

    广汽集团与阿里、华为展开深度合作

    “AI+”技术正快速向汽车产业渗透,广汽集团通过与阿里、华为等优秀科技企业展开深度合作,持续构建“广汽AI智能生态链Golink”,全面推进数字化、智能化变革,加速向“数据+AI”双轮驱动转型,为研发、生产、销售、运营及国际化
    的头像 发表于 05-28 15:33 1193次阅读