0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Arm Neoverse V1–性能分析和遥测规范的自顶向下方法

jf_9aVl32Dp 来源:Arm软件开发者 2023-03-02 13:48 次阅读

Arm Neoverse V1 性能分析方法白皮书(https://armkeil.blob.core.windows.net/developer/Files/pdf/white-paper/neoverse-v1-core-performance-analysis.pdf)现在可以下载了,它可以帮助您为基于V1的产品系统优化应用程序代码

白皮书是对上一篇“Arm Neoverse N1:性能分析方法”(https://community.arm.com/arm-community-blogs/b/tools-software-ides-blog/posts/arm-neoverse-n1-performance-analysis-methodology)的更新,涵盖了从N1到V1内核的新功能和更新。此资源可用于了解和优化V1平台上应用程序的性能。

为了充分利用您花费的分析和优化时间,选择正确的PMU事件并遵循具有用户友好软件度量的结构化方法是非常重要的。在白皮书中,我们介绍了Neoverse V1的Arm自顶向下分析方法。

在本博客中,我们概述了从N1到V1内核的更新,并概述了本白皮书的内容。我们还引用了其他有用的资源,以充分利用Neoverse V1平台。

ArmNeoverse V1支持自上而下的1级指标。

Arm Neoverse V1平台是第一个Arm核心,为自上而下的方法学1级指标支持全套事件和指标。这些指标对于性能分析和优化是一个巨大的增值。

这些指标提供了SLOT级别处理器流水线利用率的详细细分,从而能够评估处理器效率和识别瓶颈。该功能是Arm Neoverse V1平台性能分析功能的一个主要增强,此外还有其他可用于进一步分析的微架构探索指标。

Arm Neoverse V1遥测规范:性能分析的事件和指标。

Arm Neoverse V1遥测规范,包括软件产品特定事件描述和衍生分析指标,可在Arm Neovere V1性能分析方法白皮书附录B和C中找到。

Arm遥测解决方案库

白皮书中引用的机器可读JSON文件中提供的遥测数据和压力工作负载套件现在可以在GitLab遥测解决方案库(https://gitlab.arm.com/telemetry-solution/telemetry-solution)中找到。

Neoverse V1 PMU事件和指标备忘单

在这个过程中,熟悉Arm Neoverse微体系结构,包括其复杂的管道和多级内存层次结构,可能会有所帮助。由于Neoverse内核提供了100多个硬件计数器可供选择,因此确定重点关注的事件的优先级非常重要。为了帮助完成这项任务,我们创建了列出事件及其相应派生度量的备忘单。

5d7bda8a-b06d-11ed-bfe3-dac502259ad0.jpg

表1。Neoverse V1核心活动备忘单

主要参考文献

以下两份文件提供了对Neoverse V1进行性能分析所需的所有信息,是我们推荐的参考文件:

1) Arm Neoverse V1性能分析方法白皮书(https://armkeil.blob.core.windows.net/developer/Files/pdf/white-paper/neoverse-v1-core-performance-analysis.pdf):本白皮书介绍了一种性能分析方法,并介绍了如何在Arm Neovere V1平台上进行工作负载表征。这是对上一篇Neoverse N1白皮书的更新,该白皮书介绍了性能分析方法,并展示了如何在Arm Neoverse N1平台上进行工作负载表征。如果您是Arm平台和性能分析工具(如Linuxperf)的新手,我们建议您先阅读本白皮书。

2) Arm Neoverse V1 PMU指南(直接下载):本文档全面概述了所有硬件PMU事件,包括在性能分析中有效使用事件所需的微架构和架构细节。

Arm Neoverse V1核心

Arm Neoverse V1是一个核心,旨在为苛刻的云、HPC和AI/ML辅助工作负载提供最大的单线程性能。Neoverse V1是第一个包含可扩展向量扩展(SVE)的Neoverse处理器,可实现最大向量性能、HPC代码重用和使用寿命。Neoverse V1支持Bfloat16和Int8 MatMul指令。与Neoverse N1相比,这些指令可以为TensorFlow、PyTorch、OneDNN等机器学习框架提供高达3倍的性能。Neoverse V1 CPU目前可用于AWS EC2实例,由AWS Graviton3和AWS Graviton 3E处理器提供支持。

结论

我们自上而下的方法分析和遥测规范现在可用于Neoverse V1平台。我们将很快开始将这些信息上传到Linux perf工具。V系列内核,如V1,旨在在Neoverse系列CPU IP中提供最大的单线程性能。Neoverse V1性能分析方法白皮书和V1 PMU指南可以帮助开发人员从V1架构中获得最大性能。我们鼓励所有使用基于V1的平台(包括AWS Graviton3和Graviton3E)的开发人员学习和使用它。

白皮书下载地址:https://armkeil.blob.core.windows.net/developer/Files/pdf/white-paper/neoverse-v1-core-performance-analysis.pdf

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    19772

    浏览量

    233124
  • ARM
    ARM
    +关注

    关注

    134

    文章

    9282

    浏览量

    374189
  • 应用程序
    +关注

    关注

    38

    文章

    3320

    浏览量

    58608

原文标题:Arm Neoverse V1–性能分析和遥测规范的自顶向下方法

文章出处:【微信号:Arm软件开发者,微信公众号:Arm软件开发者】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
    相关推荐
    热点推荐

    深度解析Neoverse V1Arm的重要意义

    2018年10月,Arm首次宣布推出面向云到边缘基础设施产品Neoverse及其初步路线图,并承诺平台效能30%的年增长率指标将持续到2022年及以后。 根据Neoverse平台PPA设计原则,N
    的头像 发表于 05-19 17:49 5571次阅读
    深度解析<b class='flag-5'>Neoverse</b> <b class='flag-5'>V1</b>对<b class='flag-5'>Arm</b>的重要意义

    Arm Neoverse家族新增V1和N2两大平台,突破高性能计算瓶颈

    带来 50%和 40%的性能提升。此外,Arm也同时发布了CMN-700,作为构建基于Neoverse V1和 N2 平台高性能SoC的关键
    的头像 发表于 04-30 16:20 9611次阅读

    基于向下技术的工程机械Digital Prototyping设计方法及应用

    【作者】:刘雪冬【来源】:《华南理工大学》2009年【摘要】:向下的设计方法及装配建模技术是在消费品行业应用比较成熟的一种设计方法和理论
    发表于 04-24 09:20

    如何实现扩频通信调制器向下的设计?

    如何实现扩频通信调制器向下的设计?如何实现扩频通信调制器的仿真测试?
    发表于 04-29 06:46

    Arm Neoverse V1的AWS Graviton3在深度学习推理工作负载方面的作用

    ) 与 AWS Graviton2 (c6g) 的性能特点AWS Graviton3 (c7g) 引入了 Arm Neoverse V1 CPU,与 AWS Graviton2 (c6
    发表于 08-31 15:03

    ARM Neoverse N1 Core性能分析方法

    使用Neoverse N1 CPU上的性能监测单元(PMU)功能来确定和消除性能瓶颈的工作负载表征方法。目标受众是从事软件优化、调优和开发的
    发表于 08-09 06:01

    Arm Neoverse V1 PMU指南

    ®体系结构参考手册。有关Neoverse V1的更多详细描述,请请参阅Arm®NeoverseV1技术参考手册。 本文档不讨论使用软件开
    发表于 08-09 07:30

    Arm Neoverse™ N1 PMU指南

    ARMv8-A。 有关Neoverse N1的更多详细说明,请参阅ARM®Neoverse™N1技术参考手册。 本文档不讨论使用软件开发工具
    发表于 08-12 07:10

    ARM Neoverse™N1核心技术参考手册

    Neoverse™N1内核是一款高性能、低功耗的ARM产品,采用ARM®V8-A架构。
    发表于 08-29 08:05

    ARM NeoverseV1参考设计软件开发人员指南

    支持两种RD-V1配置: ·RD-V1 FVP型号配置-M,这是一款单芯片系统,具有16个ARM®NeoverseV1内核。 ·RD-
    发表于 08-29 06:59

    通过模块之间的调用实现向下的设计

    通过模块之间的调用实现向下的设计目的:学习状态机的嵌套使用实现层次化、结构化设计。
    发表于 02-11 05:53 2544次阅读
    通过模块之间的调用实现<b class='flag-5'>自</b><b class='flag-5'>顶</b><b class='flag-5'>向下</b>的设计

    互联网巨头纷纷启用Arm CPU架构,Arm最新Neoverse V1和N2平台加速云服务器芯片

    V1平台。 NeoverseN2 和V1,较N1性能分别提升40%和50% Neoverse V1
    发表于 09-30 14:46 1389次阅读

    计算机网络:向下

    本文档包含Jim Kurose和Keith Ross编写的《计算机网络:向下方法(第7版)》复习题和问题的参考答案。这些答案只对指导老师有效。请不要复制或者分发给其他人(即使是其他指导老师)。请
    发表于 03-13 14:23 0次下载

    eda向下的设计方法 eda自顶向下设计优点

    EDA(Electronic Design Automation,电子设计自动化)向下的设计方法是一种常见的电子电路设计方法。该
    发表于 04-10 16:49 4388次阅读

    ArmArm Neoverse计算子系统(CSS):Arm Neoverse CSS V3和Arm Neoverse CSS N3

    3和Neoverse CSS N3代表了Arm计算子系统产品组合的最新进展。 Neoverse CSS V3是高性能
    的头像 发表于 04-24 17:53 1431次阅读
    <b class='flag-5'>Arm</b>新<b class='flag-5'>Arm</b> <b class='flag-5'>Neoverse</b>计算子系统(CSS):<b class='flag-5'>Arm</b> <b class='flag-5'>Neoverse</b> CSS <b class='flag-5'>V</b>3和<b class='flag-5'>Arm</b> <b class='flag-5'>Neoverse</b> CSS N3

    接口核心板必选 | 视美泰AIoT-3568SC 、 AIoT-3576SC:小身材大能量,轻松应对多场景设备扩展需求!

    在智能硬件领域,「适配」是绕不开的关键词。无论是小屏设备的”寸土寸金”,还是模具开发的巨额成本,亦或是多产品线兼容的复杂需求,开发者总在寻找一款能「以不变应万变」的核心解决方案。视美泰旗下的AIoT-3568SC与AIoT-3576SC接口核心板系列,可以说是专为高灵活适配场景而生!无需为设备尺寸、模具限制或产品线差异妥协,一块核心板,即可释放无限可能。为什

    视美泰
    15分钟前
    16

    3核A7+单核M0多核异构,米尔全新低功耗RK3506核心板发布

    近日,米尔电子发布MYC-YR3506核心板和开发板,基于国产新一代入门级工业处理器瑞芯微RK3506,这款芯片采用三核Cortex-A7+单核Cortex-M0多核异构设计,不仅拥有丰富的工业接口、低功耗设计,还具备低延时和高实时性的特点。核心板提供RK3506B/RK3506J、商业级/工业级、512MB/256MBLPDDR3L、8GBeMMC/256

    米尔电子
    2小时前
    56

    搭建树莓派网络监控系统:顶级工具与技术终极指南!

    树莓派网络监控系统是一种经济高效且功能多样的解决方案,可用于监控网络性能、流量及整体运行状况。借助树莓派,我们可以搭建一个网络监控系统,实时洞察网络活动,从而帮助识别问题、优化性能并确保网络安全。安装树莓派网络监控系统有诸多益处。树莓派具备以太网接口,还内置了Wi-Fi功能,拥有足够的计算能力和内存,能够在Linux或Windows系统上运行。因此,那些为L

    上海晶珩电子科技有限公司
    19小时前
    308

    STM32驱动SD NAND(贴片式SD卡)全测试:GSR手环生物数据存储的擦写寿命与速度实测

    在智能皮电手环及数据存储技术不断迭代的当下,主控 MCU STM32H750 与存储 SD NAND MKDV4GIL-AST 的强强联合,正引领行业进入全新发展阶段。二者凭借低功耗、高速读写与卓越稳定性的深度融合,以及高容量低成本的突出优势,成为大规模生产场景下极具竞争力的数据存储解决方案。

    MK米客方德
    20小时前
    328

    芯对话 | CBM16AD125Q这款ADC如何让我的性能翻倍?

    综述在当今数字化时代,模数转换器(ADC)作为连接模拟世界与数字系统的关键桥梁,其技术发展对众多行业有着深远影响。从通信领域追求更高的数据传输速率与质量,到医疗影像领域渴望更精准的疾病诊断,再到工业控制领域需要适应复杂恶劣环境的稳定信号处理,ADC的性能提升成为推动这些行业进步的重要因素。行业现状分析在通信行业,5G乃至未来6G的发展,对基站信号处理提出了极

    芯佰微电子
    23小时前
    268

    史上最全面解析:开关电源各功能电路

    01开关电源的电路组成开关电源的主要电路是由输入电磁干扰滤波器(EMI)、整流滤波电路、功率变换电路、PWM控制器电路、输出整流滤波电路组成。辅助电路有输入过欠压保护电路、输出过欠压保护电路、输出过流保护电路、输出短路保护电路等。开关电源的电路组成方框图如下:02输入电路的原理及常见电路1AC输入整流滤波电路原理①防雷电路:当有雷击,产生高压经电网导入电源时

    张飞实战电子官方
    1天前
    344

    有几种电平转换电路,适用于不同的场景

    一.起因一般在消费电路的元器件之间,不同的器件IO的电压是不同的,常规的有5V,3.3V,1.8V等。当器件的IO电压一样的时候,比如都是5V,都是3.3V,那么其之间可以直接通讯,比如拉中断,I2Cdata/clk脚双方直接通讯等。当器件的IO电压不一样的时候,就需要进行电平转换,不然无法实现高低电平的变化。二.电平转换电路常见的有几种电平转换电路,适用于

    张飞实战电子官方
    2天前
    325

    瑞萨RA8系列教程 | 基于 RASC 生成 Keil 工程

    对于不习惯用 e2 studio 进行开发的同学,可以借助 RASC 生成 Keil 工程,然后在 Keil 环境下愉快的完成开发任务。

    RA生态工作室
    05-01 10:00
    589

    共赴之约 | 第二十七届中国北京国际科技产业博览会圆满落幕

    作为第二十七届北京科博会的参展方,芯佰微有幸与800余家全球科技同仁共赴「科技引领创享未来」之约!文章来源:北京贸促5月11日下午,第二十七届中国北京国际科技产业博览会圆满落幕。本届北京科博会主题为“科技引领创享未来”,由北京市人民政府主办,北京市贸促会,北京市科委、中关村管委会,北京市经济和信息化局,北京市知识产权局和北辰集团共同承办。5万平方米的展览云集

    芯佰微电子
    2天前
    905

    道生物联与巍泰技术联合发布 RTK 无线定位系统:TurMass™ 技术与厘米级高精度定位的深度融合

    道生物联与巍泰技术联合推出全新一代 RTK 无线定位系统——WTS-100(V3.0 RTK)。该系统以巍泰技术自主研发的 RTK(实时动态载波相位差分)高精度定位技术为核心,深度融合道生物联国产新兴窄带高并发 TurMass™ 无线通信技术,为室外大规模定位场景提供厘米级高精度、广覆盖、高并发、低功耗、低成本的一站式解决方案,助力行业智能化升级。

    道生物联
    2天前
    703

    智能家居中的清凉“智”选,310V无刷吊扇驱动方案--其利天下

    炎炎夏日,如何营造出清凉、舒适且节能的室内环境成为了大众关注的焦点。吊扇作为一种经典的家用电器,以其大风量、长寿命、低能耗等优势,依然是众多家庭的首选。而随着智能控制技术与无刷电机技术的不断进步,吊扇正朝着智能化、高效化、低噪化的方向发展。那么接下来小编将结合目前市面上的指标,详细为大家讲解其利天下有限公司推出的无刷吊扇驱动方案。▲其利天下无刷吊扇驱动方案一

    其利天下技术
    05-10 16:29
    1.5k

    电源入口处防反接电路-汽车电子硬件电路设计

    一、为什么要设计防反接电路电源入口处接线及线束制作一般人为操作,有正极和负极接反的可能性,可能会损坏电源和负载电路;汽车电子产品电性能测试标准ISO16750-2的4.7节包含了电压极性反接测试,汽车电子产品须通过该项测试。二、防反接电路设计1.基础版:二极管串联二极管是最简单的防反接电路,因为电源有电源路径(即正极)和返回路径(即负极,GND),那么用二极

    张飞实战电子官方
    05-09 19:34
    1.1k

    半导体芯片需要做哪些测试

    首先我们需要了解芯片制造环节做⼀款芯片最基本的环节是设计->流片->封装->测试,芯片成本构成⼀般为人力成本20%,流片40%,封装35%,测试5%(对于先进工艺,流片成本可能超过60%)。测试其实是芯片各个环节中最“便宜”的一步,在这个每家公司都喊着“CostDown”的激烈市场中,人力成本逐年攀升,晶圆厂和封装厂都在乙方市场中“叱咤风云”,唯独只有测试显

    汉通达
    05-09 10:02
    967

    解决方案 | 芯佰微赋能示波器:高速ADC、USB控制器和RS232芯片——高性能示波器的秘密武器!

    示波器解决方案总述:示波器是电子技术领域中不可或缺的精密测量仪器,通过直观的波形显示,将电信号随时间的变化转化为可视化图形,使复杂的电子现象变得清晰易懂。无论是在科研探索、工业检测还是通信领域,示波器都发挥着不可替代的作用,帮助工程师和技术人员深入剖析电信号的细节,精准定位问题所在,为创新与发展提供坚实的技术支撑。一、技术瓶颈亟待突破性能指标受限:受模拟前端

    芯佰微电子
    05-09 10:36
    1.6k

    硬件设计基础----运算放大器

    1什么是运算放大器运算放大器(运放)用于调节和放大模拟信号,运放是一个内含多级放大电路的集成器件,如图所示:左图为同相位,Vn端接地或稳定的电平,Vp端电平上升,则输出端Vo电平上升,Vp端电平下降,则输出端Vo电平下降;右图为反相位,Vp端接地或稳定的电平,Vn端电平上升,则输出端Vo电平下降,Vn端电平下降,则输出端Vo电平上升2运算放大器的性质理想运算

    张飞实战电子官方
    05-08 19:34
    691