Arm Neoverse V1 性能分析方法白皮书(https://armkeil.blob.core.windows.net/developer/Files/pdf/white-paper/neoverse-v1-core-performance-analysis.pdf)现在可以下载了,它可以帮助您为基于V1的产品系统优化应用程序代码。
白皮书是对上一篇“Arm Neoverse N1:性能分析方法”(https://community.arm.com/arm-community-blogs/b/tools-software-ides-blog/posts/arm-neoverse-n1-performance-analysis-methodology)的更新,涵盖了从N1到V1内核的新功能和更新。此资源可用于了解和优化V1平台上应用程序的性能。
为了充分利用您花费的分析和优化时间,选择正确的PMU事件并遵循具有用户友好软件度量的结构化方法是非常重要的。在白皮书中,我们介绍了Neoverse V1的Arm自顶向下分析方法。
在本博客中,我们概述了从N1到V1内核的更新,并概述了本白皮书的内容。我们还引用了其他有用的资源,以充分利用Neoverse V1平台。
ArmNeoverse V1支持自上而下的1级指标。
Arm Neoverse V1平台是第一个Arm核心,为自上而下的方法学1级指标支持全套事件和指标。这些指标对于性能分析和优化是一个巨大的增值。
这些指标提供了SLOT级别处理器流水线利用率的详细细分,从而能够评估处理器效率和识别瓶颈。该功能是Arm Neoverse V1平台性能分析功能的一个主要增强,此外还有其他可用于进一步分析的微架构探索指标。
Arm Neoverse V1遥测规范:性能分析的事件和指标。
Arm Neoverse V1遥测规范,包括软件产品特定事件描述和衍生分析指标,可在Arm Neovere V1性能分析方法白皮书附录B和C中找到。
Arm遥测解决方案库
白皮书中引用的机器可读JSON文件中提供的遥测数据和压力工作负载套件现在可以在GitLab遥测解决方案库(https://gitlab.arm.com/telemetry-solution/telemetry-solution)中找到。
Neoverse V1 PMU事件和指标备忘单
在这个过程中,熟悉Arm Neoverse微体系结构,包括其复杂的管道和多级内存层次结构,可能会有所帮助。由于Neoverse内核提供了100多个硬件计数器可供选择,因此确定重点关注的事件的优先级非常重要。为了帮助完成这项任务,我们创建了列出事件及其相应派生度量的备忘单。
表1。Neoverse V1核心活动备忘单
主要参考文献
以下两份文件提供了对Neoverse V1进行性能分析所需的所有信息,是我们推荐的参考文件:
1) Arm Neoverse V1性能分析方法白皮书(https://armkeil.blob.core.windows.net/developer/Files/pdf/white-paper/neoverse-v1-core-performance-analysis.pdf):本白皮书介绍了一种性能分析方法,并介绍了如何在Arm Neovere V1平台上进行工作负载表征。这是对上一篇Neoverse N1白皮书的更新,该白皮书介绍了性能分析方法,并展示了如何在Arm Neoverse N1平台上进行工作负载表征。如果您是Arm平台和性能分析工具(如Linuxperf)的新手,我们建议您先阅读本白皮书。
2) Arm Neoverse V1 PMU指南(直接下载):本文档全面概述了所有硬件PMU事件,包括在性能分析中有效使用事件所需的微架构和架构细节。
Arm Neoverse V1核心
Arm Neoverse V1是一个核心,旨在为苛刻的云、HPC和AI/ML辅助工作负载提供最大的单线程性能。Neoverse V1是第一个包含可扩展向量扩展(SVE)的Neoverse处理器,可实现最大向量性能、HPC代码重用和使用寿命。Neoverse V1支持Bfloat16和Int8 MatMul指令。与Neoverse N1相比,这些指令可以为TensorFlow、PyTorch、OneDNN等机器学习框架提供高达3倍的性能。Neoverse V1 CPU目前可用于AWS EC2实例,由AWS Graviton3和AWS Graviton 3E处理器提供支持。
结论
我们自上而下的方法分析和遥测规范现在可用于Neoverse V1平台。我们将很快开始将这些信息上传到Linux perf工具。V系列内核,如V1,旨在在Neoverse系列CPU IP中提供最大的单线程性能。Neoverse V1性能分析方法白皮书和V1 PMU指南可以帮助开发人员从V1架构中获得最大性能。我们鼓励所有使用基于V1的平台(包括AWS Graviton3和Graviton3E)的开发人员学习和使用它。
白皮书下载地址:https://armkeil.blob.core.windows.net/developer/Files/pdf/white-paper/neoverse-v1-core-performance-analysis.pdf
审核编辑 :李倩
-
处理器
+关注
关注
68文章
19772浏览量
233124 -
ARM
+关注
关注
134文章
9282浏览量
374189 -
应用程序
+关注
关注
38文章
3320浏览量
58608
原文标题:Arm Neoverse V1–性能分析和遥测规范的自顶向下方法
文章出处:【微信号:Arm软件开发者,微信公众号:Arm软件开发者】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
深度解析Neoverse V1对Arm的重要意义

Arm Neoverse家族新增V1和N2两大平台,突破高性能计算瓶颈
基于自顶向下技术的工程机械Digital Prototyping设计方法及应用
Arm Neoverse V1的AWS Graviton3在深度学习推理工作负载方面的作用
ARM Neoverse N1 Core性能分析方法
Arm Neoverse V1 PMU指南
Arm Neoverse™ N1 PMU指南
ARM Neoverse™V1参考设计软件开发人员指南
互联网巨头纷纷启用Arm CPU架构,Arm最新Neoverse V1和N2平台加速云服务器芯片自研
计算机网络:自顶向下
eda自顶向下的设计方法 eda自顶向下设计优点
Arm新Arm Neoverse计算子系统(CSS):Arm Neoverse CSS V3和Arm Neoverse CSS N3


接口核心板必选 | 视美泰AIoT-3568SC 、 AIoT-3576SC:小身材大能量,轻松应对多场景设备扩展需求!
在智能硬件领域,「适配」是绕不开的关键词。无论是小屏设备的”寸土寸金”,还是模具开发的巨额成本,亦或是多产品线兼容的复杂需求,开发者总在寻找一款能「以不变应万变」的核心解决方案。视美泰旗下的AIoT-3568SC与AIoT-3576SC接口核心板系列,可以说是专为高灵活适配场景而生!无需为设备尺寸、模具限制或产品线差异妥协,一块核心板,即可释放无限可能。为什

3核A7+单核M0多核异构,米尔全新低功耗RK3506核心板发布
近日,米尔电子发布MYC-YR3506核心板和开发板,基于国产新一代入门级工业处理器瑞芯微RK3506,这款芯片采用三核Cortex-A7+单核Cortex-M0多核异构设计,不仅拥有丰富的工业接口、低功耗设计,还具备低延时和高实时性的特点。核心板提供RK3506B/RK3506J、商业级/工业级、512MB/256MBLPDDR3L、8GBeMMC/256

搭建树莓派网络监控系统:顶级工具与技术终极指南!
树莓派网络监控系统是一种经济高效且功能多样的解决方案,可用于监控网络性能、流量及整体运行状况。借助树莓派,我们可以搭建一个网络监控系统,实时洞察网络活动,从而帮助识别问题、优化性能并确保网络安全。安装树莓派网络监控系统有诸多益处。树莓派具备以太网接口,还内置了Wi-Fi功能,拥有足够的计算能力和内存,能够在Linux或Windows系统上运行。因此,那些为L

STM32驱动SD NAND(贴片式SD卡)全测试:GSR手环生物数据存储的擦写寿命与速度实测
在智能皮电手环及数据存储技术不断迭代的当下,主控 MCU STM32H750 与存储 SD NAND MKDV4GIL-AST 的强强联合,正引领行业进入全新发展阶段。二者凭借低功耗、高速读写与卓越稳定性的深度融合,以及高容量低成本的突出优势,成为大规模生产场景下极具竞争力的数据存储解决方案。

芯对话 | CBM16AD125Q这款ADC如何让我的性能翻倍?
综述在当今数字化时代,模数转换器(ADC)作为连接模拟世界与数字系统的关键桥梁,其技术发展对众多行业有着深远影响。从通信领域追求更高的数据传输速率与质量,到医疗影像领域渴望更精准的疾病诊断,再到工业控制领域需要适应复杂恶劣环境的稳定信号处理,ADC的性能提升成为推动这些行业进步的重要因素。行业现状分析在通信行业,5G乃至未来6G的发展,对基站信号处理提出了极

史上最全面解析:开关电源各功能电路
01开关电源的电路组成开关电源的主要电路是由输入电磁干扰滤波器(EMI)、整流滤波电路、功率变换电路、PWM控制器电路、输出整流滤波电路组成。辅助电路有输入过欠压保护电路、输出过欠压保护电路、输出过流保护电路、输出短路保护电路等。开关电源的电路组成方框图如下:02输入电路的原理及常见电路1AC输入整流滤波电路原理①防雷电路:当有雷击,产生高压经电网导入电源时

有几种电平转换电路,适用于不同的场景
一.起因一般在消费电路的元器件之间,不同的器件IO的电压是不同的,常规的有5V,3.3V,1.8V等。当器件的IO电压一样的时候,比如都是5V,都是3.3V,那么其之间可以直接通讯,比如拉中断,I2Cdata/clk脚双方直接通讯等。当器件的IO电压不一样的时候,就需要进行电平转换,不然无法实现高低电平的变化。二.电平转换电路常见的有几种电平转换电路,适用于

瑞萨RA8系列教程 | 基于 RASC 生成 Keil 工程
对于不习惯用 e2 studio 进行开发的同学,可以借助 RASC 生成 Keil 工程,然后在 Keil 环境下愉快的完成开发任务。

共赴之约 | 第二十七届中国北京国际科技产业博览会圆满落幕
作为第二十七届北京科博会的参展方,芯佰微有幸与800余家全球科技同仁共赴「科技引领创享未来」之约!文章来源:北京贸促5月11日下午,第二十七届中国北京国际科技产业博览会圆满落幕。本届北京科博会主题为“科技引领创享未来”,由北京市人民政府主办,北京市贸促会,北京市科委、中关村管委会,北京市经济和信息化局,北京市知识产权局和北辰集团共同承办。5万平方米的展览云集

道生物联与巍泰技术联合发布 RTK 无线定位系统:TurMass™ 技术与厘米级高精度定位的深度融合
道生物联与巍泰技术联合推出全新一代 RTK 无线定位系统——WTS-100(V3.0 RTK)。该系统以巍泰技术自主研发的 RTK(实时动态载波相位差分)高精度定位技术为核心,深度融合道生物联国产新兴窄带高并发 TurMass™ 无线通信技术,为室外大规模定位场景提供厘米级高精度、广覆盖、高并发、低功耗、低成本的一站式解决方案,助力行业智能化升级。

智能家居中的清凉“智”选,310V无刷吊扇驱动方案--其利天下
炎炎夏日,如何营造出清凉、舒适且节能的室内环境成为了大众关注的焦点。吊扇作为一种经典的家用电器,以其大风量、长寿命、低能耗等优势,依然是众多家庭的首选。而随着智能控制技术与无刷电机技术的不断进步,吊扇正朝着智能化、高效化、低噪化的方向发展。那么接下来小编将结合目前市面上的指标,详细为大家讲解其利天下有限公司推出的无刷吊扇驱动方案。▲其利天下无刷吊扇驱动方案一

电源入口处防反接电路-汽车电子硬件电路设计
一、为什么要设计防反接电路电源入口处接线及线束制作一般人为操作,有正极和负极接反的可能性,可能会损坏电源和负载电路;汽车电子产品电性能测试标准ISO16750-2的4.7节包含了电压极性反接测试,汽车电子产品须通过该项测试。二、防反接电路设计1.基础版:二极管串联二极管是最简单的防反接电路,因为电源有电源路径(即正极)和返回路径(即负极,GND),那么用二极

半导体芯片需要做哪些测试
首先我们需要了解芯片制造环节做⼀款芯片最基本的环节是设计->流片->封装->测试,芯片成本构成⼀般为人力成本20%,流片40%,封装35%,测试5%(对于先进工艺,流片成本可能超过60%)。测试其实是芯片各个环节中最“便宜”的一步,在这个每家公司都喊着“CostDown”的激烈市场中,人力成本逐年攀升,晶圆厂和封装厂都在乙方市场中“叱咤风云”,唯独只有测试显

解决方案 | 芯佰微赋能示波器:高速ADC、USB控制器和RS232芯片——高性能示波器的秘密武器!
示波器解决方案总述:示波器是电子技术领域中不可或缺的精密测量仪器,通过直观的波形显示,将电信号随时间的变化转化为可视化图形,使复杂的电子现象变得清晰易懂。无论是在科研探索、工业检测还是通信领域,示波器都发挥着不可替代的作用,帮助工程师和技术人员深入剖析电信号的细节,精准定位问题所在,为创新与发展提供坚实的技术支撑。一、技术瓶颈亟待突破性能指标受限:受模拟前端

硬件设计基础----运算放大器
1什么是运算放大器运算放大器(运放)用于调节和放大模拟信号,运放是一个内含多级放大电路的集成器件,如图所示:左图为同相位,Vn端接地或稳定的电平,Vp端电平上升,则输出端Vo电平上升,Vp端电平下降,则输出端Vo电平下降;右图为反相位,Vp端接地或稳定的电平,Vn端电平上升,则输出端Vo电平下降,Vn端电平下降,则输出端Vo电平上升2运算放大器的性质理想运算
评论