2011年ARM公司的年度技术会议TechCon发布了全新的ARMv8架构[1],同一年,在以色列,Nafea Bshara和Bilik Hrvoye从他们的前老板获得2000万美元的投资,创建了Annapurna Labs。四年之后的2015年,亚马逊用35亿美元收购了这家公司。Annapurna Labs从此成为亚马逊的一个部门,这个部门相继设计了3代基于ARMv8A的处理器——也就是Graviton系列。
话不多说,先上参数:
数据整理:健哥。
原始地址:https://fvot4kwt4n.feishu.cn/sheets/shtcn69s9nbcvYxX0bAnDgxiAUb
Graviton3们,等等,这里为什么用们?因为Graviton3这颗“芯片”(Chip)里面是由7颗芯片(die)组成的。虽然没有召唤出神龙,Graviton3的引力吸引到了4个DDR控制器die(每个die又有两个DDR5通道)和两个PCIe5.0控制器die。
把多个die封装到一个芯片中的技术称为chiplet技术,这样的好处是,如果将来亚马逊有了更快的CPU,而周围的DDR和PCIe控制器不变,则不需要重新设计制造DDR和PCIe控制器芯片,可以把新的CPU和已有的控制器封装到一起。这样,系统设计可以更加灵活。前面表格的华为鲲鹏920,也采用了这项技术。
芯片整体性能方面,官方的说法是每个核心的性能至少快了25%。下面的SPEC CPU 2017测试也可以说明这一点。图中的蓝色是Graviton2,绿色是Graviton3。SPEC CPU是业内通行的测试CPU性能的benchmark,包括整数测试,浮点测试等等,大多数的用例都取自最终用户的应用,例如perl解释器,视频压缩,3D渲染等等[3]。
来源:AWS re:invent 2021
Nginx的负载均衡测试里面,Graviton3比前一代好了一倍。
来源:AWS re:invent 2021
对于Nodejs,则提高了40%
来源:AWS re:invent 2021
视频编码提高了50%
来源:AWS re:invent 2021
机器学习提高了几乎150%
来源:AWS re:invent 2021
由于亚马逊做了软硬件垂直优化,不光是芯片本身的迭代,整个服务器的结构也有改进,这次一个主板上(下图右侧)支持三颗Graviton3芯片。
来源:AWS re:invent 2021
最后,让我们“打开”芯片,看看里面的CPU。Graviton3使用了ARM Neoverse V1。V1主要是支持ARMv8.4的特性(上次说的苹果M2支持到ARMv8.5特性),包括MPAM,SVE,嵌套虚拟化等。
来源:https://community.arm.com/arm-community-blogs/b/architectures-and-processors-blog/posts/neoverse-v1-platform-a-new-performance-tier-for-arm
ARMv8.4的MPAM是内存的分区和监控功能,通过Partition ID对cache的容量和内存带宽进行划分。SVE是ARM在NEON的下一代SIMD(单指令多数据)指令集,关于SVE指令,2020年的超级计算机排行榜的第一名的Fugaku,就是基于ARM架构并使用了SVE指令集。[4]
ARMv8.4还支持了安全世界的虚拟化(Secure EL2),平时咱们用的Linux/Android都运行在Normal World(非安全世界,和安全世界相对)。安全世界运行需要更高安全性的能力,例如手机的指纹识别,版权视频播放等等。安全世界的虚拟化就是允许安全世界运行多个安全操作系统。
来源:https://en.wikipedia.org/wiki/Bfloat16_floating-point_format
ARMv8.6的Bfloat16不仅支持了Bfloat16浮点类型,还支持了该类型的点积和矩阵运算,以及从单精度浮点(32位)转换到Bfloat16的命令。Bfloat16格式是由Google Brain团队开发的格式,如上图,指数有8位,小数有7位。该格式很适合机器学习使用。
来源:AWS re:invent 2021
Graviton3的CPU性能如何呢?有大神做了详细的测试[5],健哥选了其中的时延测试。下图的Amphere Altra和Graviton2一样都采用了Neoverse N1,下图是二者和Graviton3的memory时延对比,可以看出Graviton3的L3 cache性能(下图虚线,第三个台阶)明显比另外两个处理器好。但是由于DDR5本身的延迟比DDR4大一些,再加上DDR5在另外的die上面,所以Graviton3的主内存时延比另外两个稍稍大一些(下图第四个台阶,图片的右上角)。
Graviton3在亚马逊云服务上已经上线,一根豪华冰棍的钱(每小时15.5RMB)就能愉快的玩耍64个vCPU的虚拟机1小时,相比之下,1vCPU2G内存的虚拟机只需要每小时两毛四。64个CPU意味着单个Graviton3的芯片完全被你所用,系统cache和内存带宽都是你一个人的。
对ARM架构和调测调优感兴趣的小伙伴可以进群咨询了解健哥的课程
审核编辑 :李倩
-
处理器
+关注
关注
68文章
19172浏览量
229189 -
芯片
+关注
关注
454文章
50451浏览量
421942 -
ARM
+关注
关注
134文章
9056浏览量
366856
原文标题:从外到内揭开亚马逊的自研ARM芯片:Graviton3
文章出处:【微信号:LinuxDev,微信公众号:Linux阅码场】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
评论