0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

华为终于再次集齐了最先进的制造工艺和最新的架构设计

芯资本 来源:未知 作者:李倩 2018-11-23 14:54 次阅读

不久前外媒ChipRebel刚刚发布了华为Mate 20手机拆解,并公布了麒麟980处理器的透视照片,让我们有了一窥这款让华为表示“稳了”的处理器,并首次看到ARM全新Cortex A76 CPU和全新Mali G76 GPU的真容。

高通三星在2016年下半年发布骁龙835和Exynos 8895这两款使用10nm LPE工艺的产品时,麒麟960却只能选择台积电16nm FFC工艺,这种劣势显著的体现在芯片的能耗比方面。

麒麟970虽然缩小了制造工艺方面的差距,但由于其设计周期较早,错过了ARM当时最新的Cortex A75架构,只能基于Cortex A73架构设计,而推出较晚的骁龙845则全面基于Cortex A75和Cortex A55设计。

在这次的麒麟980,华为终于再次集齐了最先进的制造工艺和最新的架构设计。从这方面来看,麒麟980背负着比麒麟970和麒麟960更大的期望和历史任务,有望复制甚至超越几年前麒麟950的成功。

浓缩的都是精品

虽然华为在此前公布麒麟980时表示其核心面积小于100mm2,但实际上麒麟980的硅片尺寸要比官宣还有要小得多,仅为74.13mm2。

在CPU、GPU、NPU及内存等全面升级的情况下,麒麟980相比去年麒麟970的96.72mm2小了30%,可说是相当惊人了。

芯片的左上角是全新的Mali G76 MP10 GPU集群,Mali G76达到Mali G72翻倍的性能只需132%的芯片面积,理论上单位面积性能提升了50%。华为将麒麟980的GPU面积维持在了11.97mm2,仅稍大于骁龙845中Adreno 630的10.69mm2,远小于Exynos 9810 Mali G72 MP18的24.53mm2和苹果A12 GPU的14.88mm2。

GPU模块右侧是CPU模块,Cortex A76架构在核心尺寸方面仍然非常小巧,配备512KB L2缓存时的单核面积仅为1.26mm2,同样远小于三星自研Exynos M3“猫鼬”架构核心的3.5mm2,甚至比不含L2缓存的苹果A12的Vortex架构核心(2.07mm2)还要小。

此次华为充分利用了ARM的新DSU集群及异步CPU配置,将麒麟980中Cortex A76架构的高性能CPU集群细分为两组,高频率的一组运行在2.6GHz频率上,另一组Cortex A76 CPU的运行频率为1.92GHz(这应该是一个很好的能效比平衡点),各自运行在不同的频率和电压上,可根据不同使用场景灵活调用,有效提升实际使用时的能效比。

缓存方面,所有Cortex A76都带有推荐的512KB L2缓存配置,而CortexA55则采用128KB缓存。在最新的DynamIQ群集配置中,L2缓存是每个CPU核心独占的。DSU中的L3缓存则为4MB共享式设计,容量为骁龙845和麒麟970的两倍。

改进的内存延迟

SoC的存储子系统对其性能表现至关重要,麒麟970便在这方面吃了一些亏,它在高频率下运行时似乎有些问题,这使得华为不得不在默认情况下选择降低其设备的频率,导致了一些性能下降,尤其是在对内存延迟敏感的工作负载中。

与麒麟970相比,麒麟980的内存延迟得到了显着改善。测试中使用的是完全随机延迟,包括TLB未命中等在内的所有可能的惩罚,但是这仍然是一个重要的性能指标。

Cortex A76架构的独占L2缓存延迟非常出色,只有4ns,不到麒麟970中Cortex A73共享L2缓存延迟的一半。4MB共享L3缓存确实与CPU核心异步运行,在测试中可以看到明显的延迟惩罚,但仍然在合理范围内。

对比安卓阵营的几款SoC,麒麟980的L3缓存看起来略慢于骁龙845,可能是由于华为略微降低了L3缓存的运行频率;Exynos 9810的缓存延迟最大,虽然在内存延迟方面略有优势,但这是以很大的功耗代价冲击高频率换来的,当核心运行在合理的频率上时,Exynos 9810的优势会丧失殆尽。

(PS:苹果A12处理器在缓存和内存延迟方面都遥遥领先,在所有指标和深度上都展示了巨大的优势,让安卓阵营的所有SoC都相形见绌。)

CPU性能和能耗比

华为在发布会上表示,麒麟980相比麒麟970可获得75%的性能提升,能耗比则比麒麟970提高58%。演讲中的PPT脚注显示其能效数据基于Dhrystone,而Dhrystone非常专注于考验CPU核心,相对在内存等其他方面不会给SoC带来太大的压力。

现在,使用麒麟980的Mate 20、Mate 20 Pro及Magic 2均已上市,SPECint2006和SPECfp2006的测试成绩比华为的官宣更能体现这款处理器的真实性能水平。

下图显示了完成测试中的电能消耗量及平均功耗,左边的条形表示消耗的能量,以J(焦耳)为单位,条形越短代表耗能越少,相应的平台的效率越高;右边的条代表性能分数,条形越长代表性能越强。

测试成绩出人意料,麒麟980的SPEC2006性能达到了麒麟970的2倍,甚至超过了此前基于ARM Cortex A76架构的预测。

CPU的能耗比则相比麒麟970只提升了28%,全新Cortex A76架构和麒麟980的内存子系统耗电量更大,SPECint测试中平均达到2.14W,SPECfp测试中达到2.65W,比麒麟970的1.38W和1.72W有显著增加。

从这方面来看,ARM的新架构是在以线性的方式提升功耗和性能,包括骁龙845的Cortex A75。当然,只要控制好性能和功耗的关系,这样的提升方式并不能说是消极的。

麒麟980的CPU性能是苹果A12的57%~62%,功耗是苹果A12的59%~62%,二者处理相同任务消耗的能量基本相同,这有什么不对的呢?

相比之下,Exynos 9810是个典型的反例,在冲击高频时付出了极大的功耗代价,却没有表现出与之相匹配的性能提升,能效比极差。

在SPECint2006测试中,麒麟980或者说Cortex A76同样在各方面都表现出了相当均衡的性能,在403.gcc测试项中的成绩相比麒麟970提高了2.67倍。而456.hmmer和464.h264ref是SPECint2006测试中两个最强的后端绑定测试中,Cortex A76也展示了与其时钟频率及乱序4发射前端相符的分数。

在这一测试中,骁龙845的内存延迟表现不太好,因为它的L4系统缓存块在规格上确实有一点缺陷。

在SPECfp2006的结果中,麒麟980同样展现出了大幅度的进步。

总而言之,麒麟980在所有测试中都有着全面改进,在性能和能耗方面的表现都非常出色。麒麟980以及ARM的Cortex A76都兑现了他们的承诺,甚至超过了此前人们根据官方消息所做的预测。

当然,麒麟980的绝对性能还无法与苹果的A12相比,而且这种情况很可能在接下来的几代中不会发生太大变化,至少在安卓阵营的这些SoC厂商设计出更好、更健壮的内存子系统之前都会是这样。

GPU性能和能耗比

GPU的性能和能耗比一直是麒麟960和麒麟970的一大痛点,而麒麟980是世界上第一款使用了ARM全新Mali G76 GPU的SoC,华为表示麒麟980的GPU性能相比麒麟970提升46%,能耗比则大幅提升178%。

在3DMark Sling Shot Extreme Unlimited的图形测试中,Mate 20和Mate 20 Pro都展现出了可观的峰值性能值,与麒麟970相比提升相当显著,但在达到热平衡之前仍然有较大的波动。

在GFXBench测试最新的Aztec Ruins Vulkan场景中,高质量模式下,Mate 20和Mate 20 Pro的性能表现在安卓阵营里独树一帜:峰值性能并不是特别高,但持续性能几乎与峰值性能相同。而在普通质量模式下,Mate 20 Pro则表现出比Mate 20更高的持续性能。

在GFXBench测试的曼哈顿3.1场景中,麒麟980的峰值性能和持续性能也均有可观的提升。与Aztec Ruins Vulkan场景相比,Mate 20和Mate 20 Pro在曼哈顿3.1场景中的峰值性能和持续性能表现出了正常的差异,性能与大多数骁龙845设备相当。

遗憾的是,麒麟980的性能表现和此前的预测非常吻合,但能耗比与预测相差较大,功耗要比此前预测的3.5瓦高出1W,最终麒麟980的能耗比相比麒麟970提高了100%,仍然是相当大的代际改进。

外媒Anandtech表示,此前华为官宣的178%能耗比提升,可能是指麒麟980在与麒麟970相同的性能时的比较。

而在T-Rex测试场景中,麒麟980相比麒麟970的峰值性能提升幅度要小得多,在Mate 20 Pro上的持续性能只提升了50%。但T-Rex测试场景已经比较老旧,在现代SoC上的帧速率普遍非常高,通常可达到一二百帧,因此在许多方面都会受到制约,很难搞清楚瓶颈究竟在哪里,参考价值远不如更加现代的曼哈顿3.1和Aztec Ruins Vulkan测试场景。

第二代NPU

在去年1月测试麒麟970的NPU性能时,可选的测试软件只有鲁大师的AI测试,但它不支持华为的HiAI API,相关运算均依靠CPU实现进行处理。不幸的是,到了麒麟980和Mate 20上依然如此。

“AI-Benchmark”是由瑞士ETH苏黎世计算机视觉实验室的Andrey Ignatov开发的新基准测试程序,也是第一个广泛使用Android 8.1新NNAPI,而不依赖于每个SoC供应商自己的SDK工具和API的基准测试程序。AI-Benchmark应该能够更好地准确地表示从使用NNAPI的应用程序所预期的最终NN性能。

需要记住的一点是,NNAPI不仅仅是一些能够在NPU上运行神经网络模型的通用转换层,而且API和SoC供应商的底层驱动程序必须能够支持公开的函数,并且能够在IP块上运行它。这里的区别在于,使用NNAPI尚未支持的特性(必须退回到CPU上运算)的模型和能够硬件加速并对量化的INT8或FP16数据进行操作的模型。还有一些模型依赖于FP32数据,这里同样依赖于底层驱动程序,它可以在CPU上运行,也可以在GPU上运行。

前三个CPU测试项使用了NNAPI尚未支持的函数的模型,影响性能的仅仅是CPU性能以及性能响应时间,这意味着DVFS和调度器响应等机制可能对结果产生巨大影响,比如Galaxy S9上的表现就要明显优于同为Exynos 9810处理器的Note9。

尽管如此,将麒麟970与麒麟980进行对比,依然展示了Cortex A76强大的性能,以及华为的DVFS/调度器方面可能的改进。

接下来的测试项基于8位整数量化的NN模型。不幸的是,华为手机的NNAPI驱动程序似乎仍未提供硬件加速,这些测试没有使用麒麟处理器上的NPU,测试结果展示的依然是CPU性能,华为表示计划在未来版本的驱动中修正这个问题。

在使用骁龙845的设备中,一加6和Pixel 3在性能上遥遥领先,甚至相比同为骁龙845的Galaxy S9+也是如此,原因是这两款手机都使用了高通公司最新更新的NNAPI驱动程序,该驱动程序与Android 9/P BSP一起发布,可通过HVX DSP加速NN应用。

接下来的FP16测试项终于启用了麒麟处理器的NPU,并且在新老两代处理器上都取得了领先的成绩。在这里麒麟980的双核NPU终于得以体现,Mate 20展现出了碾压性的巨大领先优势。不过一加6似乎在其NNAPI驱动程序中出现了一些非常奇怪的问题,使得它的性能比其他平台差一个数量级,不知道这项测试是跑在了其CPU上还是GPU上。

而在最后的FP32测试项中,大多数手机都再次回到CPU上进行运算,麒麟980的改进有限。

总体而言,AI-Benchmark至少验证了华为对NPU性能的宣传并非虚言,不过从这些测试结果中得出的真正结论是,大多数具有NNAPI驱动程序的设备目前本身尚不成熟且功能仍然非常有限,与苹果如今的CoreML生态系统相比相差甚远。

总结

麒麟980的CPU性能表现应该在很大程度上可以代表下一代骁龙8150的情况,高通或许会在CPU频率上稍稍提升一些,但最大的问题在于内存子系统方面,高通能不能解决L4系统缓存引入的延迟惩罚问题。

Cortex A76对于三星来说就实在是太可怕了,如果Exynos 9820所用的Exynos M4架构只是一次常规迭代,说实话在Cortex A76面前是没什么竞争力的。三星需要在性能和能耗比两个方面均作出重大改进,才能与麒麟980相匹敌。

GPU方面,能耗比方面与此前的预测存在差距,这恐怕不能直接甩锅给华为的芯片设计,因为ARM玩GPU确实比从桌面端过来的Imagination和高通(GPU团队来自ATI)差得远。

虽然三星Exynos SoC的GPU能耗比要好于麒麟SoC,Exynos 9810的能耗比甚至非常接近于骁龙845,但这是三星牺牲了相当大的芯片面积来堆砌GPU核心数换来的。雷锋网(公众号:雷锋网)经过思考和对比后认为,华为之所以选择“少核高频”的策略,很可能是为了在有限的空间内给NPU腾地方不得已而为之。

Exynos 9810的GPU面积很大(24.53mm2),使其可以将频率压低到只有560MHz左右,以此换来了尚可的功耗表现。之所以这样操作,是因为三星有自己的半导体工厂,且Exynos 9810既没有集成NPU,也不是麒麟970这样动辄出货量三五千万的走量主力产品,更多的是作为一款产品象征性地存在,最终才能以118.94mm2这样一个属于平板级的巨大芯片面积问世。

根据不久前公布的消息,三星下一代集成NPU的Exynos 9820也只采用了Mali G76 MP12的配置,远不如以前动辄MP18或MP20那么豪迈了,自然频率也不可能像此前一样低至560MHz左右,很可能达到与麒麟980相仿或更高的水平,具体参数以及实际表现如何,只有等Exynos 9820的具体参数和测试成绩公布后才能得知了。

移动SoC带上NPU越来越成为厂商的趋势,未来随着越来越多的APP开始使用到它,拥有先发优势华为将可把它转化成更大的市场优势。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    455

    文章

    50714

    浏览量

    423154
  • 华为
    +关注

    关注

    216

    文章

    34411

    浏览量

    251506
  • 麒麟980
    +关注

    关注

    5

    文章

    399

    浏览量

    22265

原文标题:麒麟980性能大揭秘:惊喜!只差这一点

文章出处:【微信号:ICCapital,微信公众号:芯资本】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    大话芯片制造之读后感超纯水制造

    大家能看到这篇读后感,说明赠书公益活动我被选中参加,我也算幸运儿,再次感谢赠书主办方! 关于芯片制造过程中,超纯水设备制造工艺流程中导电率控制。在正常思维方式,水是导电的,原因导电是水
    发表于 12-20 22:03

    【「大话芯片制造」阅读体验】+芯片制造过程工艺面面观

    第二章对芯片制造过程有详细介绍,通过这张能对芯片制造过程有个全面的了解 首先分为前道工序和后道工序 前道工序也称扩散工艺,占80%工作量,进一步分为基板工艺和布线
    发表于 12-16 23:35

    MOSFET晶体管的工艺制造流程

    本文通过图文并茂的方式生动展示MOSFET晶体管的工艺制造流程,并阐述芯片的制造原理。   MOSFET的
    的头像 发表于 11-24 09:13 877次阅读
    MOSFET晶体管的<b class='flag-5'>工艺</b><b class='flag-5'>制造</b>流程

    富士胶片开始销售用于最先进半导体生产的材料

    日本富士胶片(Fujifilm Holdings)近期宣布开始销售针对最先进半导体生产的材料,正式进军高端半导体材料市场。这些材料包括光刻胶和显影液,它们是半导体制造过程中不可或缺的组成部分,主要用于在硅晶圆上绘制精细电路。
    的头像 发表于 10-31 17:12 285次阅读

    深入理解 Llama 3 的架构设

    在人工智能领域,对话系统的发展一直是研究的热点之一。随着技术的进步,我们见证从简单的基于规则的系统到复杂的基于机器学习的模型的转变。Llama 3,作为一个假设的先进对话系统,其架构设计融合
    的头像 发表于 10-27 14:41 540次阅读

    边缘计算架构设计最佳实践

    边缘计算架构设计最佳实践涉及多个方面,以下是一些关键要素和最佳实践建议: 一、核心组件与架构设计 边缘设备与网关 边缘设备 :包括各种嵌入式设备、传感器、智能手机、智能摄像头等,负责采集原始数据
    的头像 发表于 10-24 14:17 412次阅读

    锌银电池的制造工艺

    锌银电池的制造工艺是一个复杂且精细的过程,涉及多个关键步骤和先进技术。以下是对锌银电池制造工艺的详细阐述:
    的头像 发表于 10-03 15:01 357次阅读

    库克称iPhone16是最先进的iPhone

    最新款iPhone、Watch和AirPods,最大的亮点估计在人工智能。所以库克称iPhone16是最先进的iPhone。 库克表示。iPhone 16 系列是我们打造的最先进的 iPhone。得益于
    的头像 发表于 09-10 11:47 809次阅读

    电机的制造工艺有哪些

    电机作为现代工业中不可或缺的动力设备,其制造工艺的优劣直接影响到电机的性能、质量和可靠性。电机的制造工艺涵盖了多个环节,包括机加工、铁芯制造
    的头像 发表于 06-14 11:49 1879次阅读

    交换芯片架构设

    交换芯片的架构设计是网络设备性能和功能的关键。一个高效的交换芯片架构能够处理大量的数据流量,支持高速数据传输,并提供先进的网络功能。
    的头像 发表于 03-21 16:28 539次阅读

    交换芯片架构设

    交换芯片架构设计是网络通信中的关键环节,它决定交换机的性能、功能和扩展性。
    的头像 发表于 03-18 14:12 702次阅读

    旋转花键的制造工艺

    旋转花键的制造工艺是一门精细的技术,涉及多个步骤和精细的操作,以确保最终产品的质量和性能,下面简单介绍下旋转花键的制造工艺
    的头像 发表于 03-16 17:39 507次阅读
    旋转花键的<b class='flag-5'>制造</b><b class='flag-5'>工艺</b>

    华为企业架构设计方法及实例

    企业架构是一项非常复杂的系统性工程。公司在充分继承原有架构方法基础上,博采众家之长,融合基于职能的业务能力分析与基于价值的端到端流程分析,将”传统架构设计(TOGAF)”与“领域驱动(DDD)”方法相结合。
    发表于 01-30 09:40 882次阅读
    <b class='flag-5'>华为</b>企业<b class='flag-5'>架构设</b>计方法及实例

    【RISC-V开放架构设计之道|阅读体验】学习处理器体系架构的一本好书

    感谢电子发烧友论坛和电子工业出版社提供的试读机会。 《RISC-V开放架构设计之道》由RISC-V架构的作者、著名的计算机体系架构专家David Patterson亲自主笔撰写。David
    发表于 01-23 20:08

    智能座舱主流音频架构设计方案

    蔚来汽车NT1/NT2平台座舱音频系统的软件架构设计和研发工作都由我负责,涉及到Android、QNX、Hypervisor等系统的音频设计。今
    发表于 12-28 16:54 1324次阅读
    智能座舱主流音频<b class='flag-5'>架构设</b>计方案