当以5G、IoT、AI等作为主要驱动力的第五波浪潮(fifth wave)来袭时,计算领域的发展重新构建了我们的生活。
一直以来,大量的数据从边缘流向云端,但随着数据和设备的数量呈指数型增长,把所有数据都放到云端处理变得越来越不现实,更不用说安全和成本效益。
机器学习(Machine Learning,ML)向“边缘”转移成为必然趋势,它将助力AI在更大范围的普及,推进更为多元化的应用。从整体架构来看,只有提升边缘的智能性,才能解决带宽、功耗、成本、延时、可靠性和安全性等多方面问题。
由于消费级设备越来越智能化,通过专属的ML处理器提供额外的AI性能与效率非常有必要。
自从推出Cortex-A73后,Arm便逐步且逐代地提升性能,大幅拓宽针对ML的CPU覆盖。计算能力不断被推升至全新水平,直到最新一代Matterhorn内核,预计其计算性能将提升10倍。
当CPU和GPU面对边缘计算更密集计算、更复杂任务、更高效需求等显现出一定的匮乏时,NPU将派上用场。
继定位于高端设备的Ethos-N77发布后,此次,Ethos NPU家族又添Ethos-N57与Ethos-N37两位新成员,将ML处理器延伸到主流市场。全新的Ethos对成本与电池寿命最为敏感的设计进行了优化,可以为日常生活设备带来优质的AI体验。
Ethos-N57与Ethos-N37的设计理念包括:
针对Int8与Int16数据类型的支持性进行优化;
先进的数据管理技术,以减少数据的移动与相关的耗电;
通过如创新的Winograd技术的落地,使性能比其他NPU提升超过200%。
Ethos-N57旨在提供平衡的ML性能与功耗效率,能够针对每秒2兆次运算次数的性能范围进行优化;Ethos-N37则为了提供面积最小的ML推理处理器(小于1平方毫米)而设计,能够针对每秒1兆次运算次数的性能范围进行优化。
Arm在ML内核方面主要关注数据管理,在设计中更多地注入了智能数据管理的功能和理念,例如数据敏感型的压缩技术、高密度剪枝和稀疏功能等。
Mali-G57关键功能包括:
与Mali-G52相比,各种内容都能达到1.3倍的性能密度;
能效比提升30%,电池寿命更长;
针对VR提供注视点渲染支持,且设备ML性能提升60%,以便进行更复杂的XR实境应用。
Mali-D37关键功能包括:
单位面积效率高,DPU在支持全高清(Full HD)与2K分辨率的组态下,16nm制程的面积将小于1 mm2;
通过减少GPU核心显示工作以及包括MMU-600等内存管理功能,系统电力最高可节省30%;
从高阶的Mali-D71保留关键的显示功能,包括与Assertive Display 5结合使用后,可混合显示高动态对比(HDR)与标准动态对比(SDR)的合成内容。
对此,Arm市场营销副总裁Ian Smythe表示,这首先取决于是什么样的机器学习负载,如果是关键字识别,确实不需要专门的ML处理器,只需要在Cortex-M上运行推理引擎就可以,因为它本身就具有数据管理的能力,基本适用于一般的传感器系统。但如果是更加复杂的机器学习,就要考虑工作负载的卸载问题了,具体包括硬件方面的成本,以及编程工具的工作量等等。
Arm建议从系统级别出发进行选择,以达到降低功耗、减小芯片面积、提高效率、优化总体设计的目的。以图形处理任务为例,如果用GPU,它在执行任务时会多次访问内存,可能需要强制缩小像素,降低清晰度;但用DPU执行同样的任务,它会在完成任务后直接把数据发给GPU,这时GPU就无需再去访问内存,相当于把GPU的一些工作负载分配给DPU,从而能够节约能耗和带宽。
Arm ML事业群商业与营销副总裁Dennis Laudick强调,Arm的NPU属于通用型。其实现在市场上大部分还是用Arm的CPU来处理ML工作负载,新发布的NPU是对其CPU ML性能的进一步提升,以便提供更多的IP选择。
现在的市场时机之下,Dennis Laudick认为,选择通用型处理器非常合适。就ML处理能力来看,用户对于CPU和GPU的需求还是非常高的,同时也有一些针对NPU的需求。由于AI本身还处于非常初期的阶段,选择通用处理器是比较安全的做法,即便算法迭代非常快,硬件还能够有2到3年的生命周期。
探究Arm这一举动背后的含义。
首先,当我们真正进入IoT时代时,不论传感器还是其他IoT设备都是万亿级的,客户规模及类型都将指数级增长,Arm需要授予客户能力,让他们能够根据实际需求实现自己指令集的定制化。
其次,可以说市场上一些开源指令集的出现对Arm构成了一定的竞争,Arm虽然能够提供非常全面的指令集产品,但是定制化需求确实越来越强劲。
去年11月,Facebook就曾发表白皮书,要求其开发人员在移动设备上针对Cortex A53 SoC进行优化。由于不同SoC对AI加速的实施方法不同,如果是原生的软件,可以利用SoC的加速能力;但如果是第三方软件(Facebook就属于第三方应用),就很难用到这些SoC的加速能力。
类似的案例,使Arm逐渐认识到了有定制需求的市场规模。通过框架开源,能够允许第三方开发人员接入,在标准的编译访问、工具访问的情况下,只需一次开发就可以获得Arm全系列的硬件产品性能。
此外,Arm也宣布延伸与Unity的合作伙伴关系。目前,有七成VR内容的开发都在Unity工具链中发生,双方将进一步优化基于Arm的SoC、CPU和GPU的性能,使开发人员得以将更多的时间用于创造全新的、沉浸式的内容。
全面计算(Total Compute)的理念被应用到Arm的每一个计算要素,包括CPU、NPU、GPU、DPU,以及互连或系统IP等。初衷在于确保它们是由实际体验所驱动,同时针对解决未来工作负荷的复杂运算挑战进行了优化。
硬件方面普及性不断提升,软件开始一定的开源尝试——这是Arm对于未来计算架构思考方式的重大转变。
在介绍Total Compute理念的时候,Ian Smythe提到了三个因素:性能、可访问、安全。前两个因素主要来自于软硬件的协同发展,而第三个因素——安全,是一切设想得以实现的基础。
Total Compute的安全性基于三个层次:
第一个层级是最基本的平台级安全,涉及标准以及规则,做到合规;
第二个是处理级的安全,指的是处理器运行的软件线程,主要防止通过某一个处理通道发起的攻击,属于深度防御;
第三个是应用级的安全,即虚拟机在云端的应用安全。
在最基本层次的安全方面,Arm将会加强基本安全级别如身份验证、鉴权等工作,同时还有防止分支攻击的方式。此外还有一种安全架构叫做内存时间延展,Arm发现70%的操作系统崩溃或错误,都是因为内存不当的访问造成的,于是和Google共同合作了Arm V8.5,来防止类似的情况发生。
针对应用层安全,Arm与微软、谷歌等公司联合进行了安全架构方面的研究,主要通过编程方式的改变来防范现在比较流行的攻击方式。与剑桥大学共同开发的Prototype能力架构,能够将每个应用独立隔离,如果黑客攻破其中一个应用,其他不受影响。
Arm正在将创新的安全功能整合到Total Compute内,以迎合客户的各种需求。
这种异构计算需求能否为Arm及其生态发展带来新一轮增长点?Arm生态中的合作伙伴能否从中获得巨大的商业价值?市场还需要持续的发酵和验证。不过,观察他们是如何提升生态系统的高度,找到长久盛放的办法,可以从中得到一些答案。
一直以来,大量的数据从边缘流向云端,但随着数据和设备的数量呈指数型增长,把所有数据都放到云端处理变得越来越不现实,更不用说安全和成本效益。
机器学习(Machine Learning,ML)向“边缘”转移成为必然趋势,它将助力AI在更大范围的普及,推进更为多元化的应用。从整体架构来看,只有提升边缘的智能性,才能解决带宽、功耗、成本、延时、可靠性和安全性等多方面问题。
持续拓宽ML处理器IP覆盖
在日前的Arm Tech Symposia 2019北京站上,Arm宣布进一步扩充其IP组合。这些IP组合沿袭了Arm一直倡导的大小核理念,既有比较高端的配置(如Ethos-N57和Mali-G57),也有入门级的产品(如Ethos-N37和Mali-D37),目的在于将软硬件充分结合,并充分发挥生态系统的力量来提升主流设备的使用体验。由于消费级设备越来越智能化,通过专属的ML处理器提供额外的AI性能与效率非常有必要。
自从推出Cortex-A73后,Arm便逐步且逐代地提升性能,大幅拓宽针对ML的CPU覆盖。计算能力不断被推升至全新水平,直到最新一代Matterhorn内核,预计其计算性能将提升10倍。
当CPU和GPU面对边缘计算更密集计算、更复杂任务、更高效需求等显现出一定的匮乏时,NPU将派上用场。
继定位于高端设备的Ethos-N77发布后,此次,Ethos NPU家族又添Ethos-N57与Ethos-N37两位新成员,将ML处理器延伸到主流市场。全新的Ethos对成本与电池寿命最为敏感的设计进行了优化,可以为日常生活设备带来优质的AI体验。
Ethos-N57与Ethos-N37的设计理念包括:
针对Int8与Int16数据类型的支持性进行优化;
先进的数据管理技术,以减少数据的移动与相关的耗电;
通过如创新的Winograd技术的落地,使性能比其他NPU提升超过200%。
Ethos-N57旨在提供平衡的ML性能与功耗效率,能够针对每秒2兆次运算次数的性能范围进行优化;Ethos-N37则为了提供面积最小的ML推理处理器(小于1平方毫米)而设计,能够针对每秒1兆次运算次数的性能范围进行优化。
Arm在ML内核方面主要关注数据管理,在设计中更多地注入了智能数据管理的功能和理念,例如数据敏感型的压缩技术、高密度剪枝和稀疏功能等。
Mali-G57:为主流市场带来智能与沉浸式体验的GPU
同时推出的还有将优质智能与沉浸式体验带到主流市场的Mali-G57,是第一个基于Valhall架构的主流GPU。主要针对移动市场中最大的一部分应用,包括高保真游戏、媲美电玩主机的移动设备图型效果、DTV的4K/8K用户接口,以及更为复杂的虚拟现实和增强现实的负荷等。Mali-G57关键功能包括:
与Mali-G52相比,各种内容都能达到1.3倍的性能密度;
能效比提升30%,电池寿命更长;
针对VR提供注视点渲染支持,且设备ML性能提升60%,以便进行更复杂的XR实境应用。
Mali-D37:Arm单位面积效率最高的处理器
Mali-D37是一个在最小的可能面积上包含丰富显示与性能的DPU。对于终端用户而言,这意味着当面积成为首要考虑,在例如入门级智能手机、平板电脑与分辨率在2K以内的小显示屏等成本较低的设备上,会有更佳的视觉效果与性能。Mali-D37关键功能包括:
单位面积效率高,DPU在支持全高清(Full HD)与2K分辨率的组态下,16nm制程的面积将小于1 mm2;
通过减少GPU核心显示工作以及包括MMU-600等内存管理功能,系统电力最高可节省30%;
从高阶的Mali-D71保留关键的显示功能,包括与Assertive Display 5结合使用后,可混合显示高动态对比(HDR)与标准动态对比(SDR)的合成内容。
ML选择通用还是专用处理器?
是否一定需要专用的ML处理器?能否通过跨IP组合设计,或是对加速器进行优化,从而达到同样的或类似的性能?对此,Arm市场营销副总裁Ian Smythe表示,这首先取决于是什么样的机器学习负载,如果是关键字识别,确实不需要专门的ML处理器,只需要在Cortex-M上运行推理引擎就可以,因为它本身就具有数据管理的能力,基本适用于一般的传感器系统。但如果是更加复杂的机器学习,就要考虑工作负载的卸载问题了,具体包括硬件方面的成本,以及编程工具的工作量等等。
Arm建议从系统级别出发进行选择,以达到降低功耗、减小芯片面积、提高效率、优化总体设计的目的。以图形处理任务为例,如果用GPU,它在执行任务时会多次访问内存,可能需要强制缩小像素,降低清晰度;但用DPU执行同样的任务,它会在完成任务后直接把数据发给GPU,这时GPU就无需再去访问内存,相当于把GPU的一些工作负载分配给DPU,从而能够节约能耗和带宽。
Arm ML事业群商业与营销副总裁Dennis Laudick强调,Arm的NPU属于通用型。其实现在市场上大部分还是用Arm的CPU来处理ML工作负载,新发布的NPU是对其CPU ML性能的进一步提升,以便提供更多的IP选择。
现在的市场时机之下,Dennis Laudick认为,选择通用型处理器非常合适。就ML处理能力来看,用户对于CPU和GPU的需求还是非常高的,同时也有一些针对NPU的需求。由于AI本身还处于非常初期的阶段,选择通用处理器是比较安全的做法,即便算法迭代非常快,硬件还能够有2到3年的生命周期。
开源Arm NN——标准化前提下的定制化
此次Arm的一个重要举措还有开源类神经网络开发工具包 Arm NN,允许第三方合作伙伴进行定制化——Arm称之为“允许标准化前提下的定制化”。探究Arm这一举动背后的含义。
首先,当我们真正进入IoT时代时,不论传感器还是其他IoT设备都是万亿级的,客户规模及类型都将指数级增长,Arm需要授予客户能力,让他们能够根据实际需求实现自己指令集的定制化。
其次,可以说市场上一些开源指令集的出现对Arm构成了一定的竞争,Arm虽然能够提供非常全面的指令集产品,但是定制化需求确实越来越强劲。
去年11月,Facebook就曾发表白皮书,要求其开发人员在移动设备上针对Cortex A53 SoC进行优化。由于不同SoC对AI加速的实施方法不同,如果是原生的软件,可以利用SoC的加速能力;但如果是第三方软件(Facebook就属于第三方应用),就很难用到这些SoC的加速能力。
类似的案例,使Arm逐渐认识到了有定制需求的市场规模。通过框架开源,能够允许第三方开发人员接入,在标准的编译访问、工具访问的情况下,只需一次开发就可以获得Arm全系列的硬件产品性能。
此外,Arm也宣布延伸与Unity的合作伙伴关系。目前,有七成VR内容的开发都在Unity工具链中发生,双方将进一步优化基于Arm的SoC、CPU和GPU的性能,使开发人员得以将更多的时间用于创造全新的、沉浸式的内容。
Total Compute理念应对未来复杂边缘计算
应对未来复杂边缘计算的趋势,不难发现,Arm的关注焦点正在从单一的产品演进转化为以应用场景与体验为导向的系统解决方案。全面计算(Total Compute)的理念被应用到Arm的每一个计算要素,包括CPU、NPU、GPU、DPU,以及互连或系统IP等。初衷在于确保它们是由实际体验所驱动,同时针对解决未来工作负荷的复杂运算挑战进行了优化。
硬件方面普及性不断提升,软件开始一定的开源尝试——这是Arm对于未来计算架构思考方式的重大转变。
在介绍Total Compute理念的时候,Ian Smythe提到了三个因素:性能、可访问、安全。前两个因素主要来自于软硬件的协同发展,而第三个因素——安全,是一切设想得以实现的基础。
Total Compute的安全性基于三个层次:
第一个层级是最基本的平台级安全,涉及标准以及规则,做到合规;
第二个是处理级的安全,指的是处理器运行的软件线程,主要防止通过某一个处理通道发起的攻击,属于深度防御;
第三个是应用级的安全,即虚拟机在云端的应用安全。
在最基本层次的安全方面,Arm将会加强基本安全级别如身份验证、鉴权等工作,同时还有防止分支攻击的方式。此外还有一种安全架构叫做内存时间延展,Arm发现70%的操作系统崩溃或错误,都是因为内存不当的访问造成的,于是和Google共同合作了Arm V8.5,来防止类似的情况发生。
针对应用层安全,Arm与微软、谷歌等公司联合进行了安全架构方面的研究,主要通过编程方式的改变来防范现在比较流行的攻击方式。与剑桥大学共同开发的Prototype能力架构,能够将每个应用独立隔离,如果黑客攻破其中一个应用,其他不受影响。
Arm正在将创新的安全功能整合到Total Compute内,以迎合客户的各种需求。
结语
未来,随着数据类型愈发多样,如大数据应用、分布式存储和部分边缘计算等对多核、高能效计算提出明确需求,单个设备的计算能力固然很重要,但已不再是唯一的关注点,整个系统的计算能力更应该被关注。这种异构计算需求能否为Arm及其生态发展带来新一轮增长点?Arm生态中的合作伙伴能否从中获得巨大的商业价值?市场还需要持续的发酵和验证。不过,观察他们是如何提升生态系统的高度,找到长久盛放的办法,可以从中得到一些答案。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
处理器
+关注
关注
68文章
19274浏览量
229733 -
ARM
+关注
关注
134文章
9091浏览量
367453 -
ML
+关注
关注
0文章
149浏览量
34651 -
机器学习
+关注
关注
66文章
8412浏览量
132600 -
IOT
+关注
关注
187文章
4207浏览量
196738 -
边缘计算
+关注
关注
22文章
3086浏览量
48924
发布评论请先 登录
相关推荐
Arm如何赋能无处不在的AI
作为人工智能 (AI) 的创新基础,众多企业都在使用通用且应用广泛的 Arm 计算平台。迄今为止,合作伙伴基于 Arm 架构的芯片出货量已逾 2,800 亿颗。如今,Arm 已为各类技
软银与英特尔AI芯片合作谈判破裂,合作计划告终
8月15日最新消息,英国《金融时报》披露,软银集团与英特尔之间的秘密会谈未能如愿达成,原本旨在联手开发能够与英伟达一较高下的AI芯片项目宣告流产。据悉,这场未公开的谈判中,软银构想将Arm
硬开关和软开关的主要区别
能量和用于平滑开关模式转换器输出无源元件的尺寸及数量,还为转换器构建了减少发热量并由此使用更小散热片的基础。 对于传统的硅基功率晶体管而言,一些效率和频率上的改进得益于功率转换器设计中从简单硬开关向软开关架构的转
软银巨资加注AI,欲寻求更大规模交易
身为软银创始人的孙正义积极倡导其对 AI 的重视及改革软银的必要,正在寻找可能的机会以支持集团子公司 Arm 的发展。自孙正义宣布这一决定以来,软
Arm计划2025年大规模销售AI芯片
软银集团旗下的英国芯片巨头Arm近日公布了其雄心勃勃的AI芯片销售计划。该公司宣布,计划到2025年实现AI芯片的大规模销售,以进一步巩固其在全球芯片市场的领先地位。
软银集团将向AI革命投资 投资额高达10万亿日元
。 软银集团(SBG)的会长兼社长孙正义已经提出“AI革命”开始启动;将以AI半导体为突破口,并把业务扩大到数据中心、机器人、发电等领域。同时孙正义还计划在2026年以后,建设使用自主研发半导体的数据中心。
软银孙正义拟投资640亿美元转型,Arm计划2025年推出AI芯片
软银集团子公司Arm将进军人工智能(AI)芯片的开发,寻求在2025年推出首批产品。
硬电线和软电线之间又有何区别?
软电线,又叫护套线。一般是多股直径1毫米以下可导电的固态金属丝绞合而成的导线,即内部为多股铜丝缠绕在一起。
硬电线,又叫塑铜线。一般10平方以下的硬电线都是单股线,是由少数几根粗铜芯组成的。
对称电池测试怎么分析?什么是软短路,什么是硬短路?
对称电池测试怎么分析?什么是软短路,什么是硬短路? 对称电池测试是一种针对电池的测试方法,旨在评估电池的对称性能和电池内部是否存在短路现象。软短路和硬短路是两种不同类型的短路情况,它们
Linux中的软、硬链接的区别
不同。
4: 若想复制时日期相同,可以通过命令:cp –p /etc/inittab /test/inittab2
5:硬链接的同步更新
软连接类似于快捷方式,访问的就是源文件,所有肯定是跟
发表于 02-04 16:34
什么是PLC的软冗余和硬冗余?PLC不做性能冗余可不可以?
什么是PLC的软冗余和硬冗余?PLC不做性能冗余可不可以? 软冗余和硬冗余都是指在PLC(可编程逻辑控制器)系统中,为了提高系统的可靠性和容错能力而采取的措施。
评论