(文章来源:雷锋网)
随着AI算法的逐步成熟以及芯片算力的提升,历经几年的热潮之后,AI技术只有落地应用才能获得进一步的发展。不过,算法需求与芯片算力不匹配的需求成为了AI落地的一大障碍,AI软硬一体化成为关键。但在软硬一体化提高效率的同时,如何满足多样化的需求也非常关键,定制化成为了趋势。
这一轮AI热潮,不仅让越来越多的人认识和了解了AI技术,AI也正在成为每台智能设备日常工作的一部分。事实证明,深度神经网络(DNN)非常有用,但是AI的进一步发展和落地仍有很多挑战。比如,如何使得现有解决方案跟上发展趋势?如何扩展解决方案?如何以成熟的工具链缩短TTM(Time to Market)和降低成本?
面对这些问题,需要整个产业链的协作,共同满足市场的需求。根据市场研究机构的报告,到2022年,全球具有计算机视觉/机器视觉相继的规模将超过15亿个,包括智能手机、安防、消费电子、汽车图像传感器、工业等。这就意味着,定制化的AI加速器可以更好地满足市场的不同需求,但与此同时,AI在边缘端的落地也面临挑战。CEVA营销副总裁Moshe Sheier认为,在边缘AI中,AI的落地面临的问题就是数据量太大且运算太复杂,芯片的算力非常关键。
Moshe Sheier近日接受雷锋网采访时表示,AI算法公司在做落地项目的时候,受困于硬件算力不足的问题,可能会牺牲很多特性。所以我们现在希望算法公司能够向芯片公司提出更多的需求,让芯片的设计能够更好地满足算法需求。只有算法的效率提高了,AI才能更好的落地。
提到效率,无法避开的问题就是AI到底需要专用还是通用的芯片,通用的芯片能够更好适应算法的演进,但算力不及专用芯片。Moshe Sheier认为,AI加速器一定是一个趋势,同时,视频DSP在AI中非常重要,因为AI算法还有很多不确定性。如今算法公司不会只采用一种神经网络,而是会进行组合。运行多个神经网络模型就一定会涉及对结果进行CV的处理,这时候CPU可能会面临一些瓶颈。我们的XM DSP针对了所有流行的神经网络都进行了优化,能够更好的满足多神经网络的算法。
基于对流行神经网络特征的理解,CEVA在今年9月推出了第二代面向边缘设备的AI推理处理器架构NeuPro-S,NeuPro-S系列包括NPS1000、NPS2000和NPS4000,它们是每个周期分别具有1000、2000和4000个8位MAC的预配置处理器。NPS4000具有最高的单核CNN性能,在1.5GHz时可达到12.5 TOPS,并且可完全扩展,最高可达到100 TOPS。
根据官方的说法,与CEVA第一代AI处理器相比,NeuPro-S的性能平均提升50%,内存带宽和功耗分别降低了40%和30%。这种性能的提升主要来自硬件还是软件的优化?Moshe Sheier表示主要是来自硬件,因为CEVA在NeuPro-S中增加了离线的权重压缩和硬件的权重解压缩。
之所以要这么做,是因为神经网络与视频编解码不太一样,即便很小的图片,引入卷积后权重的数据量非常大,因此带宽成为了AI处理器的瓶颈。而CEVA采用的多重权重压缩,可分为两种方式,一种是零值和非零值,可以用4bit或者8bit表示,另一种是通过查表的方式,通过共用权重,只传一次数据,减少对带宽的需求。
不仅如此,NeuPro-S还支持多级内存系统。具体而言,就是加入了L2内存的支持,用户通过设置L2的大小,可以尽量把数据放在L2的缓存,减少使用外部SDRAM,降低传输成本。Moshe Sheier指出,硬件增加L2并不复杂,CEVA主要的工作是在我们CNDD软件框架中加入对L2内存的支持。
因此,NeuPro-S相比上一代NeuPro非常重要的工作就是进行带宽的优化,这样才有可能达到理论设计的利用率。雷锋网(公众号:雷锋网)了解到,CEVA设计神经网络引擎时最关注的问题就是乘法利用率,CEVA借助DSP设计的丰富经验,设计出的神经网络引擎理论的乘法利用率在80%-90%、虽然实际利用率会低于理论值,但NeuPro-S带宽的增大将能够减少数据的等待,能提高乘法利用率。
最终,经设计优化NeuPro-S,能够对边缘设备中视频和图像中的物品进行分割、检测和分类神经网络,显著提高系统感知性能。除了支持多级内存系统以减少使用外部SDRAM的高成本传输,并支持多重压缩选项和异构可扩展性,提升算力满足AI算法的需求。
(责任编辑:fqj)
-
芯片
+关注
关注
456文章
50936浏览量
424651 -
AI
+关注
关注
87文章
31097浏览量
269420
发布评论请先 登录
相关推荐
评论