在2016年威海参加中国体系结构年会的时候,孙所也说了一句调侃的话:“现在的AI很火,大家都往那边去,没有人太关心体系结构了,我要告诉那些追AI热点的,它都死了三回了!” 的确,作为从小学马列的中国人,我们最熟悉螺旋式上升的概念。对于计算和I/O来讲,和中国经济调控一样,都是“ 水多了加面,面多了加水”螺旋式上升。
Google在2017年发布了TPU V1之后,现在已经有越来越多的AI startup的芯片出现,大家基本上都是用标准的Resnet50,Googlenetv3 等网络为benchmark, 一次一次地刷新性能和功耗比,个人觉得很有可能在一天,AI芯片的性能和功耗比在特定的imagenet的任务上超过人脑,现在AI在准确率和性能上都超过了。对于AI的芯片来讲,有一个指标也是大家讨论比较多的。Roofline model
Y轴是P,代表算力,用来FLOP/s来表示,现在新出的AI ASIC往往在FLOP/s并不发力,因为从功耗比的角度上,算力肯定不是越高越好,而且大家都很难高过老黄的核弹。
代表了一个特定的计算平台的peak performance,就是最大算力。
就是特定的计算平台的I内存/O带宽,这个和该计算平台使用的DDR类型有关。
X轴是I,代表计算强度,就是在一个Byte上的计算量。因为对于一个特定的平台,我可以知道它的最大算力和带宽,我们就可以知道它的最大的计算强度。
因此,和图上显示的一样,在点(Imax,),这个计算平台达到了完美。在它的左边,说明memory受限,在它的右边说明计算受限。
因此,对于我们之前分析的Alexnet这个网络,我们就知道了它的总的计算量就是:
层 | 内存访问量 | 计算量 |
Conv1 | 770235 | 105415200 |
Maxpool1 | 430368 | |
Conv2 | 1057632 | 223948800 |
Maxpool2 | 273152 | |
Conv3 | 1057792 | 149520384 |
Conv4 | 1521792 | 112140288 |
Conv5 | 1036160 | 74760192 |
Maxpool3 | 61696 | |
FC1 | 37766144 | 37748736 |
FC2 | 16789504 | 16777216 |
FC3 | 4102096 | 4096000 |
SUM | 65021158 | 724406816 |
因为对于每一次访存都是32位的Float Point,因此整个内存的占用就是 260MB左右,而计算量是724MFLOPs,因此Alexnet的计算强度就是724/260=2.7 operation/byte。
对于一个特定的平台,比如老黄家的新的GTX2080Ti 系列来讲:
对于计算性能,先不管老黄加各种Tensor Core,RTcore,从CUDA Core本身来讲,他是100TLOP/s,
它的内存带宽如下:
因此,作为2080Ti, 它的Imax就是166Operation/Byte.
可能到这个,就可以看出,对于Alex的2.7 来讲,远远没有达到2080ti的计算强度,主要是受限于内存带宽了。
在Google的TPU中,有一个图经常被大家引用。
大家基本上可以看到,google的Imax差不多在1000左右,基本上没有什么网络可以完全用满TPU的peak performance。
怎么办,内存带宽的解决方案就是HBM,HBM2, HBM3不断加大带宽。记得在2017年的CNCC上,谢源教授讲,他在2010年左右提出了HBM的概念,他很快就看到了AMD,Nvidia以及Xilinx和Intel都在芯片上使用了HBM,证明了这条道路的正确性。他认为目前应该在AI芯片上摆脱这种”水多了加面,面多了加水“,in-memory 计算应该是下一个方向。
这个就引出了在Memory+会议上来自平头哥的段立德博士的topic,”Processing Near or In memory for deep learning".
-
芯片
+关注
关注
458文章
51526浏览量
429480 -
AI
+关注
关注
87文章
32328浏览量
271424
原文标题:什么是AI芯片“存储墙”的解决方案?
文章出处:【微信号:SSDFans,微信公众号:SSDFans】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
AI时代的存储墙,哪种存算方案才能打破?

华为发布AI WAN解决方案
广和通正式推出AI玩具大模型解决方案
广和通推出AI玩具大模型解决方案
黑芝麻智能与RockAI发布AI Agent解决方案
企业AI解决方案包括哪些内容
聚焦AI芯片,角逐芯未来
中兴通讯推出AI FWA全栈解决方案
emc存储解决方案的优势
EVASH Ultra EEPROM:助力ChatGPT等AI应用的嵌入式存储解决方案
MK米客方德的AI智能存储解决方案

评论