英伟达详细介绍了一种微型测试芯片,可以独立完成底层工作;但当36个芯片团结起来时,性能可以提升32倍。与使用相同精度的先前原型相比,单个芯片的面积效率至少为16倍,能量效率为1.7倍。
如何确保在大型和小型任务之间切换,而不至于牺牲效率呢?显然把单个的、实验性的加速器芯片,变成可以随意组合的模块化形式,是一个具备可行性的解决方案,这也是英伟达在做的事情。
作为GPU动力工厂,英伟达当然希望能够为各种规模的AI任务提供解决方案:从大规模的数据中心任务、到始终在线的低功耗神经网络(这些网络需要监听语音助理接收到的唤醒词)。
这不是个简单的任务,通常来说需要将几种不同的技术混合使用。可是,这样的方式显然不如只部署一种好。
英伟达一直在寻求“one ring to rule them all”的解决方案:是否可以构建一些可扩展的模块化产品,同时在整个环节中又不过多浪费每个瓦特的效率呢?其首席科学家Bill Dally说,英伟达最终找出了答案。答案是肯定的。
上个月举行的VLSI研讨会上,英伟达详细介绍了一款小巧的测试芯片,它可以独立完成底层的工作,也可以在一个模块中与多达36个同类型芯片紧密联系,进行深度学习一类的重任务,而且每个芯片都实现了大致相同的顶级性能。
单个加速器芯片更多的是被设计成为深度学习的执行方,而不是训练方。工程师测量这种“推理”芯片的性能的方式,通常是根据每焦耳能量或毫米面积可以进行多少次操作。
英伟达原型芯片中,一个峰值可达到每秒4.01 Tera次操作(相当于每秒10000亿次)和每毫米1.29 TOPS。
和其他组中使用相同精度的先前原型比,该单芯片的面积效率至少是这些原型的16倍,能量效率至少达到1.7倍。
而当36个芯片连接成为一个芯片系统后,它达到了127.8 TOPS,相当于性能提升了32倍!
通过这项研究,英伟达试图证明,只用一种技术应对所有场景是可能的、也是可行的。或者,起码当这些芯片和多芯片模块中英伟达的网状网络连接在一起的时候,可以做得到。
这些模块基本上是小型印刷电路板或硅片,它们也可以作为一个大型IC处理多个芯片。这种形式正变得越来越流行,因为可以将几个较小芯片随意组成系统(通常称为小芯片,相对单一的更大、更昂贵的大芯片而言)。下图是多芯片模块的图例:
Dally解释道:“多芯片模块的形式具有很多优势。不仅适用于未来可扩展的(深度学习)加速器,还适用于构建具有不同功能的加速器的产品版本。”
英伟达多芯片模块之所以能够将新的深度学习芯片绑定在一起,关键是一个使用了称为“ground-referenced信号”技术的芯片间网络。
顾名思义,GRS使用导线上的电压信号和common ground之间的差来传输数据,同时避免了该方法的许多已知缺陷。
它可以使用单根线传输25GB/秒的数据,而大多数技术需要一对电线才能达到同样的速度。使用单线可以提高每秒毫米边缘流量的数据量,达到每秒高达几TB的数据量。更重要的是,GRS的功耗仅为每比特几皮焦。
不止如此,Dally还表示,他们已经完成了一个版本,使得该芯片的TOPS/W实现了翻倍。而他的团队也在不断推动新的加速技术,希望达到200 TOP/W的同时,仍然保持可扩展性。
-
芯片
+关注
关注
456文章
50987浏览量
425178 -
英伟达
+关注
关注
22文章
3805浏览量
91422 -
深度学习
+关注
关注
73文章
5508浏览量
121320
发布评论请先 登录
相关推荐
评论