Hot Chips——世界处理器行业的技术峰会,ARM、Intel、NVIDIA、微软等巨头的舞台。今年,一家来自于中国的深度学习创业公司得到了全世界处理器行业专家的认可,登上了Hot Chips的演讲台,向全世界介绍两项最新的针对于深度学习的DPU核心体系结构设计——针对于卷积神经网络(CNN)的Aristotle架构和针对于稀疏深度神经网络(DNN)与循环神经网络(RNN)的Descartes架构。这所公司正是深鉴科技,而深鉴科技及CEO姚颂,也成为了Hot Chips历史上最年轻的公司与最年轻的主讲人。深鉴科技的报告荣获本届Hot Chips的Best Presentation殊荣。
历史悠久的处理器行业技术峰会Hot Chips已经走过了28年。芯片架构设计领域每年都涌现大量新生代,但其中只有约20款最新的处理器架构设计能够在这个平台进行展示,这使得该峰会成为世界芯片巨头的必争之地,每年的发表席位大多被ARM、高通、Intel、AMD等处理器巨头占据。Hot Chips会议每年夏天在美国加州举办,今年会议地点则选在了位于Cupertino的Flint Center,而该中心之前也长期用于苹果公司各项发布会。就在今年的峰会上,微软首次公开了为Hololens设计的HPU处理器;NVIDIA则公开了下一代Tegra系列SoC。
得益于深鉴创始人团队在深度学习硬件加速领域的深厚积累与公司卓越的技术实力,深鉴得到各大巨头公司的一致认可。这家Hot Chips史上最年轻的公司,在会上展示了其核心技术,身为深鉴CEO的姚颂也成为了Hot Chips史上最年轻的主讲人。姚颂提到,深度学习专用处理平台必须适应最新的算法,如CNN中卷积核越来越小、LSTM中的矩阵尺寸越来越大。而深鉴之所以选择FPGA作为其DPU的载体,正是因为其允许较短的TTM(Time To Market)与架构的迭代,同时能够提供合适的性能与功耗、较高的片上存储带宽。
姚颂在Hot Chips做主题演讲
姚颂介绍了深鉴已经实现的一键编译技术。首先,对于神经网络层面进行深度压缩,去除算法连接关系上的冗余;之后,再进行数据量化,去除单个数值在精度要求上的冗余;最后,根据深鉴设计的Aristotle与Descartes架构指令集,当对神经网络模型进行编译,而不进行重新训练时,仅需要半分钟即可完成从算法模型到可执行指令的全套编译流程。
在此次Hot Chips会议上,姚颂也首次公开了公司所设计的两款深度学习专用处理架构:针对于CNN的Aristotle架构,以及针对于稀疏DNN/RNN-LSTM的Descartes架构。
Aristotle架构专为基于CNN的深度学习应用设计,为小尺寸卷积核优化,高效支持1x1,3x3等卷积操作;支持卷积、Pooling、ReLU、Concat、Batch Normalization等多种层,不限制网络层数、规模;支持R-FCN等多种物体检测框架;Aristotle搭载于Zynq 7020 FPGA上,可取得比NVIDIA Tegra K1 GPU好一个数量级的能效比;如果映射到相应的芯片工艺上,毫无疑问可以取得进一步明显的能效提升。Aristotle架构可以广泛应用于无人机、安防监控、机器人、自动驾驶等图像相关的各大领域中。
姚颂介绍深鉴Aristotle架构
Descartes架构则专为稀疏DNN/RNN-LSTM设计,支持LSTM中多个矩阵操作的复杂调度,支持各种稀疏率、矩阵尺寸,以及多种非线性函数,搭载与KU系列FPGA,可以实现比GPU超过一个数量级的能效提升,可以广泛用于语音识别、翻译、OCR等多种应用领域。
姚颂介绍Descartes架构
会场之外,深鉴科技创始人之一、首席科学家韩松也被邀请进行Poster展示,深鉴科技团队也在Poster Session展示了Live Demo供参会专家体验点评。深鉴团队场内的报告与场外展示的呼应,也成为了本届Hot Chips的一大亮点。
值得一提的是,姚颂也在会上首次介绍了基于Aristotle架构的深度学习处理平台“雨燕”,该平台将在10月实现批量供货。“雨燕”平台基于Xilinx Zynq FPGA,支持各类神经网络、多种物体检测框架,并且集成了HOG、KCF等物体追踪常用模块,能够广泛用于无人机、机器人、ADAS等领域。这也代表着深度学习专用处理平台真正从学术走向了市场。世界,向深度学习无处不在的时代,又迈近了一步。
基于Aristotle架构的“雨燕”深度学习处理平台
-
循环神经网络
+关注
关注
0文章
38浏览量
2966 -
深度神经网络
+关注
关注
0文章
61浏览量
4517 -
深鉴科技
+关注
关注
0文章
36浏览量
5444
发布评论请先 登录
相关推荐
评论