英特尔首次展示了将神经形态芯片Loihi与经典计算和主流深度学习加速器进行比较的性能结果摘要。结果表明,尽管Loihi可能无法提供比其他前馈神经网络方法更多的优势,但对于其他工作负载(例如递归神经网络)却可以实现较大的延迟和功率效率增益。英特尔希望第一组定量结果将为开发适用于所有类型神经形态硬件的正式神经形态基准铺平道路。
英特尔已经将其Loihi芯片与其他计算架构进行了基准测试(图片来源:英特尔)
“经过数十年的神经形态研究,人们对令人惊叹的AI功能,效率的巨大突破做出了许多承诺,但是很少有公开的定量结果来表明这是否是真实的,如果是的话,我们到底从哪里得到这些信息?有收获吗?”英特尔神经形态研究主管Mike Davies告诉EE Times。
他继续说:“这是我们研究计划中的任务,在我们试图将技术迅速推向商业应用之前,我们正在采取一种有条不紊的,有条不紊的研究方法,在此我们首先要了解许多不同方向中的哪一个。就神经科学的启发而言,这实际上可以产生最令人信服的结果。”
深度学习比较
真的有可能在神经形态芯片和其他计算硬件的结果之间进行有意义的比较吗?通常会演示神经形态硬件运行诸如尖峰神经网络之类的“外来”算法,这与深度学习中发现的算法类型非常不同。
戴维斯说:“关于神经形态研究存在困惑,因为我们可以在像Loihi这样的神经形态芯片上运行的东西与这些深度学习模型的作用之间存在重叠。”“在多个方面,我们有多种方法可以从深度学习社区中提取学习内容,并将其导入神经形态世界。”
英特尔神经形态研究社区(INRC)是一个由100多家使用英特尔Loihi硬件探索神经形态计算的公司组成的社区,作为这项工作的一部分,它能够在Loihi上运行深度学习算法。算法可能是现有的以常规方式训练的深度学习网络,然后转换为Loihi可以使用的格式,因此可以对其进行基准测试。这是一种方法,但是实际上可以在Loihi上运行深度学习算法的其他几种方法(下图中的区域1)。
一种是使用反向传播,它是使深度学习取得成功的一种算法技术,因为它可以在训练过程中对权重进行微调。经常由神经形态芯片(尖峰神经网络)运行的网络类型可以配制成数学上可微分的形式,允许应用反向传播以优化结果。
另一个选择是尝试在芯片上执行反向传播,这相当于当今(离线)训练神经网络的方式,但是用于基于采集的数据在现场进行增量训练。
神经科学启发的方法与机器学习之间的算法交叉。区域1代表深度学习。区域2是神经形态算法,例如尖峰神经网络。区域3是目标-基于来自区域1和2的实验方法的算法,这些算法已经数学上形式化,因此可以应用于其他类型的问题。图片:英特尔)
基准测试结果结果
英特尔在INRC成员发表的论文(以下)上绘制了性能(潜伏期和功耗)结果图表,其中包括Loihi与CPU,GPU,Movidius神经计算棒或IBM的Truemorph North Neuromorphic技术之间的量化比较。所有结果均适用于数据样本一一到达(批大小为1)的应用,类似于实时生物系统。
Loihi系统与其他类型计算的实验结果。标记的大小代表神经网络的相对大小(图片来源:英特尔)
戴维斯说:“这些[数据点]中的每一个都需要大量的工作,这就是为什么迄今为止在神经形态领域还没有完成太多工作的原因。”“要获得这些测量值,找到正确的基线比较点并真正完成这项严格的工作非常困难。但是我们一直在敦促合作者做到这一点,因为拥有这样的情节非常令人兴奋。”
图上每个点的大小代表网络的大小;较大的标记使用更多的Loihi筹码,最大的代表500多个筹码)。将这些Loihi系统与单个计算子系统(单个CPU / GPU加上内存)进行了比较。Davies说,要进行苹果之间的比较并不容易,因为CPU可以添加DRAM来帮助扩展,而Loihi只能添加更多的Loihi芯片。
每个系统中是否可以有更多的计算芯片来改善CPU和GPU的性能?
戴维斯说:“对于这种规模的网络,这是不可能的。”“按常规标准,支配该图的小数据点都是很小的网络……总的来说,对于我们正在研究的问题类型,它们并不能很好地并行化。Loihi实现能够很好地扩展的原因是因为存在非常精细的规模并行性,并且神经元之间的通信发生在微微秒的规模上,并且体系结构能够对此进行处理。”
高度精细的并行通信是Loihi架构的基础。常规体系结构将粗粒度的工作块分开,以使工作负载并行化。对于深度学习,这通常是通过分批完成的。Davies说,这种技术在这里无济于事,因为关键指标是处理单个数据样本的延迟。
到目前为止获得的结果的关键见解是,Loihi对于前馈网络几乎没有提供性能优势,前馈网络是一种广泛用于主流深度学习的神经网络,因为它们更容易在常规深度学习加速器硬件上进行训练(见图)下面)。
戴维斯说:“非常值得注意的是,数据点如此干净地分离,前馈网络提供的吸引力最小,在某些情况下,Loihi更糟。”
在Loihi系统上运行递归神经网络可获得最大的收益,在该系统中,性能降低了1000到10,000倍,解决时间提高了100倍。
Loihi系统与其他类型的计算的实验结果,突出显示了哪些工作负载是前馈网络。标记的大小代表神经网络的相对大小(图片来源:英特尔)
未来的基准测试
英特尔宣布打算将其用于此类工作的软件开源,从而迈出了迈向神经形态基准测试的第一步。将此代码开源,将允许其他人在其神经形态平台上运行相同的工作负载,并降低进入神经形态计算和INRC的障碍。
戴维斯说:“我们很高兴能够开始比较不同组的神经形态芯片得到的结果。”“但是对我们而言,最初的工作重点是针对常规体系结构进行基准测试,以了解我们应将什么放入神经形态基准套件中,然后再用于推动神经形态领域的进步。”
未来神经形态基准测试的很大一部分是了解应包括哪些类型的算法。对于深度学习,候选人更为明显– ResNet-50的使用如此广泛,以至于它已成为事实上的基准。在神经形态空间中没有等效项,因为它更加分散,并且硬件更具算法特定性。
“我认为重要的是,我们要从这类新兴的工作负载中建立实际的方法,正式的基准测试,在这些工作负载中,我们可以看到神经形态硬件的好处,并在那里进行标准化。但是我认为这是下一步。”戴维斯说。“我们当然希望在这个方向上领导这一领域。为了使之成为可能,还需要进行进一步的融合,尤其是在软件方面。”
通过这些结果,英特尔希望证明Loihi可以在一系列复杂的,困难的,以大脑为灵感的工作负载上提供巨大的性能提升,即使它尚不知道这些工作负载的外观如何。
戴维斯说:“在英特尔,我们的目标比其他任何事情都重要,要确保这是各种各样的工作负载。”“我们不打算制造用于约束满足解决方案的点加速器,也不是机器人手臂操纵器。我们希望这是一种类似于CPU或GPU的新型计算机体系结构,但是如果优化得当,它将固有地很好地运行各种大脑启发的智能工作负载。”
编辑:hfy
-
英特尔
+关注
关注
60文章
9848浏览量
171200 -
神经网络
+关注
关注
42文章
4732浏览量
100373 -
深度学习
+关注
关注
73文章
5456浏览量
120853 -
AI加速器
+关注
关注
1文章
67浏览量
8621
发布评论请先 登录
相关推荐
评论