大型芯片将打破深度学习的速度壁垒-电子发烧友网

Cerebras公司的技术将在数小时而非数周的时间里完成对这些人工智能系统的训练。

人工智能计算机初创企业Cerebras Systems的联合创始人兼首席执行官安德鲁•费尔德曼（Andrew Feldman）表示，今天的人工智能效率远低于它本应能达到的效率。

他和公司的其他联合创始人一致认为，如今的人工神经网络在训练上太过耗时，计算量太大。比如说，要让一辆自动驾驶汽车识别出它在路上会遇到的所有重要物体，则需要向汽车的神经网络展示大量有关这些物体的图像。这个过程发生在数据中心，耗电数十千瓦有时甚至数百千瓦的计算机会专门处理这种常常耗时长达数周的任务。假如生成的网络能够以所需精确度执行这项任务，则定义网络连接强度的多个系数随后会被下载到汽车的计算机中，然后去执行另一半深度学习工作，即推理。

Cerebras的客户（该公司已经有一些客户了，不过在去年夏天还在保密状态）抱怨说，在当今的计算机上进行大型神经网络训练可能需要长达6周的时间。以这样的速度，他们一年可能只能训练6个神经网络。“我们的目的是测试更多的想法，”费尔德曼说，“如果你能在2到3个小时内（训练1个网络），那么你就可以运行数千个想法。”

记者参观Cerebras公司位于加州洛思阿图斯（Los Altos）的总部时，这些客户和部分潜在新客户已经在用有橙色护套的光缆将他们的训练数据导入4台CS-1计算机中。这些64厘米高、功率为20千瓦的机器不停地运转，产生的热量通过墙上的一个孔洞被排放到了硅谷的街道上。

从外观来说，CS-1计算机本身并不特别。实际上，每个机箱的3/4都被冷却系统占据，而另外1/4空间中的内容才具有真正的“变革性”：一台非常强大的计算机几乎完全由一块单一芯片组成。不过这块芯片的面积超过46255平方毫米，是任何市售处理器芯片面积的50多倍。借助1.2万亿个晶体管、40万个处理器内核、18千兆字节的静态随机存储器（SRAM）以及每秒可移动100千万亿字节的互连技术，Cerebras的晶圆级引擎（WSE）可轻松秒杀其他系统。

Cerebras引用的统计数据是相当惊人的。该公司称，一个10机架的TPU2集群（谷歌人工智能计算机产品的第二代）消耗的功率是单台WSE计算机的5倍，占用的空间是它的30倍，性能却仅为其1/3。单一巨型芯片是否真的是人工智能界一直在等待的答案，今年将变得明朗起来。“（神经网络）模型越来越复杂，”加州山景城林利集团（Linley Group）的高级分析师迈克•戴姆勒（Mike Demler）说，“能够快速训练或再训练非常重要。”

芝加哥附近的超级计算机巨头阿贡国家实验室等客户已经在自己的办公场所安装了这种机器，如果Cerebras的推测是正确的，那么有出色表现的神经网络的数量将呈爆炸式增长。

费尔德曼解释说，Cerebras的创始人们（都是服务器公司Sea Micro的老员工，Sea Micro被超微半导体公司AMD收购）在2015年初次开会时便希望打造一台完美符合现代人工智能工作量性质的计算机。这些工作量由以下几点定义：快速移动大量数据，接近处理内核的内存，而且这些内核不需要处理其他内核正在处理的数据。

这立刻给包括首席技术官加里•劳特巴赫（Gary Lauter-bach）在内的资深计算机架构师提供了一些想法。首先，他们可以使用成千上万个用于进行相关神经网络计算的小内核，而不是使用更少量的通用内核。其次，这些内核应该与一个低能耗且可以快速移动数据的互连方案连接在一起。最后，所有所需数据应位于处理器芯片中，而不是多个单独的存储芯片上。

很大程度上正是在这些内核之间移动数据的需要让WSE变得独一无二。在两个内核之间移动数据最快、能耗最低的方法就是将它们放在同一个硅基板上。数据必须从一块芯片传输到另一块芯片时，速度和功率方面的代价都很高，因为距离很长，传输信号的“电线”必须更粗且密度更小。

通过硅片实现所有通信的欲望，加上对小内核和本地存储的渴望，都指向制造一块尽可能大的芯片（也许大如一整块硅晶圆）。费尔德曼说：“显然我们做不到这一点，这是肯定的。但这很明显有很大的好处。”

几十年来，工程师们一直认为研究晶圆级芯片是一个死胡同。毕竟，出色如已故IBM System/360大型机首席架构师吉恩•阿姆达尔（Gene Amdahl），也在与Trilogy Systems公司合作进行的尝试中失败了。不过劳特巴赫和费尔德曼说，任何与阿姆达尔的尝试进行的比较都很可笑而且过时的。阿姆达尔使用的晶圆只有如今晶圆的1/10大，而在这些晶圆上组成的设备尺寸却是现今设备的30倍。

更重要的是，Triology无法解决芯片制造过程中不可避免出现的错误。在其他条件相同的情况下，芯片越大出现缺陷的可能性就越大。如果芯片和一张信纸一样大，那么它必然会有不少缺陷。

不过，劳特巴赫找到了架构解决方案。由于他们的目标工作量偏向于采用成千上万个相同的小内核，所以可以容纳足够多的冗余内核来承担其中高达1%的缺陷所导致的故障，与此同时仍然能有一块非常强大、非常大的芯片。

当然，为了制造能容纳缺陷的巨型芯片，Cerebras还是需要解决大量制造问题。例如，光刻工具能够将它们的特征定义图案刻蚀到相对较小的矩形上，并不断重复。由于在晶圆不同位置刻蚀不同图案的成本和难度较高，仅此一项就导致无法将许多系统构建在单个晶圆上。

不过WSE不需要这样做。它就像一块充满了完全相同的芯片的普通标准晶圆一样。最大的挑战是找到一种将这些伪芯片连接在一起的方法。芯片制造商在每个芯片周围留下了一条称为“划线”的空白硅窄边。通常会沿着这些线将晶圆切成小块。Cerebras与台湾积体电路制造股份有限公司（TSMC）合作开发了一种跨越划线实现互连的方式，以便每块伪芯片中的内核都可以通信。

由于所有通信和内存都在一块硅片上，数据可以畅通无阻地快速移动，实现每秒1000拍比特的内核到内核带宽和每秒9拍字节的SRAM到内核带宽。“这多的可不是一点点。”费尔德曼说，”就是因为我们继续使用了硅，我们将带宽提升了4个数量级。”

除了实现跨划线互连，芯片制造硬件也必须修改。即便是用于电子设计自动化的软件，也必须定制才能在如此大的芯片上工作。“每一条规则、每一种工具和每一种制造设备的设计都像是挑选一块普通大小的巧克力饼干。而（我们）提供的是一整块烤盘大的饼干，”费尔德曼说，“其中的每一步都需要创新。”

晶圆级集成“在过去40年里一直被忽视，当然，总有一天它会得到重视”，他说。现在，既然Cerebras已经这样做了，大门可能会向其他人敞开。“我们认为，其他公司会寻求与我们合作，以解决人工智能之外的问题。”

确实，伊利诺伊大学和加州大学洛杉矶分校的工程师们认为，Cerebras芯片可以促进他们使用硅互连结构技术推进他们的晶圆级计算工作。“这是对我们所做研究的极大验证，”伊利诺伊大学的拉凯什•库马尔（Rakesh Kumar）说，“我们很高兴这种事情有商业利益。”

当然，CS-1不仅仅是WSE芯片，但它也没有更多内容。这既是出于设计，也是出于必要。被看作主板的，是一个位于芯片上方的电力输送系统，其下方还有一块水冷冷板。令人惊讶的是，在这款计算机的开发过程中，最大的挑战便是这个电力传输系统。

WSE有1.2万亿个晶体管，其设计工作电压约为0.8伏，这是处理器的标准配置，但它们的数量过多，共需要2万安培的电流。劳特巴赫说：“在没有明显电压下降的情况下，将2万安培的电流注入晶圆是一个相当艰巨的工程学挑战，这比冷却晶圆或解决成品率问题要难得多。”

电力无法从WSE的边缘传输，因为互连中的电阻在电压到达芯片中间之前早已将其降为零。所以应该自上而下垂直传输。Cerebras设计了一块玻璃纤维电路板，里面装有数百个用于功率控制的专用芯片。100万根铜柱将玻璃纤维板与WSE上各个点之间约1毫米的距离连接起来。

以这种方式传送电力似乎很简单，但事实并非如此。操作过程中，芯片、电路板和冷板都会预热到相同的温度，但在预热时它们膨胀的量各不相同。铜膨胀最大，硅膨胀最小，玻璃纤维的膨胀介于两者之间。对正常尺寸的芯片来说，这种不匹配是一个令人头疼的问题，因为这种变化足以切断它们与印刷电路板的连接，或者产生足以破坏芯片的应力。对于WSE大小的芯片而言，即使是很小的尺寸变化也会转化为几毫米的变化。

劳特巴赫说：“与主板（热膨胀系数）不匹配是一个残酷的问题。”Cerebras曾尝试寻找一种热膨胀系数介于硅和玻璃纤维之间的材料，只有这样才能保持百万个电力输送柱的连接。不过，最终工程师们不得不自己发明材料，这项工作耗时1年半。

WSE明显比通常用于神经网络计算的竞争芯片要大，后者包括英伟达的Tesla V100图形处理器和谷歌的Tensor处理器，但更大意味着更好吗？

2018年，谷歌、百度和一些顶级学术团体开始研究基准，以便在系统之间进行同类比较。结果是他们于2018年5月发布了训练基准MLPerf。

根据这些基准，神经网络训练技术在过去几年里取得了巨大进步。英伟达DGXSuperPOD（本质上是一台1500-GPU的超级计算机）用了80秒便解决了ResNet-50图像分类问题，而使用英伟达DGX-1机器（大概在2017年）需要8小时，使用该公司2015年的K80则需要25天。

Cerebras还没有发布MLPerf结果或任何其他可独立验证的同类比较结果。相反，该公司更愿意让客户使用自己的神经网络和数据来测试CS-1。

分析人士称这种做法并不罕见。“每个人都有为自己的业务开发的模型，”Moor Insights的人工智能分析师卡尔•弗洛因德（Karl Freund）说，“对买家来说，这是唯一重要的。”

例如，早期客户阿贡国家实验室就有一些相当强烈的需求。在训练神经网络以实时识别不同类型的引力波事件时，科学家们最近使用了阿贡功率为百万瓦特的Theta超级计算机1/4的资源，该超级计算机的计算能力在全球排名第28位。

把功耗降低到千瓦级似乎是超级计算的一个重要益处，劳特巴赫怀疑这项功能是否会成为数据中心的一大卖点。“虽然很多数据中心都在说（节约）能源的问题，但归根结底……他们并不在乎，”他说，“他们想要的是性能。”而这是一个约餐盘大小的处理器完全可以提供的。

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

芯片

芯片

+关注

关注
456

文章
50892

浏览量
424335
人工智能

人工智能

+关注

关注
1792

文章
47354

浏览量
238815
深度学习

深度学习

+关注

关注
73

文章
5504

浏览量
121246

原文标题：大型芯片将打破深度学习的速度壁垒

文章出处：【微信号：HXSLH1010101010，微信公众号：FPGA技术江湖】欢迎添加关注！文章转载请注明出处。

NPU在深度学习中的应用

随着人工智能技术的飞速发展，深度学习作为其核心驱动力之一，已经在众多领域展现出了巨大的潜力和价值。NPU（Neural Processing Unit，神经网络处理单元）是专门为深度学习

发表于 11-14 15:17 •643次阅读

GPU深度学习应用案例

能力，可以显著提高图像识别模型的训练速度和准确性。例如，在人脸识别、自动驾驶等领域，GPU被广泛应用于加速深度学习模型的训练和推理过程。二、自然语言处理自然语言处理（NLP）是深度

发表于 10-27 11:13 •407次阅读

激光雷达技术的基于深度学习的进步

信息。这使得激光雷达在自动驾驶、无人机、机器人等领域具有广泛的应用前景。二、深度学习技术的发展深度学习是机器学习的一个分支，它通过模拟人

发表于 10-27 10:57 •420次阅读

AI大模型与深度学习的关系

AI大模型与深度学习之间存在着密不可分的关系，它们互为促进，相辅相成。以下是对两者关系的介绍：一、深度学习是AI大模型的基础技术支撑：深度

发表于 10-23 15:25 •864次阅读

FPGA做深度学习能走多远？

并行计算的能力，可以在硬件层面并行处理大量数据。这种并行处理能力使得 FPGA 在执行深度学习算法时速度远超传统处理器，能够提供更低的延迟和更高的吞吐量，从而加速模型训练和推理过程，满足实时性要求较高

发表于 09-27 20:53

深度学习中的时间序列分类方法

时间序列分类（Time Series Classification, TSC）是机器学习和深度学习领域的重要任务之一，广泛应用于人体活动识别、系统监测、金融预测、医疗诊断等多个领域。随着深度

发表于 07-09 15:54 •996次阅读

深度学习与nlp的区别在哪

深度学习和自然语言处理（NLP）是计算机科学领域中两个非常重要的研究方向。它们之间既有联系，也有区别。本文将介绍深度学习与NLP的区别。

发表于 07-05 09:47 •959次阅读

基于深度学习的小目标检测

）的广泛应用，小目标检测的性能得到了显著提升。本文将详细探讨基于深度学习的小目标检测技术，包括其定义、挑战、常用方法以及未来发展方向。

发表于 07-04 17:25 •923次阅读

深度学习常用的Python库

深度学习作为人工智能的一个重要分支，通过模拟人类大脑中的神经网络来解决复杂问题。Python作为一种流行的编程语言，凭借其简洁的语法和丰富的库支持，成为了深度学习研究和应用的首选工具。

发表于 07-03 16:04 •663次阅读

深度学习与卷积神经网络的应用

到自然语言处理，深度学习和CNN正逐步改变着我们的生活方式。本文将深入探讨深度学习与卷积神经网络的基本概念、工作原理及其在多个领域的应用，并

发表于 07-02 18:19 •921次阅读

深度学习模型训练过程详解

深度学习模型训练是一个复杂且关键的过程，它涉及大量的数据、计算资源和精心设计的算法。训练一个深度学习模型，本质上是通过优化算法调整模型参数，使模型能够更好地拟合数据，提高预测或分类的准

发表于 07-01 16:13 •1316次阅读

深度解析深度学习下的语义SLAM

随着深度学习技术的兴起，计算机视觉的许多传统领域都取得了突破性进展，例如目标的检测、识别和分类等领域。近年来，研究人员开始在视觉SLAM算法中引入深度学习技术，使得

发表于 04-23 17:18 •1306次阅读

FPGA在深度学习应用中或将取代GPU

将 AI 框架模型映射到硬件架构。 Larzul 的公司 Mipsology 希望通过 Zebra 来弥合这一差距。Zebra 是一种软件平台，开发者可以轻松地将深度学习代码移植到 F

发表于 03-21 15:19

为什么深度学习的效果更好？

，这些原则和进步协同作用使这些模型异常强大。本文探讨了深度学习成功背后的核心原因，包括其学习层次表示的能力、大型数据集的影响、计算能力的进步、算法创新、迁移

发表于 03-09 08:26 •637次阅读

什么是深度学习？机器学习和深度学习的主要差异

2016年AlphaGo 击败韩国围棋冠军李世石，在媒体报道中，曾多次提及“深度学习”这个概念。

发表于 01-15 10:31 •1095次阅读

搜索历史

大型芯片将打破深度学习的速度壁垒

评论

NPU在深度学习中的应用

GPU深度学习应用案例

激光雷达技术的基于深度学习的进步

AI大模型与深度学习的关系

FPGA做深度学习能走多远？

深度学习中的时间序列分类方法

深度学习与nlp的区别在哪

基于深度学习的小目标检测

深度学习常用的Python库

深度学习与卷积神经网络的应用

深度学习模型训练过程详解

深度解析深度学习下的语义SLAM

FPGA在深度学习应用中或将取代GPU

为什么深度学习的效果更好？

什么是深度学习？机器学习和深度学习的主要差异