始于硬件却也被硬件所限的深度学习-电子发烧友网

电子发烧友网报道（文/周凯扬）深度学习硬件在AI时代已经引领了不少设计创新，无论是简单的边缘推理，还是大规模自然语言模型的训练，都有了性能上的突破。作为业内在深度学习上投入最多的公司之一，英伟达无疑是这类硬件的领军者。

近日，在伯克利大学的电子工程与电脑科学学院研讨会上，英伟达的首席科学家、研究部门高级副总裁同时兼任该校副教授的BillDally，分享了从他这个从业人士看来，发生在深度学习硬件上的一些趋势。

硬件成为限制

AI的浪潮其实早在20世纪就被多次掀起过，但真正成为人们不可忽视的巨浪，还是这十几年的事，因为这时候AI有了天时地利人和：算法与模型，大到足够训练这些模型的数据集，以及能在合理的时间内训练出这些模型的硬件。

但从带起第一波深度学习的AlexNet，到如今的GPT-3和TuringNLG等，人们不断在打造更大的数据集和更大的模型，加上大语言模型的兴起，对训练的要求也就越来越高。可在摩尔定律已经放缓的当下，训练时间也在被拉长。

基于Hopper架构的H100GPU/英伟达

以英伟达为例，到了帕斯卡这一代，他们才真正开始考虑单芯片的深度学习性能，并结合到GPU的设计中去，所以才有了Hopper这样超高规格的AI硬件出现。但我们在训练这些模型的时候，并没有在硬件规模上有所减少，仍然需要用到集成了数块HopperGPU的DGX系统，甚至打造一个超算。很明显，单从硬件这一个方向出发已经有些不够了，至少不是一个“高性价比”的方案。

软硬件全栈投入

硬件推出后，仍要针对特定的模型进行进一步的软件优化，因此即便是同样的硬件，其AI性能也会在未来呈现数倍的飞跃。从上个月的MLPerf的测试结果就可以看出，在A100GPU推出的2.5年内，英伟达就靠软件优化实现了最高2.5倍的训练性能提升，当然了最大的性能提升还是得靠H100这样的新硬件来实现。

BillDally表示这就是英伟达的优势所在，虽然这几年投入进深度学习硬件的资本不少，但随着经济下行，不少投资者已经丧失了信心，所以不少AI硬件初创公司都没能撑下去，他自己也在这段时间看到了不少向英伟达投递过来的简历。

他认为不少这些公司都已经打造出了自己的矩阵乘法器，但他们并没有在软件上有足够的投入，所以即便他们一开始给出的指标很好看，也经常拿英伟达的产品作为对比，未来的性能甚至比不过英伟达的上一代硬件，更别说Hopper这类新产品了。

加速器

相较传统的通用计算硬件，加速器在深度学习上明显要高效多了，因为加速器往往都是作为一种专用单元存在的，比如针对特定的数据类型和运算。加速器可以在一个运算周期内就完成通常需要花上10秒或100秒才能完成的工作量，效率最高可提升1000倍。

A100和H100的MLPerf跑分/英伟达

当然了要追求纯粹的性能提升，而不是效率提升的话，这些加速器也可以采用大规模并行设计，比如典型的32x32矩阵乘法单元，同时运行的运算有了千百倍的提升。加速器在内存设计上也更具有优势，比如针对特定的数据结构和运算，选择优化过的高带宽低能耗内存，同时尽可能使用本地内存，减少数据搬运来控制开销。

对于英伟达来说，他们在加速器上的研究更像是为GPU准备的试验田，一旦有优秀的成果出现，这些加速器就会成为GPU上的新核心。

小结

从BillDally的分享中，我们可以看出英伟达这样的巨头在深度学习上选择的技术路线，以及他们为何能在众多初创公司涌现、大厂入局的当下岿然不动的底气。这并不是说深度学习硬件的道路只有这一条，类脑芯片等技术的出现也提供了新的破局机会，但有了前人经验的借鉴后，在兼顾性能、数值精度、模型的同时，还是得在软件上下大功夫才行。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

计算

计算

+关注

关注
2

文章
450

浏览量
38835
AI

AI

+关注

关注
87

文章
31155

浏览量
269494
深度学习

深度学习

+关注

关注
73

文章
5507

浏览量
121299

学习硬件的第一节课:学习读懂原理图

学习硬件的第一节课：学习读懂原理图读懂原理图对嵌入式软件工程师和程序员尤为重要。在深入细节之前请注意,对所有的嵌入式设计人员来说、能懂得硬件工程师创建和使用的来描述其

发表于 12-16 16:04 •757次阅读

<b class='flag-5'>学习</b><b class='flag-5'>硬件</b>的第一节课:<b class='flag-5'>学习</b>读懂原理图

NPU在深度学习中的应用

设计的硬件加速器，它在深度学习中的应用日益广泛。 1. NPU的基本概念 NPU是一种专门针对深度学习算法优化的处理器，它与传统的CPU和G

发表于 11-14 15:17 •695次阅读

pcie在深度学习中的应用

深度学习模型通常需要大量的数据和强大的计算能力来训练。传统的CPU计算资源有限，难以满足深度学习的需求。因此，GPU（图形处理单元）和TPU（张量处理单元）等专用

发表于 11-13 10:39 •444次阅读

GPU深度学习应用案例

能力，可以显著提高图像识别模型的训练速度和准确性。例如，在人脸识别、自动驾驶等领域，GPU被广泛应用于加速深度学习模型的训练和推理过程。二、自然语言处理自然语言处理（NLP）是深度

发表于 10-27 11:13 •417次阅读

FPGA加速深度学习模型的案例

FPGA（现场可编程门阵列）加速深度学习模型是当前硬件加速领域的一个热门研究方向。以下是一些FPGA加速深度学习模型的案例：一、基于FPG

发表于 10-25 09:22 •266次阅读

AI大模型与深度学习的关系

AI大模型与深度学习之间存在着密不可分的关系，它们互为促进，相辅相成。以下是对两者关系的介绍：一、深度学习是AI大模型的基础技术支撑：深度

发表于 10-23 15:25 •936次阅读

FPGA做深度学习能走多远？

并行计算的能力，可以在硬件层面并行处理大量数据。这种并行处理能力使得 FPGA 在执行深度学习算法时速度远超传统处理器，能够提供更低的延迟和更高的吞吐量，从而加速模型训练和推理过程，满足实时性要求较高

发表于 09-27 20:53

如何帮助孩子高效学习Python:开源硬件实践是最优选择

家长们常常担心孩子在学习Python时所面临的挑战，如复杂性、兴趣保持、学习进度和可用资源。对于希望有效教授孩子Python的家长而言，了解硬件的作用至关重要，因为结合硬件项目的Pyt

发表于 09-06 09:49 •336次阅读

启明智显：深度融合AI技术，引领硬件产品全面智能化升级

启明智显，作为AI领域的先行者，正以前所未有的决心和行动力，深度融合先进的人工智能技术，引领硬件产品全面智能化升级

发表于 07-18 16:11 •421次阅读

深度学习中的时间序列分类方法

时间序列分类（Time Series Classification, TSC）是机器学习和深度学习领域的重要任务之一，广泛应用于人体活动识别、系统监测、金融预测、医疗诊断等多个领域。随着深度

发表于 07-09 15:54 •1038次阅读

EVASH Ultra EEPROM：被美国权威杂志评为优秀硬件存储厂商

EVASH Ultra EEPROM：被美国权威杂志评为优秀硬件存储厂商

发表于 07-01 12:53 •358次阅读

EVASH Ultra EEPROM：被Google认定为五大硬件厂商之一

EVASH Ultra EEPROM：被Google认定为五大硬件厂商之一

发表于 07-01 12:47 •349次阅读

深度学习编译工具链中的核心——图优化

深度神经网络模型可以看做由多个算子连接而成的有向无环图，图中每个算子代表一类操作（如乘法、卷积），连接各个算子的边表示数据流动。在部署深度神经网络的过程中，为了适应硬件平台的优化、硬件

发表于 05-16 14:24 •1007次阅读

深度解析深度学习下的语义SLAM

随着深度学习技术的兴起，计算机视觉的许多传统领域都取得了突破性进展，例如目标的检测、识别和分类等领域。近年来，研究人员开始在视觉SLAM算法中引入深度学习技术，使得

发表于 04-23 17:18 •1324次阅读

FPGA在深度学习应用中或将取代GPU

，这使得它比一般处理器更高效。但是，很难对 FPGA 进行编程，Larzul 希望通过自己公司开发的新平台解决这个问题。专业的人工智能硬件已经成为了一个独立的产业，但对于什么是深度学习算法的最佳

发表于 03-21 15:19

搜索历史

始于硬件却也被硬件所限的深度学习

评论

学习硬件的第一节课:学习读懂原理图

NPU在深度学习中的应用

pcie在深度学习中的应用

GPU深度学习应用案例

FPGA加速深度学习模型的案例

AI大模型与深度学习的关系

FPGA做深度学习能走多远？

如何帮助孩子高效学习Python:开源硬件实践是最优选择

启明智显：深度融合AI技术，引领硬件产品全面智能化升级

深度学习中的时间序列分类方法

EVASH Ultra EEPROM：被美国权威杂志评为优秀硬件存储厂商

EVASH Ultra EEPROM：被Google认定为五大硬件厂商之一

深度学习编译工具链中的核心——图优化

深度解析深度学习下的语义SLAM

FPGA在深度学习应用中或将取代GPU