总结深度学习，GPU推理性能提升的三大因素

‍‍过去十年是深度学习的“黄金十年”，它彻底改变了人类的工作和娱乐方式，并且广泛应用到医疗、教育、产品设计等各行各业，而这一切离不开计算硬件的进步，特别是GPU的革新。

深度学习技术的成功实现取决于三大要素：第一是算法。20世纪80年代甚至更早就提出了大多数深度学习算法如深度神经网络、卷积神经网络、反向传播算法和随机梯度下降等。

第二是数据集。训练神经网络的数据集必须足够大，才能使神经网络的性能优于其他技术。直至21世纪初，诸如Pascal和ImageNet等大数据集才得以现世。

第三是硬件。只有硬件发展成熟，才能将大型数据集训练大型神经网络的所需时间控制在合理的范围内。业内普遍认为：比较“合理”的训练时间大概是两周。至此，深度学习领域燃起了燎原之火。

如果把算法和数据集看作是深度学习的混合燃料，那么GPU就是点燃它们的火花，当强大的GPU可用来训练网络时，深度学习技术才变得实用。

此后，深度学习取代了其他算法，被广泛应用在图像分类、图像检测、语音识别、自然语言处理、时序分析等领域，甚至在围棋和国际象棋方面也能看到它的身影。随着深度学习潜入人类生活的方方面面，模型训练和推理对硬件的要求也越来越高。

从2012年AlexNet出现到2016年ResNet问世，图像神经网络的训练算力消耗（以petaflop/s-day为单位）增长了将近2个数量级，而从2018年的BERT到近年的GPT-3，训练算力消耗增加了近4个数量级。在此期间，得益于某些技术的进步，神经网络的训练效率明显提升，由此节省了不少算力，否则算力消耗的增长还会更夸张。

研究人员想用更大的无监督语言数据集训练更大的语言模型，然而，尽管他们已经拥有4000个节点的GPU集群，但在合理训练时间内能处理的运算还是非常有限。这就意味着，深度学习技术的发展有多快，取决于硬件发展有多快。

如今，深度学习模型不但越来越复杂，而且应用范围越来越广泛。因此，还需要持续提升深度学习的性能。

那么，深度学习硬件究竟如何继续提升？英伟达首席科学家Bill Dally无疑是回答这一问题的权威，在H100 GPU发布前，他在一次演讲中回顾了深度学习硬件的现状，并探讨摩尔定律失效的情况下持续提升性能扩展的若干方向。OneFlow社区对此进行了编译。

01 GPU架构演进史

从2012年的K20X到2020年的A100，GPU的推理性能提高到原来的317倍。这就是我们所说的“黄氏定律”，这种发展速度比“摩尔定律”快得多。

GPU的推理性能提升

但不同于“摩尔定律”，在“黄氏定律”中，GPU的性能提升不完全依赖制程技术的进步。上图用黑、绿、蓝三色分别标注了这几种GPU，分别代表它们使用了三种不同的制程技术。早期的K20X和M40使用的是28纳米制程；P100、V100和Q8000使用的是16纳米制程；A100使用的是7纳米制程。制程技术的进步大概只能让GPU的性能提高到原来的1.5或2倍。而总体317倍的性能提升绝大部分归功于GPU架构和线路设计的完善。

2012年，英伟达推出了一款Kepler架构GPU，但它并不是专为深度学习设计的。英伟达在2010年才开始接触深度学习，当时还没有考虑为深度学习量身定制GPU产品。

Kepler (2012)

Kepler的目标使用场景是图像处理和高性能运算，但主要还是用于图像处理。因此，它的特点是高浮点运算能力，它的FP32计算（单精度浮点数计算）速度达到近4 TFLOPS，内存带宽达到250 GB/s。基于Kepler出色的性能表现，英伟达也将它视为自家产品的基准线。

Pascal (2016)

后来，英伟达在2016年推出了Pascal架构，它的设计更适合深度学习。英伟达经过一些研究后发现，不少神经网络都可以用FP16（半精度浮点数计算）训练，因此Pascal架构的大部分型号都支持FP16计算。下图这款Pascal GPU的FP32计算速度可达10.6 TFLOPS，比前一款Kepler GPU高出不少，而它的FP16计算则更快，速度是FP32的两倍。

Pascal架构还支持更多复杂指令，例如FDP4，这样就可以将获取指令、解码和获取操作数的开销分摊到8个算术运算中。相较于之前的融合乘加（Fuse Multiply-Add）指令只能将开销分摊到2个算术运算，Pascal架构可以减少额外开销带来的能耗，转而将其用于数学运算。

Pascal架构还使用了HBM显存，带宽达到732 GB/s，是Kepler的3倍。之所以增加带宽，是因为内存带宽是深度学习性能提升的主要瓶颈。此外，Pascal使用了NVLink，可以连接更多机器和GPU集群，从而更好地完成大规模训练。英伟达为深度学习推出的DGX-1系统就使用了8个基于Pascal架构的GPU。

Volta (2017)

2017年，英伟达推出了适用于深度学习的Volta架构，它的设计重点之一是可以更好地分摊指令开销。Volta架构中引入了Tensor Core，用于深度学习的加速。Tensor Core可以用指令的形式与GPU连接，其中的关键指令是HMMA (Half Precision Matrix Multiply Accumulate，半精度矩阵乘积累加)，它将2个4×4 FP16矩阵相乘，然后将结果加和到一个FP32矩阵中，这种运算在深度学习中很常见。通过HMMA指令，就可以将获取指令和解码的开销通过分摊降低到原来的10%到20%。

剩下的就是负载问题。如果想要超越Tensor Core的性能，那就应该在负载上下功夫。在Volta架构中，大量的能耗和空间都被用于深度学习加速，所以即使牺牲可编程性，也不能带来太多性能提升。

Volta还升级了HBM显存，内存带宽达到900 GB/s，还使用了新版本的NVLink，可以让构建集群时的带宽增加到2倍。此外，Volta架构还引进了NVSwitch，可以连接多个GPU，理论上NVSwitch最多可以连接1024个GPU，构建一个大型共享内存机器。

Turing (2018)

2018年，英伟达推出了Turing架构。由于之前的Tensor Core大获成功，所以英伟达又顺势推出了Integer Tensor Core。因为大部分的神经网络用FP16即可训练，做推理时也不需要太高的精度和太大的动态范围，用Int8即可。所以，英伟达在Turing架构中引进了Integer Tensor Core，使性能提高到原来的2倍。

Turing架构还使用了GDDR显存，以支持那些有高带宽需求的NLP模型和推荐系统。当时有人质疑称，Turing架构的能源效率比不上市面上的其他加速器。但如果仔细计算，会发现其实Turing架构的能源效率更高，因为Turing用的是G5显存，而其他加速器用的是LPDDR内存。我认为，选择G5显存是一个正确的决定，因为它可以支持同类产品没能支持的高带宽需求的模型。

我对Turing架构深感骄傲的一点是，它还配备了支持光线追踪（Ray Tracing）的RT Core。英伟达在2013年才开始研究RT Core，在短短5年后就正式推出了RT Core。

Ampere (2020)

2020年，英伟达发布了Ampere架构，让当年发布的A100实现了性能飞跃，推理速度可达1200 Teraflops以上。Ampere架构的一大优点是，它支持稀疏性。我们发现，大部分神经网络都是可以稀疏化的，也就是说，可以对神经网络进行“剪枝”，将大量权重设置为0而不影响它的准确率。但不同神经网络的可稀疏化程度不同，这就有些棘手。比如，在保证不损失准确率的前提下，卷积神经网络的密度可以降低至30%到40%，而全连接神经网络则可降低至10%到20%。

传统观点认为，由于运算稀疏矩阵包的开销较大，所以如果密度不能降到10%以下，权衡之下不如运算密集矩阵包。我们一开始和斯坦福大学合作研究稀疏性，后来做出了很好的机器，它们在矩阵密度达到50%时也能高效运行，但要想让稀疏矩阵在电源门控（power gating）方面比密集矩阵更优越还是很困难，这是我们一直想突破的地方。最终，我们攻破难题研发出了Ampere，而秘诀就是结构化稀疏。

结构化稀疏

Ampere架构规定矩阵的每4个数值中，非零值不能超过2个，也就是通过去掉非零值对权重进行压缩。通过输入码字（code word）判断哪些权重应被保留，并用码字判断这些非零权重应该乘以哪些输入激活，然后相加，完成点乘操作。这种做法非常高效，让Ampere架构在大多数神经网络上的性能提升到原来的2倍。

此外，Ampere架构还有不少创新点，例如Ampere内置了TF32（即TensorFloat-32）格式，它结合了FP32的8位指数位和FP16的10位尾数位。Ampere还支持BFLOAT格式，BFLOAT的指数位与FP32相同，尾数位比FP32少，所以可以视为FP32的缩减版。上述的所有数据格式都支持结构化稀疏，所以无论用FP16和TF32训练，还是用Int8和Int4推理，都可以获得结构化稀疏带来的高性能。

随着Ampere在量化方面做得越来越好，它可以应用在很多神经网络上并保证高性能。Ampere有6个HBM堆栈，且HBM显存的带宽也有所升级，达到2TB/s。端到端推理时，Ampere的运算能力可达3.12 TOPS/W(Int8)和6.24 TOPS/W(Int4)。

02 GPU推理性能提升的三大因素

GPU推理性能提升的三大因素

总结深度学习过去的发展，GPU推理性能在8年内提升317倍主要归功于三大因素：

首先，最重要的是数字表示（number representation）法的发展。FP32的精度太高，导致算术运算的成本太高。后来Turing和Ampere架构支持Int8，极大提升了GPU的每瓦性能。Google发表论文公布TPU1时表示，TPU1的优势就在于它是专门为机器学习量身定制的。实际上，Google应该是在拿自家的TPU1和英伟达的Kepler进行比较（如前所述，Kepler并非专门为深度学习而设计），所以TPU1的优势归根结底可以说是Int8相较于FP32的优势。

其次，GPU支持复杂指令。Pascal架构新增了点乘指令，然后Volta、Turing和Ampere架构新增了矩阵乘积指令，让开销得到分摊。在GPU中保留可编程引擎可以带来很多好处，它可以像加速器一样高效，因为每项指令完成的任务非常多，每项指令的开销分摊几乎可以忽略不计。

最后，制程技术的进步。芯片制程从28纳米发展到如今的7纳米，为GPU性能提升作出了一定的贡献。

下列例子可以让你更好地理解开销分摊的效果：如果执行HFMA操作，“乘”和“加”2个操作合计只需1.5pJ（皮焦耳，Picojoules），然而获取指令、解码和获取操作数需要30pJ的开销，分摊下来开销就会高达2000%。

而如果执行HDP4A操作，就可以将开销分摊到8个操作，使开销下降至500%。而HMMA操作，由于绝大部分的能耗都用于负载，开销仅为22%，IMMA则更低，为16%。因此，虽然追求可编程性会增加少量开销，但采取不同的设计可带来的性能提升更加重要。

03 从单卡性能到GPU集群连接

以上谈论的都是单个GPU的性能，但训练大型语言模型显然需要多个GPU，因此还要改善GPU之间的连接方式。

我们在Pascal架构中引入NVLink，后来的Volta架构采用了NVLink 2，Ampere架构采用了NVLink 3，每一代架构的带宽都翻了一倍。此外，我们在Volta架构中推出了第一代NVSwitch，又在Ampere架构推出了第二代。通过NVLink和NVSwitch，可以构建超大型的GPU集群。另外，我们还推出了DGX box。

DGX box

2020年，英伟达收购了Mellanox，所以现在可以提供包含Switches和Interconnect在内的整套数据中心解决方案，供构建大型GPU集群之用。此外，我们还配备了DGX SuperPOD，它在AI性能记录500强名单上排行前20。以往，用户需要定制机器，现在只需要购置一台可以部署DGX SuperPOD的预配置机器，就可以获得DGX SuperPOD带来的高性能。此外，这些机器还非常适用于科学计算。

从前，用单台机器训练单个大型语言模型需要几个月之久，但通过构建GPU集群就可以大大提高训练效率，因此，优化GPU集群连接和提升单个GPU的性能同样重要。

04 深度学习加速器：新技术的试验场

接下来谈谈英伟达的加速器研发工作。英伟达把加速器视为试验新技术的载体，成功的技术最终会被应用到主流GPU中。

可以这样理解加速器：它有一个由内存层次结构输入的矩阵乘法单元，接下来要做的是让大部分的能耗用于矩阵乘法计算，而不是用于数据搬运。

为了这个目标，我们在2013左右启动了NVIDIA DLA项目，它是一款开源产品，配套非常完善，与其他深度学习加速器别无二致。但DLA有大型MAC阵列，支持2048次Int8、1024次Int16或1024次FP16操作。

DLA有两个独特之处：一是支持稀疏化。我们从容易实现的目标开始着手，所有的数据传输，包括从DMA到Unified Buffer和从Unified Buffer到MAC阵列，都只涉及非零值，通过编码决定哪些元素被留下，然后对这些元素进行解压缩，再输入MAC阵列进行运算。

DLA解压缩的方式比较巧妙，它并不向MAC阵列中输入零值，因为这会让一连串的数据都变为零。相反，它设置了单独的线路表示零值，当乘法器在任一输入中接收到该线路时，就会锁定乘法器内的数据，然后发送输出，输出的数据不会增加任何数值，这种数据门控（Data Gating）的能源效率非常高。

二是在硬件层面支持Winograd变换。要知道，如果要做卷积，例如一个m×n的卷积核，在空间域就需要n的2次方个乘法器和加法器，但如果在频域，就只需要逐点相乘。

所以大型卷积核在频域运算比在空间域运算更高效。根据卷积核大小的不同，对部分图像网络而言，Winograd变换可以带来4倍的性能提升。

EIE（2016）

2016年，我在斯坦福和我当时的学生韩松（MIT EECS助理教授、原深鉴科技联合创始人）一起研究EIE (Efficient Inference Engine)。这是对稀疏化的初步探索之一。我们在硬件层面支持CSR（Compressed Sparse Row）矩阵表示，这种做法非常高效，在密度为50%时，甚至比全密度计算还要节能。

后来发现，如果想让加速器更高效，应该构建向量单元阵列，这样每个引擎不会只执行单个乘加，而是每个循环每个PE（Processing Element）执行16×16=256个乘加。但当我们开始构建向量单元阵列时，发现很难高效实现稀疏化，于是转而采用结构化稀疏。

EIE处理标量单元时，它将指针结构储存在单独的内存中，然后通过流水阶段来处理指针结构，决定哪些数据可以相乘，继而执行乘法，将运算结果放置在合适的位置。这一整套流程运行得非常高效。

我们还发现，提高神经网络运算效率的方法除了“剪枝”实现稀疏化之外，还有量化。因此，我们决定使用码本量化（codebook quantization）。在用比特数表示的数据方面，码本量化是提升效率的最佳方法。所以我们对codebook（码本）进行了训练。

事实证明，如果你能使用反向传播来捕捉梯度下降，那就可以将反向传播运用到任何事物中。所以我们在码本中使用反向传播，训练了给定精度的最优码字集。假设码本有7个比特，那么你将得到128个码字，我们就在神经网络中找到最优的128个码字进行训练。

码本量化面临一个问题：数学运算的开销很高。因为不管码本有多大，实际数值是多少，你都需要在RAM（随机访问内存）中进行查找。实际数值必须以高精度表示，而你无法将这些码字准确地表示出来。

因此，我们在高精度数学方面花了很多精力。从压缩的角度来看，这样做的效果很好，但从数学能量（math energy）的角度来看，就显得不是很划算，所以在后续工作中我们就放弃了这项技术。

Eyeriss（2016）

Joel Emer（同时供职于英伟达和麻省理工大学）和麻省理工大学的Vivienne Sze一起构建了Eyeriss，主要解决了平铺问题，或者说是如何限制计算，以此来将数据搬运（data movement）最小化。典型的方法是使用行固定（row stationary），在行中传播权重，输出在列中激活，并最大限度地减少数据搬运消耗的能量。

SCNN（2017）

我们现在仍在进行稀疏性研究。2017年，我们为稀疏编译（神经网络的进化版）搭建了一台名为SCNN（Sparse CNNs）的机器，我们所做的是：将与处理稀疏性相关的所有复杂问题都转移到输出上。读取所有的输入激活，同时明确它们需要去往哪里，因此这里的“f宽向量”是典型的向量输入激活。我们一次会读取四个输入激活，四个权重，每个权重都需要乘以每个输入激活。这只是一个关于把结果放在哪里的问题，所以我们用f乘f计算。

在坐标计算中，我们取输入激活和权重的指数，并计算出在输出激活中需要求和结果的位置。然后在这些累加器缓冲区上做了一个数据发散（scatter_add）计算。在此之前，一切都非常有效。但事实证明，将不规则性转移到输出上不是一个好办法，因为在输出中，精度实际上是最宽泛的。当你倾向于累加，做了八位权重，八位激活，累加到了24位。在这里我们用宽位累加器（wide accumulators ）做了大量的数据搬运，效果优于做更密集一点的数据搬运。不过提升也没有想象的那么多，也许是密度单元能量的50%。

SIMBA（RC18）（2019）

我们要做的另一件事是：用现有加速器建造一个多芯片模块——SIMBA（RC18），在2018年产生了做此研究的想法，同时这款芯片也展示了很多巧妙的技术。它有一个很好的PE架构，该芯片则在其中间提供了一项非常有效的信令技术（signaling technology）。现在该架构扩展到了完整的36个芯片，其中每个芯片都有一个4x4的PE矩阵，在这个单位中，每个PE又有8个宽矢量单位，因此我们能够得到128 TOPS的运算能力，每个Op有0.1 pJ，大约相当于10 TOPS/W。从中我们学到了很多关于权衡（trade-offs）的东西。

我们意识到：构建这些PE阵列宛如建立一个非常大的设计空间（design space），关乎如何构建内存层次结构，如何调度数据等等，对此我们建立了一个叫做MAGNET的系统。

MAGNET

上图是一个于2019年发表在ICCAD（国际计算机辅助设计会议）上的设计空间探索系统，主要用于枚举其设计空间，如：每个向量单元应该有多宽，每个PE有多少向量单元，权重缓冲区有多大，累加器缓冲区有多大，激活缓冲区有多大等等。后来发现，我们需要去做另一个级别的缓存，于是添加了权重收集器和累加器收集器。

MAGNET RESULTS

通过这种额外的缓存级别，我们最终取得了成功。这表明这里的数据流是不同的，而权重固定数据流最初是由Sze和Joel来完成的。你将大部分能量投到了数据路径以外的事情上，比如投入到累积缓冲区、权重缓冲区和输入缓冲区中。但通过这些混合数据流，权重固定，局部输出固定，输出固定，局部权重固定，能够在数学运算中获得几乎三分之二的能量，并且可以减少花在这些内存阵列中的能量，从而在内存层次结构的另一个层上进行处理。这使得现在的每瓦性能达到约为20 TOPS。

VS-Quant

2021年，在MLSYS（The Conference on Machine Learning and Systems，机器学习与系统会议）会议上，我们引入了VS-Quant，以此来探索出一种在压缩比特数（这方面码本量化效果很好）和数学开销方面都很划算的量化方式。我们使用整数表示，但同时想要缩放该整数表示，以便可以表示出整数的动态范围。

但事实证明，如果你现在将其应用到整个神经网络，那么效果不会很好，因为神经网络上有很多不同的动态范围，所以VS-Quant的关键是：我们对一个相对较小的向量施加了一个单独的比例因子（scale factor），大约通过在32个权重上进行上述操作，动态范围会小得多。我们可以把这些整数放在上面，也可以对其调整优化。

也许我们没有将离群值准确地表示出来，但更好地表示出了其余数字。如此一来，我们就可以用相对低精度的权重和激活来换取较高的精度。所以我们现在有多个比例因子（scale factors ）：一个是权重因子，一个是激活因子。

Energy, Area, and Accuracy Tradeoff

我们基本上是在向量层级进行这些操作，结果如Bert-base所示。与不进行权重训练相比，我们可以通过训练在某些情况下节省20%的能量和70%的空间，上图的绿色表示基本上没有损失准确性；蓝色、橙色和红色表示准确性更高或更低。但即使在蓝色水平，准确性也相当高了。

通过VS-Quant和一些其他调整，我们在这些语言模型上进行了试运行。在语言模型上运行比在大约为120 TOPS/W的图像模型上运行要困难得多。

Accelerators

所以对于加速器，要先做一个矩阵乘法器。我们需要提出一种平铺方法，一种采用神经网络的七个嵌套循环计算方法。本质上是将其中一些循环复制到内存系统的各层，以最大限度地重复使用每层的内存层次结构，并尽量减少数据搬运。

我们还研究了稀疏性，在压缩方面很不错。它基本上增加了内存带宽和通信带宽，减少了内存和通信的能量。稀疏性发展的下一个层次是：当你有一个零值，只需单独发送一条线表示零值，而不必在每个循环中切换到8或16位。

Ampere架构可以通过使用结构化稀疏来重用乘法器，这是一种很有效的方法，只需要几个多路复用器的开销（基本上可以忽略不计）。在进行指针操作时，我们也可以重用乘法器，从中可获得2倍的性能。数值表征（number representation）非常重要。我们从EIE开始（译者注：Efficient Inference Engine，韩松博士在ISCA 2016上的论文。实现了压缩的稀疏神经网络的硬件加速。与其近似方法的ESE获得了FPGA2017的最佳论文。），试图做码本，但这使得数学上的缩放很昂贵。

最后，在加速器里试验成功的技术最终会被运用到GPU中。这是一种很好的测试方式，我们认为，GPU是一个针对特定领域硬件的平台，它的内存系统非常好，网络流畅，能够让深度学习应用运行得非常快。

05 深度学习硬件的未来

Future Directions

接下来谈谈深度学习硬件的未来。上图是一个能量流向饼状图，从中可以看到大部分都流向于数据路径，其背后有大约50%是关于数学运算，所以我们想让数学运算的能量消耗更少；剩下很多流向内存和数据搬运。其中绿色的是数据搬运，其余部分是输入缓冲区、权重缓冲区、累加缓冲区和累加收集器，占比都有不同。

我们正在研究降低数学运算的能量消耗，最好的一个办法就是将其转移到对数系统。因为在对数系统中，乘法变成了加法，而加法的耗能通常要低得多。另一个办法是转为更小的数值，这一点可以通过VS-Quant实现。通过更精确地量化，我们可以用较低的精度数从神经网络中获得同等的精度。

我们希望能将平铺做得更好，比如在某些情况下，可能会在内存层次结构中添加更多层，这样就可以降低内存能量，也可以使内存电路和通信电路的效果更好。

在Ampere架构上，我们已经在结构化稀疏的工作是一个很好的开始，但我认为我们可以通过降低密度或选择多个密度来调整激活和权重，以此做得更好。

随着研究的深入，工艺技术也会带来一些电容缩放的进展。

06 总结

2012年发布Kepler架构以来，GPU的推理性能（inference performance）每年都在翻倍增长。发展到现在，很大程度上要归功于不断更好的数字表示。本次我们谈了很多内容，比如从Kepler架构的FP32到FP16到Int8再到Int4；谈到了通过分配指令开销，使用更复杂的点积；谈到了Pascal架构，Volta架构中的半精密矩阵乘累加，Turing架构中的整数矩阵乘累加，还有Ampere架构和结构稀疏。

关于Plumbing我谈得很少，但Plumbing却非常重要。通过Plumbing来布置片上内存系统和网络，由此可以充分利用强大的Tensor Cores（张量核心）。对于Tensor Cores来说，使其在Turing架构中每秒执行一千兆的操作，并将数据输入到执行通用基准测试中，以此来安排分支存储器、片上存储器和它们之间的互连互通以及正常运行，都非常重要。

展望未来，我们准备尝试将各种新技术应用到加速器中。前面提到，我们已经就稀疏性和平铺技术进行了多次实验，并在MAGNet项目中试验了不同的平铺技术和数值表示等等。但我们仍然倍感压力，因为深度学习的进步其实取决于硬件性能的持续提升，让GPU的推理性能每年都翻一番是一项巨大的挑战。

其实我们手里的牌打得差不多了，这意味着我们必须开始研发新的技术，以下是我认为值得关注的四个方向：首先，研究新的数字表示，比如对数（Log number），以及比EasyQuant更加巧妙的量化方案；其次，继续深入研究稀疏性；然后，研究存储电路和通信电路；最后，改良现有的工艺技术。

07 答听众问

Dejan Milojicic：需要多大的矩阵卷积才能将Winograd算法转换成更高效的卷积实现？

Bill Dally：我认为，3×3的矩阵卷积就很高效。当然，卷积越大，效率越高。

Dejan Milojicic：高带宽存储器（High Bandwidth Memory, HBM）的内存带宽是如何计算的？是通过所有的GPU核同时访问内存吗？

Bill Dally：每个HBM堆栈都有一个单独的帧缓冲区，像Ampere架构有六个堆栈。我们的内存带宽是通过每个内存控制器以全带宽运行来计算的。各个GPU核之间都有一个缓存层，然后我们的片上网络的带宽是HBM带宽好几倍，所以基本上只需运行一小部分的流式多处理器就能使HBM达到饱和。

Dejan Milojicic：带有NVLink的分布式计算如何工作？谁来决定具体执行哪一个计算？在多个GPU上做scatter-gather时，哪些地方会产生开销以及会产生哪些开销？

Bill Dally：程序员会决定把数据和线程放在什么位置，而你只需在GPU上启动线程和数据以及确定它们的运行位置。采用NVLink进行连接的系统具备一大优势，那就是它是一个共享的地址空间，传输相对较小数据时的开销也相当小，所以我们在网络中采取集群通信。

通常情况下，如果你在深度学习中做数据并行，那么每个GPU都会运行相同的网络，但处理的是同一数据集的不同部分，它们会各自累积权重梯度，之后你再共享各个GPU上的梯度并累积所有梯度，然后添加到权重中。集群通信就非常擅长处理这样的工作。

Dejan Milojicic：我们到底是应该为所有应用创建通用的深度学习加速器，还是分别创建专用的加速器，比如视觉加速器或自然语言处理加速器？

Bill Dally：在不影响效率的情况下，我认为加速器当然越通用越好，英伟达的GPU在加速深度学习效率方面堪比专用加速器。真正重要的是，机器学习领域正在以惊人的速度向前发展。

几年前，大家还在使用循环神经网络处理语言，然后Transformer出现并以迅雷不及掩耳之速取代了RNN，转眼间所有人都开始使用Transformer进行自然语言处理。同样，就在几年前，每个人都在使用CNN来处理图像，虽然现在仍有不少人在使用卷积神经网络，但越来越多人开始使用Transformer来处理图像。

因此，我并不支持产品过度专用化或者为某一网络创建专用加速器，因为产品的设计周期通常需要持续好几年时间，而在此期间，人们很可能已经不再使用这种网络了。我们必须具备敏锐的眼光，及时洞察行业变化，因为它时刻都在以惊人的速度发展。

Dejan Milojicic：摩尔定律对GPU性能和内存占用有何影响？

Bill Dally：摩尔定律认为，晶体管成本会随时间逐年降低。今天，集成电路上可容纳的晶体管数量确实越来越多，芯片制程也实现了从16纳米到7纳米的飞跃，集成电路上的晶体管密度越来越大，但单个晶体管的价格却并未降低。因此，我认为摩尔定律有些过时了。

尽管如此，集成电路上能容纳更多的晶体管仍是一件好事，这样我们就能够建造更大规模的GPU。虽然大型GPU的能耗也会更高，价格也更加昂贵，但这总归是一件好事，因为我们能够构建一些从前无法构建的产品。

Dejan Milojicic：如果开发者比较重视PyTorch这样的框架，那么他们应该从硬件的进步中学习什么来让自己的深度学习模型运行更高效？

Bill Dally：这个问题很难回答。框架在抽象硬件方面做得很好，但仍然有一些影响模型运行速度的因素值得研究。我们可以尝试去做的是，当想出一项更好的技术时，比如更好的数值表示方法，可以尝试将各种不同的技术与框架相结合，看看哪种方法更加有效，这是研发工作不可或缺的环节。

Dejan Milojicic：英伟达是否正在实验新的封装方法？

Bill Dally：我们一直在对各种封装技术进行各种实验，弄清楚它们能做什么和不能做什么，以便在合适的时机将它们部署到产品。比如其中一些项目在研究多芯片模块，用焊接凸点、混合键合做芯片堆叠，其实有很多简洁的封装技术。

Dejan Milojicic：英伟达的Tensor Core和谷歌的TPU相比，谁更胜一筹？

Bill Dally：我们对谷歌最新的TPU并不了解，但他们之前推出的TPU都是专用引擎，基本上都内置了大型的乘加器阵列。

TPU独立的单元来处理非线性函数和批量归一化（batch norm）之类的事情，但我们的方法是建立一个非常通用的计算单元流式多处理器（SM），只需非常通用的指令就可以让它做任何事情，然后再用Tensor Core来加速矩阵乘法部分。因此，Tensor Core和谷歌的TPU都有类似的乘加器阵列，只是我们使用的阵列相对较小。

Dejan Milojicic：英伟达最大的对手是谁？

Bill Dally：英伟达从来不跟其他公司比较，最大的对手就是我们自己，我们也在不断地挑战自己，我认为这才是正确的态度。如果我们一味地把其他人视作竞争对手，反而放缓我们前进的脚步。不必过多关注其他人在做什么，我们真正应该关注的是哪些事情是可能实现的。我们所做的事就像在追求光速，我们更关注怎样才能做到最好，以及距离光速还有多远，这才是真正的挑战。

Dejan Milojicic：你对量子计算有何看法？量子模拟是深度学习挑战的自然延伸吗？

Bill Dally：2021年3月，我们发布了一款名为“cuQuantum”的软件开发工具包。Google之前也研制出了具有53个量子比特的计算机，并称自己实现了“量子优越性”。一些传统计算机无法完成的计算，用cuQuantum在五分钟内就能完成了。所以，如果想真正做到精准的量子算法，而不是今天的嘈杂中型量子（Noisy Intermediate-Scale Quantum，NIST）计算，GPU应该是最佳选择。

英伟达的传统GPU计算机是目前最快的量子计算机之一，阿里巴巴也在类似的经典计算中取得了不错的成绩，这恰好印证了我们的结论。我们对量子计算的看法是：英伟达不会因为这一技术领域的任何动态而感到惊讶。

实际上，我们还成立了一个研究小组来追踪量子计算领域的前沿动态，比如IBM宣布研制出了具有127个量子比特的芯片。我们也一直在跟踪量子比特数量和相干时间（coherence time）等方面的进展。

考虑到所需的量子比特数量、量子比特的准确性、噪音对量子的干扰以及量子纠错所需的开销，我认为未来五到十年内，量子计算都无法实现商用。

我最乐观的看法是，大概五年后，人们将开始进行量子化学模拟，这应该最有可能做到的。但在那之前，还有很多物理上的难题需要解决。很多人还没有意识到，量子计算机就是模拟计算机，而模拟计算机需要非常精确且易于隔离，否则任何与环境的耦合都会导致结果不一致。

Dejan Milojicic：在你看来，机器何时才能达到通用人工智能（AGI）的水平？

Bill Dally：我对这个问题的看法比较消极。试看一些比较成功的人工智能用例，例如神经网络，其实它本质上就是通用函数拟合器。神经网络可以通过观察来学习一个函数，所以它的价值还是体现在人工感知而不是人工智能。

虽然我们目前已经取得了不错的成果，但还是可以继续研究如何使用人工智能和深度学习来提高生产力，从而改善医疗、教育，给人们带来更加美好的生活。其实，我们不需要AGI来做到这些，而应该重视如何最大程度地利用现有技术。距离AGI还有很长的路要走，我们也必须弄清到底什么是AGI。

编辑：黄飞

阅读全文

摩尔定律(78502) 摩尔定律(78502)
gpu(126253) gpu(126253)
深度学习(119797) 深度学习(119797)

相比GPU和GPP，FPGA是深度学习的未来？

相比GPU和GPP，FPGA在满足深度学习的硬件需求上提供了具有吸引力的替代方案。凭借流水线并行计算的能力和高效的能耗，FPGA将在一般的深度学习应用中展现GPU和GPP所没有的独特优势。同时，算法

2016-07-28 12:16:38

7349

深度学习框架只为GPU? 答案在这里

目前大多数的机器学习是在处理器上完成的，大多数机器学习软件会针对GPU进行更多的优化，甚至有人认为学习加速必须在GPU上才能完成，但事实上无论是运行机器学习的处理器还是优化的深度学习框架，都不

2018-03-14 18:29:09

8148

带有TensorRT的JetPack 2.3加倍Jetson TX1深度学习推理

深度神经网络（DNN）是实现强大的计算机视觉和人工智能应用的强大方法。今天发布的 NVIDIA Jetpack 2.3 使用NVIDIA TensorRT （以前称为GPU推理引擎或GIE

2018-05-07 15:09:50

7493

英特尔FPGA 助力Microsoft Azure机器学习提供AI推理性能

Machine Learning SDK 相集成以供预览。客户可以使用 Azure 大规模部署的英特尔® FPGA（现场可编程逻辑门阵列）技术，为其模型提供行业领先的人工智能（AI） 推理性能。

2018-05-16 17:25:03

6183

NVIDIA扩大AI推理性能领先优势，首次在Arm服务器上取得佳绩

最新MLPerf基准测试表明，NVIDIA已将其在AI推理性能和能效方面的高标准扩展到Arm以及x86计算机。

2021-09-23 14:18:06

2518

基于NVIDIA GPU加速机器学习模型推理

Google Cloud 的 Dataflow 是一个托管服务，用于执行各种各样的数据处理模式，包括流式处理和批处理分析。它最近添加了 GPU 支持现在可以加速机器学习推理工作流，这些工作流运行在数据流管道上。

2022-04-22 09:53:54

7203

性能提升20倍！NVIDIA A100 GPU打破16项AI芯片性能记录

年5月的行业基准测试组织，致力于机器学习硬件、软件和服务的训练和推理性能测试，囊括行业中几乎所有知名企业和机构，比如Intel、NVIDIA、Google、微软、阿里巴巴等。 DGX Su

2020-07-31 08:03:00

5270

NVIDIA打破AI推理性能记录

　NVIDIA凭借A100进一步扩大了在MLPerf基准测试中的领先优势，实现了比CPU快237倍的AI推理性能，助力企业将AI研究转化为生产力。

2020-10-22 14:07:58

714

GPU爆炸式发展背后的深层原因？

Bifrost架构如何提高效率和性能？Mali-G71如何通过创新技术来提升GPU性能？GPU爆炸式发展背后的深层原因？

2021-03-11 06:48:49

深度学习推理和计算-通用AI核心

摘要与深度学习算法的进步超越硬件的进步，你如何确保算法明天是一个很好的适合现有的人工智能芯片下发展？，这些人工智能芯片大多是为今天的人工智能算法算法进化，这些人工智能芯片的许多设计都可能成为甚至在

2020-11-01 09:28:57

深度学习与数据挖掘的关系

;而深度学习使用独立的层、连接，还有数据传播方向，比如最近大火的卷积神经网络是第一个真正多层结构学习算法，它利用空间相对关系减少参数数目以提高训练性能，让机器认知过程逐层进行，逐步抽象，从而大幅度提升

2018-07-04 16:07:53

深度学习框架TensorFlow&TensorFlow-GPU详解

TensorFlow&TensorFlow-GPU：深度学习框架TensorFlow&TensorFlow-GPU的简介、安装、使用方法详细攻略

2018-12-25 17:21:10

深度学习框架只为GPU?

CPU优化深度学习框架和函数库机器学***器

2021-02-22 06:01:02

Arm Neoverse V1的AWS Graviton3在深度学习推理工作负载方面的作用

的 BERT-Large 实时推理性能。越高越好。AWS Graviton3 (c7g) 与 AWS Intel Ice Lake (c6i) 的性能比较以下图表总结了 AWS Graviton3

2022-08-31 15:03:46

DC总线转换器提升了系统电源管理性能

DC总线转换器提升了系统电源管理性能

2012-08-14 20:50:57

FPGA 超越 GPU，问鼎下一代深度学习主引擎

的合著者之一，说：“深度学习是AI中最令人兴奋的领域，因为我们已经看到了深度学习带来的巨大进步和大量应用。虽然AI 和DNN 研究倾向于使用 GPU，但我们发现应用领域和英特尔下一代FPGA 架构之间

2017-04-27 14:10:12

FPGA在深度学习应用中或将取代GPU

基础设施，人们仍然没有定论。如果 Mipsology 成功完成了研究实验，许多正受 GPU 折磨的 AI 开发者将从中受益。 GPU 深度学习面临的挑战三维图形是 GPU 拥有如此大的内存和计算能力

2024-03-21 15:19:45

Mali GPU支持tensorflow或者caffe等深度学习模型吗

Mali GPU 支持tensorflow或者caffe等深度学习模型吗？好像caffe2go和tensorflow lit可以部署到ARM，但不知道是否支持在GPU运行？我希望把训练

2022-09-16 14:13:01

NVIDIA 在首个AI推理基准测试中大放异彩

首个独立AI推理基准测试 ——MLPerf Inference 0.5中取得第一名。由于推理一直是AI市场中最大、同时也是最具竞争力的领域，业内此前一直希望能够有一套客观的推理性能测试指标。在参与

2019-11-08 19:44:51

NVIDIA火热招聘深度学习/高性能计算解决方案架构师

目前NVIDIA在中国热招解决方案架构师, 该岗位致力于协同客户经理将NVIDIA最新的深度学习/高性能计算解决方案与技术带给我们的客户, 帮助客户通过实施NVIDIA技术解决方案来提升整体效率

2017-08-25 17:02:47

Nanopi深度学习之路(1)深度学习框架分析

://www.sohu.com/a/204207587_99960938而我现在要考虑的是跨平台、跨系统性能强，并支持Nanopi2的深度学习算法库。近两年TensorFlow开源后，对于初学深度学习

2018-06-04 22:32:12

TDA4对深度学习的重要性

快速的部署到TI嵌入式平台。 TDA4拥有TI最新一代的深度学习加速模块C7x DSP与MMA矩阵乘法加速器，可以运行TIDL进行卷积等基本计算，从而快速地进行前向推理，得到计算结果。当深度学习遇上

2022-11-03 06:53:11

labview测试tensorflow深度学习SSD模型识别物体

安装labview2019 vision，自带深度学习推理工具，支持tensorflow模型。配置好python下tensorflow环境配置好object_detection API下载SSD模型

2020-08-16 17:21:38

labview调用深度学习tensorflow模型非常简单，附上源码和模型

]`labview调用高性能YOLOV5：http://t.elecfans.com/c1659.html 让你的CPU也可以运行最新深度学习模型labview调用高性能Tensorflow+YOLOV4：http://t.elecfans.com/c1553.html 让你的GPU也可以运行最新深度学习模型

2021-06-03 16:38:25

　　华为云深度学习服务，让企业智能从此不求人

。由于深度学习需要使用海量数据来进行业务训练，因此计算资源需求很大，动则几十上百个GPU，甚至上千GPU等等；同时训练时间也很长，每次训练都是以天、周或甚至月年为单位。但是，开源的分布式训练框架，在保证

2018-08-02 20:44:09

【详解】FPGA：深度学习的未来？

并在运行时加速。4.3. Low power compute clusters低耗能计算节点集群深度学习模型最让人着迷的就是其拓展能力。不管是为了从数据中发现复杂的高层特征，还是为数据中心应用提升性能

2018-08-13 09:33:30

【资料上新】迅为基于3568开发板的NPU开发资料全面升级

开始的，相比传统的CPU和GPU，在深度学习运算能力上有比较大幅度的提升。接下来在RV1109和RV1126上使用了第二代NPU，提升了NPU的利用率。第三代NPU应用在RK3566和RK3568上

2022-06-23 15:05:22

什么是深度学习？使用FPGA进行深度学习的好处？

方便的进行深度学习的应用。然而，深度学习仍然主要使用 GPU 和 CPU 完成。因此，在这里我们将仔细研究使用 FPGA 进行深度学习推理的好处。可构建低功耗、节省空间的系统FPGA 的计算并行度不如

2023-02-17 16:56:59

充分利用Arm NN进行GPU推理

的是要知道它提供的选项来提高推理性能。作为开发人员，您会寻找可以压缩的每一毫秒，尤其是在需要实现实时推理时。让我们看一下Arm NN中可用的优化选项之一，并通过一些实际示例评估它可能产生

2022-04-11 17:33:06

刚开始进行深度学习的同学怎么选择合适的机器配置

怎么为自己的深度学习机器选择合适的GPU配置呢？对于那些一直想进行深度学习研究的同学来说，一直是个比较纠结的问题，既要考虑到使用的场景，又要考虑到价格等各方面因素。如何选择深度学习的组件？这真的很

2018-09-19 13:56:36

吴恩达深度学习相关函数总结(一)

关于吴恩达深度学习总结(一)

2019-07-29 10:35:29

好奇~！谷歌的 Edge TPU 专用 ASIC 旨在将机器学习推理能力引入边缘设备

出色的 ML 推理性能。例如，其能够以良好的功率表现执行 MobileNet v2 等最先进的移动视觉模型，且 fps 可达 100 以上。这意味着你将能够在符合节能与隐私保护要求的前提下，将快速 ML

2019-03-05 21:20:23

如何判断推理何时由GPU或NPU在iMX8MPlus上运行？

当我为 TFLite 模型运行基准测试时，有一个选项 --nnapi=true我如何知道 GPU 和 NPU 何时进行推理？谢谢

2023-03-20 06:10:30

如何提高YOLOv4模型的推理性能？

使用 PyTorch 对具有非方形图像的 YOLOv4 模型进行了训练。将权重转换为 ONNX 文件，然后转换为中间表示（IR）。无法确定如何获得更好的推理性能。

2023-08-15 06:58:00

射频系统的深度学习【回映分享】

本文由回映电子整理分享，欢迎工程老狮们参与学习与评论内容► 射频系统中的深度学习► Deepwave Digital技术► 信号检测和分类示例► GPU的实时DSP基准测试► 总结回映电子是一家

2022-01-05 10:00:58

嵌入式边缘AI应用开发指南

的参考。评估TI处理器模型性能的方式有两种：TDA4VM入门套件评估模块(EVM)或TI Edge AI Cloud，后者是一项免费在线服务，可支持远程访问TDA4VM EVM，以评估深度学习推理性能。借助

2022-11-03 06:53:28

当AI遇上FPGA会产生怎样的反应

是人工智能大跃进的基础，在线下模型训练中Xeon-Phi、GPU等发挥着巨大的作用，而在线上的推理任务中，浪潮FPGA深度学习加速解决方案则能够实现7倍以上的能效比提升。卷积网络之父、Facebook

2021-09-17 17:08:32

求助，为什么将不同的权重应用于模型会影响推理性能？

生成两个 IR文件（相同的 .xml 文件，但不同的 .bin 文件）具有不同重量的类似模型，以不同的 fps （27fps 和 6fps）运行更多样化的权重是否会影响 Myriad X 上的推理性能？

2023-08-15 07:00:25

NVIDIA深度学习平台

为帮助数据科学家和开发人员充分利用深度学习领域中的机遇，NVIDIA为其深度学习软件平台发布了三项重大更新，它们分别是NVIDIA DIGITS 4、CUDA深度神经网络库(cuDNN)5.1和全新的GPU推理引擎(GIE)。　　 NVIDIA深度学习软件平台推三项重大更新

2016-08-06 15:00:26

1806

iPhone7 A10处理器与iPhone6s GPU架构相同仅最高性能有提升

今年iPhone 7搭载了新一代A10 Fusion处理器，四核心设计使得处理性能再次大幅度提升，但在GPU部分显示为A10 GPU，近日有报道透露iPhone 7上这块GPU其实是与iPhone 6s上相同架构，仅在最高性能上有提升。

2016-12-05 15:18:37

5110

一种大规模IP网络多链路拥塞推理算法

基于最小集覆盖理论的拥塞链路推理算法，仅对共享瓶颈链路进行推理，当拥塞路径存在多条链路拥塞时，算法的推理性能急剧下降．针对该问题，提出一种基于贝叶斯最大后验（Bayesian maxlmum

2017-12-27 10:35:00

深度学习之GPU硬件选型

本文谈了谈gpu的一些重要的硬件组成，就深度学习而言，我觉得对内存的需求还是比较大的，core多也并不是能够全部用上，但现在开源的库实在完整，想做卷积运算有cudnn，想做卷积神经网络caffe

2018-01-06 12:01:09

3485

贝叶斯IP网络拥塞链路推理

针对CLINK算法在路由改变时拥塞链路推理性能下降的问题，建立一种变结构离散动态贝叶斯网模型，通过引入马尔可夫性及时齐性假设简化该模型，并基于简化模型提出一种IP网络拥塞链路推理算法（VSDDB

2018-01-16 18:46:26

深度学习方案ASIC、FPGA、GPU比较哪种更有潜力

几乎所有深度学习的研究者都在使用GPU，但是对比深度学习硬鉴方案，ASIC、FPGA、GPU三种究竟哪款更被看好？主要是认清对深度学习硬件平台的要求。

2018-02-02 15:21:40

10202

英特尔FPGA为人工智能(AI)提供推理性能

Azure Machine Learning SDK 相集成以供预览。客户可以使用 Azure 大规模部署的英特尔 FPGA（现场可编程逻辑门阵列）技术，为其模型提供行业领先的人工智能 (AI) 推理性能。 “作为一家整体技术提供商，我们通过与 Microsoft 密切合作为人工智能提供支持。

2018-05-20 00:10:00

2865

Zerotech Dobby AI无人机与DeePhi的深度学习推理技术介绍

Zerotech Dobby AI是一款口袋大小的无人机，它使用深度学习来检测由Xilinx Zynq SoC器件驱动的人体手势。该演示还将展示DeePhi的深度学习推理技术。

2018-11-26 06:21:00

2086

渲云GPU渲染全面升级！Tesla P40上线专享非凡体验

/秒)的推理性能和INT8运算能力,使得一台配备8个Tesla P40的服务器可提供相当于超过140台CPU服务器的性能。

2019-04-10 22:09:46

2155

Xavier的硬件架构特性！Xavier推理性能评测

Xavier主要用于边缘计算的深度神经网络推理，其支持Caffe、Tensorflow、PyTorch等多种深度学习框架导出的模型。为进一步提高计算效率，还可以使用TensorRT对训练好的模型利用

2019-04-17 16:55:40

17860

赋能AI测试 Testin云测与英特尔合作将OCR模型推理效率提升6倍

OCR 深度学习方案使用的都是 GPU，通过其强大的并行计算能力来提升文本推理能力。

2019-11-22 09:43:00

730

GPU和GPP相比谁才是深度学习的未来

相比GPU和GPP，FPGA在满足深度学习的硬件需求上提供了具有吸引力的替代方案。凭借流水线并行计算的能力和高效的能耗，FPGA将在一般的深度学习应用中展现GPU和GPP所没有的独特优势。

2019-10-18 15:48:14

1326

基于深度学习的ADAS系统，是GPU的主力市场

事实上，今天在汽车行业，GPU的用例几乎涵盖了从ADAS到自动驾驶，从仪表到中控信息娱乐等等多个车载系统。而在实际大规模量产落地领域，基于深度学习的ADAS系统，是GPU的主力市场。

2020-08-22 09:48:51

2003

DeepCube宣布推出唯一基于软件的推理加速器

DeepCube专注于深度学习技术的研发，这些技术可改善AI系统的实际部署。该公司的众多专利创新包括更快，更准确地训练深度学习模型的方法，以及在智能边缘设备上大大提高的推理性能的方法。

2020-09-10 14:40:37

1878

利用NVIDIA模型分析仪最大限度地提高深度学习的推理性能

你已经建立了你的深度学习推理模型并将它们部署到 NVIDIA Triton Inference Serve 最大化模型性能。你如何进一步加快你的模型的运行速度？进入 NVIDIA模型分析器

2020-10-21 19:01:03

406

NVIDIA A100 GPU推理性能237倍碾压CPU

）的12个提交者增加了近一倍。结果显示，今年5月NVIDIA（Nvidia）发布的安培（Ampere）架构A100 Tensor Core GPU，在云端推理的基准测试性能是最先进Intel CPU

2020-10-23 17:40:02

3929

英伟达 A100 GPU 全面上市，推理性能比 CPU 快 237 倍

。GPU 封装尺寸为 826mm2，集成了 540 亿个晶体管。英伟达表示，全新的 P4d 实例，为机器学习训练和高性能计算应用提供 AWS 上性能与成本效益最高的 GPU 平台。与默认的 FP32 精度相比，全新实例

2020-11-04 15:34:55

2907

燧原科技发布首款人工智能推理产品云燧i10，将于明年第一季度上市

算力达到17．6TFLOPS，BF16／FP16算力70．4TFLOPS。同时，燧原科技发布了推理引擎“鉴算TopsInference”，可以为深度学习应用提供低延迟、高吞吐率的推理性能，并降低

2020-12-22 09:48:01

4732

浪潮AI服务器NF5488A5的实测数据分享，单机最大推理路数提升88%

近日，在GTC China元脑生态技术论坛上，中科极限元、趋动科技、睿沿科技等元脑生态伙伴分享了多个场景下浪潮AI服务器NF5488A5的实测数据，结果表明浪潮NF5488A5大幅提升了智能语音、图像识别等AI模型的训练和推理性能，促进了产业AI解决方案的开发与应用。

2020-12-24 15:25:01

2121

燧原科技发布首款人工智能推理产品云燧®i10 将于明年第一季度上市

/FP16算力70.4TFLOPS。同时，燧原科技发布了推理引擎“鉴算TopsInference”，可以为深度学习应用提供低延迟、高吞吐率的推理性能，并降低数据中心的部署成本。云燧i10将于明年第一季度上市。责任编辑：xj 原文标题：燧原科技发布首款人工智能推理产品——“云燧®i10” 文章出处：【微信公

2020-12-28 11:24:54

3126

NVIDIA预训练模型和迁移学习工具包3.0助力快速实现生产级AI

一个支持边缘实时推理的姿态估计模型，其推理性能比OpenPose模型快9倍。

2021-06-25 11:55:52

1449

阿里云震旦异构计算加速平台基于NVIDIA Tensor Core GPU

。并基于8张NVIDIA A100 GPU和开放规则，以离线场景下每秒处理107.8万张图片的成绩，打破MLPerf 1.0推理性能测试纪录。阿里云自研震旦异构计算加速平台，适配GPU、ASIC等多种异构

2021-08-13 10:17:29

3119

NVIDIA GPU助力提升模型训练和推理性价比

，其中的模型数量达数千个，日均调用服务达到千亿级别。无量推荐系统，在模型训练和推理都能够进行海量Embedding和DNN模型的GPU计算，是目前业界领先的体系结构设计。传统推荐系统面临挑战传统推荐系统具有以下特点：训练是基于参数

2021-08-23 17:09:03

4485

深度学习工程之道|MegEngine推理性能优化技术综述，CPU上极限加速

MegEngine「训练推理一体化」的独特范式，通过静态图优化保证模型精度与训练时一致，无缝导入推理侧，再借助工业验证的高效卷积优化技术...

2022-02-07 10:59:49

GPU服务器处理性能和用例的说明

能力。一、GPU服务器处理性能和用例： 1、GPU 用例虽然投资 GPU 服务器的原因过于广泛，无法在一篇文章中涵盖，但我们已经概述了我们在过去几年中看到的最喜欢的用例。 2、3D处理 GPU 服务器非常适合 2D 和 3D 计算以及渲染 3D 图形和 GPU 技术，以至于

2022-02-22 16:44:04

1433

NVIDIA发布最新Orin芯片提升边缘AI标杆

在首次参加行业 MLPerf 基准测试时，基于 NVIDIA Ampere 架构的低功耗系统级芯片 NVIDIA Orin 就创造了新的AI推理性能纪录，并在边缘提升每个加速器的性能。

2022-04-08 10:14:44

4199

NVIDIA推理平台和全栈方法提供最佳性能

现在，您和开发人员社区的其他成员都可以使用这些成果，主要是以开源软件的形式。此外， TensorRT 和 Triton 推理服务器可从 NVIDIA NGC 免费获得，以及预训练模型、深度学习框架

2022-04-08 16:31:31

931

NVIDIA Jetson TX2 将深度学习推理提升至两倍

Jetson TX2 无与伦比的嵌入式计算能力将尖端 DNN 和下一代人工智能带到板上边缘设备上。 Jetson TX2 提供服务器级的高能效性能。它的原始深度学习性能比 Intel Xeon 高出

2022-04-18 15:28:57

3279

使用Apache Spark和NVIDIA GPU加速深度学习

　　随着人们对深度学习（ deep learning ， DL ）兴趣的日益浓厚，越来越多的用户在生产环境中使用 DL 。由于 DL 需要强大的计算能力，开发人员正在利用 gpu 来完成他们的训练和推理工作。

2022-04-27 09:54:47

1873

全面总结深度学习中的归一化技术

不同规模的输入导致不同的权重更新和优化器的步骤向最小值的方向不均衡。这也使损失函数的形状不成比例。在这种情况下，就需要使用较低的学习速率来避免过冲，这就意味着较慢的学习过程。

2022-04-28 15:29:55

1436

如何在OpenVINO 开发套件中“无缝”部署PaddlePaddle BERT模型

OpenVINO 开发套件是Intel平台原生的深度学习推理框架，自2018年推出以来，Intel已经帮助数十万开发者大幅提升了AI推理性能，并将其应用从边缘计算扩展到企业和客户端。

2022-06-24 11:05:30

1153

何时使用机器学习或深度学习

　　部署到嵌入式 GPU 也很受欢迎，因为它可以在部署的环境中提供快速的推理速度。GPU Coder 支持从 MATLAB 中的深度学习模型生成代码，该模型利用来自 Intel、NVIDIA

2022-07-08 15:23:34

1303

MLPerf是边缘AI推理的新行业基准

　　最新的 AI 推理基准显然具有重要意义，因为它是目前可用的最接近真实世界 AI 推理性能的衡量标准。但随着它的成熟和吸引更多的提交，它也将成为成功部署技术堆栈的晴雨表和新实施的试验场。

2022-07-08 15:37:55

1246

英特尔四大层面，提升DeepRec训练和推理能力

DeepRec 集成了英特尔开源的跨平台深度学习性能加速库oneDNN (oneAPI Deep Neural Network Library)，该程序库已经针对大量主流算子实现了性能优化。与搭载 BF16 指令的第三代英特尔至强可扩展处理器同时使用，可显著提高模型训练和推理性能。

2022-07-10 10:56:19

864

用于深度学习推理的高性能工具包

　　综上所述，这个新版本的 OpenVINO 工具包提供了许多好处，不仅优化了用户部署应用程序的体验，还增强了性能参数。它使用户能够开发具有易于部署、更多深度学习模型、更多设备可移植性和更高推理性能且代码更改更少的应用程序。

2022-07-12 10:08:57

864

腾讯云TI平台利用NVIDIA Triton推理服务器构造不同AI应用场景需求

腾讯云 TI 平台 TI-ONE 利用 NVIDIA Triton 推理服务器构造高性能推理服务部署平台，使用户能够非常便捷地部署包括 TNN 模型在内的多种深度学习框架下获得的 AI 模型，并且显著提升推理服务的吞吐、提升 GPU 利用率。

2022-09-05 15:33:01

1417

机器学习如何满足DNN推理的要求

那时GPU在推理这块的性能也还是超过CPU的，但TPU的出现改变了这个格局。与当时英特尔的Haswell CPU相比，TPUv1的能耗比有了80倍的提升，相较当时的英伟达Tesla K80 GPU，其能耗比也高达它的30倍。

2022-09-14 09:55:34

658

在Azure机器学习上提高人工智能模型推理性能

每个 AI 应用程序都需要强大的推理引擎。无论您是部署图像识别服务、智能虚拟助理还是欺诈检测应用程序，可靠的推理服务器都能提供快速、准确和可扩展的预测，具有低延迟（对单个查询的响应时间较短）和高吞吐量（在给定时间间隔内处理大量查询）。然而，检查所有这些方框可能很难实现，而且成本高昂。

2022-10-11 09:49:22

788

使用GPUNet在NVIDIA GPU上击败SOTA推理性能

高效的体系结构搜索和部署就绪模型是 NAS 设计方法的关键目标。这意味着几乎不与领域专家进行交互，并且有效地使用集群节点来培训潜在的架构候选。最重要的是，生成的模型已准备好部署。

2022-10-11 10:14:43

676

NVIDIA Triton推理服务器的基本特性及应用案例

推理识别是人工智能最重要的落地应用，其他与深度学习相关的数据收集、标注、模型训练等工作，都是为了得到更好的最终推理性能与效果。

2022-10-26 09:43:57

1368

基于AdderNet的深度学习推理加速器

电子发烧友网站提供《基于AdderNet的深度学习推理加速器.zip》资料免费下载

2022-10-31 11:12:28

MLPerf世界纪录技术分享：优化卷积合并算法提升Resnet50推理性能

MLPerf是一套衡量机器学习系统性能的权威标准，将在标准目标下训练或推理机器学习模型的时间，作为一套系统性能的测量标准。MLPerf推理任务包括图像识别（ResNet50）、医学影像分割

2022-11-10 14:43:40

1197

采用阿里云倚天实例g8y对深度学习推理性能进行测试和比较

，尤其是深度学习的推理，将会成为优化的重点。在此因素影响下，阿里云平头哥团队推出了全球首个5nm 制程的 ARM Server 芯片倚天710。该芯片基于 ARM Neoverse N2 架构，支持最新的 ARMv9 指令集，其中包括 i8mm，bf16等扩展指令集，能在科学/AI计算领域获得性能优势。

2022-11-25 10:33:31

1096

大规模推理时代深度学习加速的天花板在哪？

人工智能迎来第三次浪潮后，以深度学习为代表的AI已经进入应用阶段。而深度学习 AI 需要进行大量矩阵乘法以训练神经网络模型，并利用推理将这些模型应用于实际任务。

2022-12-15 10:51:11

516

GPU 引领的深度学习

GPU 引领的深度学习

2023-01-04 11:17:16

477

英特尔® AMX 加速AI推理性能，助阿里电商推荐系统成功应对峰值负载压力

达沃斯论坛｜英特尔王锐：AI驱动工业元宇宙，释放数实融合无穷潜力英特尔研究院发布全新AI扩散模型，可根据文本提示生成360度全景图英特尔内部代工模式的最新进展原文标题：英特尔® AMX 加速AI推理性能，助阿里电商推荐系统成功应对峰值负载

2023-07-08 14:15:03

294

深度学习如何挑选GPU？

NVIDIA的标准库使在CUDA中建立第一个深度学习库变得非常容易。早期的优势加上NVIDIA强大的社区支持意味着如果使用NVIDIA GPU，则在出现问题时可以轻松得到支持。

2023-07-12 11:49:28

399

英特尔® AMX 助力百度ERNIE-Tiny AI推理性能提升2.66倍，尽释AI加速潜能

科技赋能千行百业人民网携手英特尔启动“数智加速度”计划 WAIC 2023：英特尔以技术之力推动边缘人工智能发展，打造数字化未来“芯”时代英特尔 AMX 加速AI推理性能，助阿里电商推荐系统成功应对峰值负载压力原文标题：英特尔® AMX 助力百度ERNIE-T

2023-07-14 20:10:05

245

深度学习框架区分训练还是推理吗

深度学习框架区分训练还是推理吗深度学习框架是一个非常重要的技术，它们能够加速深度学习的开发与部署过程。在深度学习中，我们通常需要进行两个关键的任务，即训练和推理。训练是指使用训练数据训练神经网络

2023-08-17 16:03:11

905

GPU的张量核心：深度学习的秘密武器

。深度学习中的大规模矩阵和张量运算是计算密集型的，正是GPU的张量核心赋予了GPU这一计算工具在深度学习中的强大性能。张量核心简介张量核心是GPU（图形处理单元）中的

2023-09-26 08:29:54

456

Nvidia 通过开源库提升 LLM 推理性能

加利福尼亚州圣克拉拉——Nvidia通过一个名为TensorRT LLM的新开源软件库，将其H100、A100和L4 GPU的大型语言模型(LLM)推理性能提高了一倍。正如对相同硬件一轮又一轮改进

2023-10-23 16:10:19

284

Google的第五代TPU，推理性能提升2.5倍

　Gridspace 机器学习主管Wonkyum Lee表示：“我们的速度基准测试表明，在 Google Cloud TPU v5e 上训练和运行时，AI 模型的速度提高了 5 倍。我们还看到推理

2023-11-24 10:27:30

205

用上这个工具包，大模型推理性能加速达40倍

作者：英特尔公司沈海豪、罗屿、孟恒宇、董波、林俊编者按：只需不到9行代码，就能在CPU上实现出色的LLM推理性能。英特尔 Extension for Transformer 创新

2023-12-01 20:40:03

550

GPU在深度学习中的应用与优势

人工智能的飞速发展，深度学习作为其重要分支，正在推动着诸多领域的创新。在这个过程中，GPU扮演着不可或缺的角色。就像超级英雄电影中的主角一样，GPU在深度学习中拥有举足轻重的地位。那么，GPU在深度

2023-12-06 08:27:37

606

英特尔发布第五代至强可扩展处理器：性能和能效大幅提升，AI 加速

此外，至强可扩展处理器被誉为行业首屈一指的内置AI加速器数据中心处理器，全新第五代产品更能优化参数量高达200亿的大型语言模型，使其推理性能提升42％。眼下，它还是唯一历次刷新MLPerf训练及推理基准测试表现记录并持续进步的CPU。

2023-12-15 11:02:55

436

Torch TensorRT是一个优化PyTorch模型推理性能的工具

那么，什么是Torch TensorRT呢？Torch是我们大家聚在一起的原因，它是一个端到端的机器学习框架。而TensorRT则是NVIDIA的高性能深度学习推理软件工具包。Torch TensorRT就是这两者的结合。

2024-01-09 16:41:51

286

瑞萨电子宣布推出一款面向高性能机器人应用的新产品—RZ/V2H

具有10TOPS/W能效的新一代AI加速器无需冷却风扇即可提供高达80TOPS的AI推理性能

2024-03-01 10:41:38

423

已全部加载完成

搜索历史

总结深度学习，GPU推理性能提升的三大因素

评论