英伟达并不是唯一一家创建专业计算单元的公司,这些计算单元擅长矩阵数学和张量处理,这些计算单元支持AI训练,并且可以重新用于运行AI推理。英特尔已经收购了两家这样的公司—Nervana Systems,并紧随其后的是Habana Labs,后者已被英特尔产品化,并紧随英伟达的GPU加速器之后。
英特尔是一家优秀的公司,该公司认为将在未来五年内获得500亿美元的人工智能计算机会(用于训练和推理),从现在到2027年,英特尔将以25%的复合年增长率增长,达到这一水平。鉴于“Ponte Vecchio”Xe HPC GPU加速器即将推出的相当大的矩阵和矢量数学,以及即将到来的“Sapphire Rapids”Xeon SP CPU中AMX矩阵数学单元中很可能有足够的推理容量,因此有理由想知道英特尔预计会销售多少Gaudi训练和Goya推理芯片。
我们了解到,当英特尔在2016年8月以3.5亿美元与Nervana Systems达成交易并在2019年12月以20亿美元收购Habana Labs时,它追求的是知识产权和人,当然,因为这就是这场IT战争的玩法,但我们一直想知道这些设备,以及来自竞争对手GraphCore的设计, Cerebras,SambaNova Systems和Groq将部署在类似于主流的东西中。上述四家公司迄今为止共筹集了28.7亿美元。
所有这些产品都刚刚开始滚动,这就是为什么英特尔将其赌注对冲到Nervana和Habana,就像它对数据中心的FPGA感到恐惧一样(主要归功于Microsoft Azure),并在2015年6月斥资167亿美元收购了Altera。在2015年至2020年器件,在数据中心计算方面英特尔的Xeon CPU占据主导地位,并且通过收购方式,减少了一些竞争对手。
在本周举行的Intel Vision 2022大会上,Gaudi2 AI训练芯片是芯片制造商推出的大型新计算引擎,顺便说一句,它不是英特尔实际制造的芯片,而是像其前身Gaudi1一样,由竞争对手台积电代工蚀刻而成。英特尔尚未透露对Gaudi2架构的深入研究,但这是我们所知道的。
通过Gaudi2,英特尔正在转向台积电的7纳米工艺,随着这种收缩,它能够将芯片上的TPC数量从10个增加到24个,并增加了对新的8位FP8数据格式的支持,英伟达还将其添加到其“Hopper”GH100 GPU计算引擎中,该引擎于3月份推出,并在第三季度发货。使用FP8格式,现在可以以相同的格式获得低分辨率推理数据和高分辨率训练数据,并且在从训练移动到推理时不必在浮点和整数之间转换模型。这对AI来说是一个真正的福音,尽管较低精度的整数格式可能会在未来许多年内保留在矩阵和矢量计算引擎中,以支持遗留代码和其他类型的应用程序。Gaudi2芯片具有48 MB的SRAM,如果它与TPC数量线性扩展,将能达到2.4倍而不是2倍的SRAM,或57.6 MB。
Gaudi2芯片上有HBM2e内存组,可提供2.45 TB /秒的带宽,比Gaudi1芯片增加了2.45倍。HBM2e内存库的数量没有透露,但六个16 GB HBM2e的存储体为Gaudi2提供了诀窍,而Gaudi 1的四个存储体为8 GB HBM2。仅两个 HBM2e 内存控制器的增加就可将带宽提高 1.33 倍,而带宽的剩余增加来自提高内存速度。
Gaudi1芯片有十个100Gb/秒以太网端口,支持RoCE直接内存访问协议,事实证明,每个TPC一个,但我们当时并不知道,因为只显示了八个。但是Gaudi2有24个以太网端口以100 Gb / sec的速度运行,每个TPC一个。它的功率为650瓦。我们假设此设备插入PCI-Express 5.0插槽,但英特尔尚未确认这一点。
假设没有重大的架构变化,并且该过程产生的时钟速度从16纳米缩小到7纳米,我们预计Gaudi2芯片的性能将是Gaudi2的2.5倍。(还假设在任何给定应用程序中处理的精度水平相同。)但英特尔实际上并没有说是否有任何架构变化(除了它增加了一些媒体处理功能)以及时钟速度是如何变化的,所以我们必须推断出来。
我们通过查看ResNet-50机器视觉训练操作的图表来做到这一点,该图表使Gaudi1和Gaudi2与过去两代英伟达GPU加速器竞争:
与Nervana Systems一样,Habana Labs非常认真地致力于创建一套芯片,为AI工作负载提供最佳收益和最佳性能。哈瓦那戈雅HL-1000推理芯片于2019年初宣布,Gaudi1 AI训练芯片(也称为HL-2000)于当年夏天晚些时候首次亮相。Gaudi1架构有一个通用矩阵乘法(GEMM)前端,后端由十个张量处理器内核或TPC组成,芯片只向用户公开其中的八个,以帮助提高封装的良率。
Gaudi1使用了第二代TPC,而Goya HL-1000 AI推理芯片则使用了不那么强大和不那么复杂的原始TPC设计。Gadui1芯片中的TPC可以使用C编程语言直接寻址,并具有张量寻址以及BF16和FP32浮点以及INT8,INT16和INT32整数格式的支持。TPC指令集具有加速Sigmoid,GeLU,Tanh和其他特殊功能的电路。Gaudi 1采用台积电的16纳米工艺,具有24 MB片上SRAM,四组HBM2存储器,容量为32 GB,带宽为1 TB/秒。Gaudi1插入PCI-Express 4.0 x16插槽,消耗了350瓦的果汁,并将几乎所有的果汁转换为热量,就像芯片一样。
英特尔尚未透露对Gaudi2架构的深入研究。
根据ResNet-50的比较,Gaudi2的性能是Gaudi1的3.2倍,但很难估计有多少性能是由于整个芯片的容量增加。这个特定的测试正在运行TensorFlow框架来执行图像识别训练,显示的数据是每秒处理的图像数量。
有一件事没有显示,而且很重要,那就是Gaudi2加速器将如何与Hopper GPU堆叠,但英伟达尚未透露任何特定测试的性能结果。但是,由于 H100 中的 HBM3 内存运行速度比 A100 加速器中使用的 HBM2e 内存快 1.5 倍,而FP16、TF32 和 FP64 在新的 Tensor Core 上提供的性能是 3 倍,因此可以合理地预期 H100 的性能将是 ResNet-50 视觉训练工作负载的 1.5 倍到 3 倍。因此,H100将在ResNet-50测试中每秒提供4,395至8,790张图像的性能。我们的猜测是,它将比前者更接近后者,并且比英特尔通过Gaudi2可以提供的更大幅度更大。
与使用BERT模型的自然语言处理相比,图像识别和视频处理相对容易。以下是Gaudi2与英伟达V100和A100的对比,请注意Gaudi1丢失了:
BERT 模型也在TensorFlow 框架上运行,此数据显示了两个不同训练阶段中每秒吞吐量的序列数。在一次预审中,哈瓦那实验室部门首席商务官Eitan Medina表示,Gaudi2的性能不到A100的2倍。但是,H100拥有自己的FP8格式及其Transformer Engine,可以动态地改变AI训练工作流程不同部分的数据精度和处理,可以做得更好。我们不知道具体到什么,但我们强烈怀疑英伟达至少可以缩小与Gaudi2的差距,并且很可能超越它。
有趣的是,英特尔在亚马逊网络服务上启动了DL1Gaudi1实例,然后分别基于A100和V100 GPU的p4d和p3实例,并进行了一些价格/性能分析,以计算ResNet-50基准测试中认可的每张图像的成本。请看一下:
这张图表的意思是,Gaudi1的性能略好于V100,使用上图中ResNet-50中英特尔的性能数据为27.3% ,并且价格提高了约60%,这意味着DL1实例的成本比使用V100的p3实例低得多。随着迁移到基于A100的p4d实例,该实例具有40GB的HBM2e内存,英伟达设备在ResNet-50上的吞吐量比Gaudi1高出58.6%,但Gaudi1处理的每个图像的成本降低了46%。这意味着A100实例确实要贵得多。如果我们对Hopper GPU加速器定价的猜测是正确的,并且英伟达收取大约2倍的费用,大约3倍的性能,英特尔将不得不保持出售给AWS的Gaudi2芯片的价格,因为AWS仍然可以显示出比运行AI训练的H100实例更好的性价比。
无论如何,英特尔在其实验室中运行了超过1000个Gaudi2,因此它可以调整SynapseAI软件堆栈,其中包括在Habana的图形编译器,内核库和通信库上运行的PyTorch和TensorFlow框架。Gaudi2芯片现在正在发货。
除了Gaudi2芯片外,英特尔还在预览其Greco后续Goya推理引擎,该引擎也在台积电跃升至7纳米至16纳米工艺。
Greco 推理卡具有 16GB 的 LPDDR5 主内存,可提供 204 GB/秒的内存带宽,而使用先前的 Goya 推理引擎的 DDR4 内存块为 40 GB/秒。哈瓦那架构的Greco变体支持INT4,BF16和FP16格式,功耗为75瓦,大大低于2019年初宣布的HL-1000设备的200瓦。如上图所示,它被压缩成一个更紧凑的半高,半长的PCI-Express卡。目前还没有关于这个的性能或定价的消息。
综合:半导体产业纵横编辑部
-
英特尔
+关注
关注
60文章
9898浏览量
171547 -
gpu
+关注
关注
28文章
4703浏览量
128722 -
图像识别
+关注
关注
9文章
519浏览量
38240 -
Gaudi2
+关注
关注
0文章
13浏览量
99
发布评论请先 登录
相关推荐
评论