AI训练势起，GPU要让位了？-电子发烧友网

电子发烧友网报道（文/周凯扬）人工智能在进化的过程中，最不可或缺的便是模型和算力。训练出来的通用大模型省去了重复的开发工作，目前不少大模型都为学术研究和AI开发提供了方便，比如华为的盘古、搜狗的BERTSG、北京智源人工智能研究院的悟道2.0等等。

那么训练出这样一个大模型需要怎样的硬件前提？如何以较低的成本完成自己模型训练工作？这些都是不少AI初创企业需要考虑的问题，那么如今市面上有哪些训练芯片是经得起考验的呢？我们先从国外的几款产品开始看起。

英伟达A100

英伟达的A100可以说是目前AI训练界的明星产品，A100刚面世之际可以说是世界上最快的深度学习 GPU。尽管近来有无数的GPU或其他AI加速器试图在性能上撼动它的地位，但综合实力来看，A100依然稳坐头把交椅。

A100 GPU / 英伟达A100可是英伟达特推出的首个7nm GPU，在826mm2的芯片大小上铺满了542亿个晶体管。要知道，其消费级GPU虽然同样采用安培架构，但仍在使用三星的8nm制程。至于算力什么的，GPU在单个或多个处理器配置上都有着不俗的优势，甚至还能凭借英伟达自己的互联技术实现更高的带宽。具体的算力数据我们也已提过多次，我们这次讲的是AI训练，自然是要比训练上的表现，这里先留个悬念。性能虽高，但使用A100的成本可并不便宜。今年10月，微软和英伟达推出了迄今为止训练最强大的生成语言模型Megatron-Turing Natural Language Generation（MT-NLG），拥有5300亿个参数。如此强大的模型究竟是如何训练出来的呢？答案是560个英伟达DGX A100服务器，每个服务器都内置了8 x A100 80GB GPU，训练出这个模型的造价最低也要在百万美元以上。如此看来，难不成这些模型只能靠购置昂贵的GPU，或是靠花钱如流水一般的GPU服务器来训练了？并非如此。

英特尔Gaudi和Ponte Vecchio

19年12月，英特尔收购了以色列的Habana Labs，将其旗下的AI加速器产品线纳入囊中。Habana Labs目前推出了用于推理的Goya处理器和用于训练的Gaudi处理器。尽管Habana Labs已经隶属英特尔，但现有的产品仍然基于台积电的16nm制程，传言称其正在开发的Gaudi2将用上台积电的7nm制程。目前Gaudi已经用于亚马逊云服务AWS的EC2 DL1训练实例中，该实例选用了AWS定制的英特尔第二代Xeon可扩展处理器，最多可配置8个Gaudi处理器，每个处理器配有32GB的HBM内存，400Gbps的网络架构加上100Gbps的互联带宽，并支持4TB的NVMe存储。

Gaudi与A100在ResNet-50和BERT训练成本上的对比 / Habana Labs Habana Labs和AWS共同宣称，Gaudi的方案可以提供云端深度学习模型训练的最佳性价比，与最新的GPU实例相比性价比高出40%。Habana Labs给出了直接的价格对比，在对比AWS EC2 P4d实例（8个英伟达A100 GPU）时，8个Gaudi处理器的每小时价格为13.11美元，比前者低了60%。针对特定的模型，Habana Labs也对A100和V100方案进行了对比，比如利用Tensorflow实现ResNet50图像处理（BF16/FP16）时，Gaudi处理每张图片的成本要比A100低46%，更是比V100低了61%。 Habana Labs为Gaudi定义的用例主要在物体识别/分割、图像分类和自然语言处理器方面的深度学习模型训练。比如生产中的故障检测、医疗中的2D/3D扫描和医学成像、自动驾驶中的物体分割以及文本情感分析等等。我们都知道在超算领域中，英特尔在主要处理器上的份额与出场率都比较高，加速器上则依旧是英伟达和AMD的GPU占优，不过Habana Labs的Gaudi其实已经开始发力，比如圣地亚哥超级计算中心（SDSC）打造的AI超算Voyager。这里的Voyager可不是TOP500新晋第十名的Voyager-EUS2，而是SDSC打造的一款试验性超算，专注于高性能高效率的AI运算，该超算集成了336个Gaudi训练处理器和16个Goya推理处理器。

A100与Ponte Vecchio在ResNet-50 v1.5上的训练表现对比 / 英特尔不过英特尔似乎也不打算放弃GPU这条路，甚至打算走的更远一点。今年的架构日上，英特尔为其Ponte Vecchio Xe HPC GPU透露了更多的细节。英特尔拿出了ResNet-50单个GPU处理图像的训练结果对比，Ponte Vecchio获得了超过3400张图片每秒的成绩，而英伟达单张A100 GPU的成绩为2963张图片每秒。根据Habana Labs于19年六月公布的数据，单个Gaudi处理器的成绩为1650张图片每秒。单从结果来看，英特尔和英伟达两者打造的旗舰GPU在模型训练上还是很有优势的，而且还能承担推理工作负载，Gaudi的性能确实更适合高性价比的专用训练场景。依小编的观点来看，Ponte Vecchio更像是英特尔为HPC+AI准备的一张GPU，明年开始出货后我们说不定会在超算上看到更多应用。而Gaudi更像是为云服务和数据中心准备的训练处理器，让开发者在可负担的价格下享受到优秀的性能。更不用说英特尔也开始为FPGA（Stratix 10 NX）在相同的方向上铺路，英特尔可以说是为AI开发者提供了多个选择。

亚马逊Trainium

最后我们以亚马逊的训练芯片收尾，亚马逊提供的服务器实例可以说是最多样化的，也包含了以上提到的A100和Gaudi。亚马逊作为云服务巨头，早已开始部署自己的服务器芯片生态，不仅在今年推出了第三代Graviton服务器处理器，也正式发布了去年公开的训练芯片Trainium，并推出了基于该芯片的Trn1实例。

Trn1实例的参数 / 亚马逊 Trn1的计算引擎频率达到了3GHz，峰值内存带宽为13.1TB/s，FP32的算力为840TFLOPS，最出色的数据还是800Gbps的网络带宽，亚马逊甚至还提供了一个1.6TB。再次重申，这些都只是纸面参数而已，实际表现才是最重要的。

亚马逊训练实例对比 / 亚马逊据亚马逊发布的数据，同样是在两周内完成GPT-3模型的训练，需要600个8 x V100 GPU的实例，或是128个8xA100 GPU的实例，但若用上16 x Trainium的实例，则只要96个。亚马逊称Trn1为云端成本效率最高的实例，这一点还真没说错。

小结

GPU一时半会不会跌落AI训练的神坛，但其他训练芯片的推陈出新证明了他们面对A100和Ponte Vecchio这种大规模芯片同样不惧，甚至还有自己独到的优势。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

gpu

gpu

+关注

关注
28

文章
4828

浏览量
129728
AI

AI

+关注

关注
87

文章
32329

浏览量
271430

GPU是如何训练AI大模型的

在AI模型的训练过程中，大量的计算工作集中在矩阵乘法、向量加法和激活函数等运算上。这些运算正是GPU所擅长的。接下来，AI部落小编带您了解GPU

发表于 12-19 17:54 •348次阅读

训练AI大模型需要什么样的gpu

训练AI大模型需要选择具有强大计算能力、足够显存、高效带宽、良好散热和能效比以及良好兼容性和扩展性的GPU。在选择时，需要根据具体需求进行权衡和选择。

发表于 12-03 10:10 •298次阅读

PyTorch GPU 加速训练模型方法

在深度学习领域，GPU加速训练模型已经成为提高训练效率和缩短训练时间的重要手段。PyTorch作为一个流行的深度学习框架，提供了丰富的工具和

发表于 11-05 17:43 •752次阅读

GPU服务器AI网络架构设计

众所周知，在大型模型训练中，通常采用每台服务器配备多个GPU的集群架构。在上一篇文章《高性能GPU服务器AI网络架构（上篇）》中，我们对GPU

发表于 11-05 16:20 •723次阅读

为什么ai模型训练要用gpu

GPU凭借其强大的并行处理能力和高效的内存系统，已成为AI模型训练不可或缺的重要工具。

发表于 10-24 09:39 •542次阅读

AI大模型的训练数据来源分析

AI大模型的训练数据来源广泛且多元化，这些数据源对于构建和优化AI模型至关重要。以下是对AI大模型训练数据来源的分析：一、公开数据集公开

发表于 10-23 15:32 •2188次阅读

GPU服务器在AI训练中的优势具体体现在哪些方面？

GPU服务器在AI训练中的优势主要体现在以下几个方面： 1、并行处理能力：GPU服务器拥有大量的并行处理核心，这使得它们能够同时处理成千上万个计算任务，极大地加速

发表于 09-11 13:24 •653次阅读

苹果承认使用谷歌芯片来训练AI

苹果公司最近在一篇技术论文中披露，其先进的人工智能系统Apple Intelligence背后的两个关键AI模型，是在谷歌设计的云端芯片上完成预训练的。这一消息标志着在尖端AI训练领域

发表于 07-30 17:03 •809次阅读

AI训练的基本步骤

AI（人工智能）训练是一个复杂且系统的过程，它涵盖了从数据收集到模型部署的多个关键步骤。以下是对AI训练过程的详细阐述，包括每个步骤的具体内容，并附有相关代码示例（以Python和sc

发表于 07-17 16:57 •3783次阅读

AI初出企业Cerebras已申请IPO！称发布的AI芯片比GPU更适合大模型训练

美国加州，专注于研发比GPU更适用于训练AI模型的晶圆级芯片，为复杂的AI应用构建计算机系统，并与阿布扎比科技集团G42等机构合作构建超级计算机。基于其最新旗舰芯片构建的服务器可轻松高

发表于 06-26 00:09 •3068次阅读

摩尔线程与师者AI携手完成70亿参数教育AI大模型训练测试

近日，国内知名的GPU制造商摩尔线程与全学科教育AI大模型“师者AI”联合宣布，双方已成功完成了一项重要的大模型训练测试。此次测试依托摩尔线程夸娥（KUAE）千卡智算集群，充分展现

发表于 06-14 16:31 •695次阅读

AI训练，为什么需要GPU？

随着由ChatGPT引发的人工智能热潮，GPU成为了AI大模型训练平台的基石，甚至是决定性的算力底座。为什么GPU能力压CPU，成为炙手可热的主角呢？要回答这个问题，首先需要了解当前人

发表于 04-24 08:05 •1075次阅读

科技驱动未来，提升AI算力，GPU扩展正当时

GPU可以大幅缩短AI算法的训练和推断时间，从而节省时间和成本

发表于 04-16 18:22 •1045次阅读

国产GPU在AI大模型领域的应用案例一览

不断推出新品，产品也逐渐在各个领域取得应用，而且在大模型的训练和推理方面，也有所建树。国产GPU在大模型上的应用进展电子发烧友此前就统计过目前国内主要的GPU厂商，也介绍了

发表于 04-01 09:28 •4426次阅读

FPGA在深度学习应用中或将取代GPU

对神经网络进行任何更改，也不需要学习任何新工具。不过你可以保留你的 GPU 用于训练。” Zebra 提供了将深度学习代码转换为 FPGA 硬件指令的抽象层 AI 硬件前景

发表于 03-21 15:19