0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英特尔最新GPU Gaudi2架构相关信息介绍

要长高 来源:半导体产业纵横 作者:半导体产业纵横 2022-05-12 15:26 次阅读

英伟达并不是唯一一家创建专业计算单元的公司,这些计算单元擅长矩阵数学和张量处理,这些计算单元支持AI训练,并且可以重新用于运行AI推理。英特尔已经收购了两家这样的公司—Nervana Systems,并紧随其后的是Habana Labs,后者已被英特尔产品化,并紧随英伟达的GPU加速器之后。

英特尔是一家优秀的公司,该公司认为将在未来五年内获得500亿美元的人工智能计算机会(用于训练和推理),从现在到2027年,英特尔将以25%的复合年增长率增长,达到这一水平。鉴于“Ponte Vecchio”Xe HPC GPU加速器即将推出的相当大的矩阵和矢量数学,以及即将到来的“Sapphire Rapids”Xeon SP CPU中AMX矩阵数学单元中很可能有足够的推理容量,因此有理由想知道英特尔预计会销售多少Gaudi训练和Goya推理芯片

我们了解到,当英特尔在2016年8月以3.5亿美元与Nervana Systems达成交易并在2019年12月以20亿美元收购Habana Labs时,它追求的是知识产权和人,当然,因为这就是这场IT战争的玩法,但我们一直想知道这些设备,以及来自竞争对手GraphCore的设计, Cerebras,SambaNova Systems和Groq将部署在类似于主流的东西中。上述四家公司迄今为止共筹集了28.7亿美元。

所有这些产品都刚刚开始滚动,这就是为什么英特尔将其赌注对冲到Nervana和Habana,就像它对数据中心FPGA感到恐惧一样(主要归功于Microsoft Azure),并在2015年6月斥资167亿美元收购了Altera。在2015年至2020年器件,在数据中心计算方面英特尔的Xeon CPU占据主导地位,并且通过收购方式,减少了一些竞争对手。

在本周举行的Intel Vision 2022大会上,Gaudi2 AI训练芯片是芯片制造商推出的大型新计算引擎,顺便说一句,它不是英特尔实际制造的芯片,而是像其前身Gaudi1一样,由竞争对手台积电代工蚀刻而成。英特尔尚未透露对Gaudi2架构的深入研究,但这是我们所知道的。

通过Gaudi2,英特尔正在转向台积电的7纳米工艺,随着这种收缩,它能够将芯片上的TPC数量从10个增加到24个,并增加了对新的8位FP8数据格式的支持,英伟达还将其添加到其“Hopper”GH100 GPU计算引擎中,该引擎于3月份推出,并在第三季度发货。使用FP8格式,现在可以以相同的格式获得低分辨率推理数据和高分辨率训练数据,并且在从训练移动到推理时不必在浮点和整数之间转换模型。这对AI来说是一个真正的福音,尽管较低精度的整数格式可能会在未来许多年内保留在矩阵和矢量计算引擎中,以支持遗留代码和其他类型的应用程序。Gaudi2芯片具有48 MB的SRAM,如果它与TPC数量线性扩展,将能达到2.4倍而不是2倍的SRAM,或57.6 MB。

Gaudi2芯片上有HBM2e内存组,可提供2.45 TB /秒的带宽,比Gaudi1芯片增加了2.45倍。HBM2e内存库的数量没有透露,但六个16 GB HBM2e的存储体为Gaudi2提供了诀窍,而Gaudi 1的四个存储体为8 GB HBM2。仅两个 HBM2e 内存控制器的增加就可将带宽提高 1.33 倍,而带宽的剩余增加来自提高内存速度。

Gaudi1芯片有十个100Gb/秒以太网端口,支持RoCE直接内存访问协议,事实证明,每个TPC一个,但我们当时并不知道,因为只显示了八个。但是Gaudi2有24个以太网端口以100 Gb / sec的速度运行,每个TPC一个。它的功率为650瓦。我们假设此设备插入PCI-Express 5.0插槽,但英特尔尚未确认这一点。

假设没有重大的架构变化,并且该过程产生的时钟速度从16纳米缩小到7纳米,我们预计Gaudi2芯片的性能将是Gaudi2的2.5倍。(还假设在任何给定应用程序中处理的精度水平相同。)但英特尔实际上并没有说是否有任何架构变化(除了它增加了一些媒体处理功能)以及时钟速度是如何变化的,所以我们必须推断出来。

我们通过查看ResNet-50机器视觉训练操作的图表来做到这一点,该图表使Gaudi1和Gaudi2与过去两代英伟达GPU加速器竞争:

poYBAGJ8tZyAXOkSAAHREWHl00k459.png

与Nervana Systems一样,Habana Labs非常认真地致力于创建一套芯片,为AI工作负载提供最佳收益和最佳性能。哈瓦那戈雅HL-1000推理芯片于2019年初宣布,Gaudi1 AI训练芯片(也称为HL-2000)于当年夏天晚些时候首次亮相。Gaudi1架构有一个通用矩阵乘法(GEMM)前端,后端由十个张量处理器内核或TPC组成,芯片只向用户公开其中的八个,以帮助提高封装的良率。

Gaudi1使用了第二代TPC,而Goya HL-1000 AI推理芯片则使用了不那么强大和不那么复杂的原始TPC设计。Gadui1芯片中的TPC可以使用C编程语言直接寻址,并具有张量寻址以及BF16和FP32浮点以及INT8,INT16和INT32整数格式的支持。TPC指令集具有加速Sigmoid,GeLU,Tanh和其他特殊功能的电路。Gaudi 1采用台积电的16纳米工艺,具有24 MB片上SRAM,四组HBM2存储器,容量为32 GB,带宽为1 TB/秒。Gaudi1插入PCI-Express 4.0 x16插槽,消耗了350瓦的果汁,并将几乎所有的果汁转换为热量,就像芯片一样。

英特尔尚未透露对Gaudi2架构的深入研究。

根据ResNet-50的比较,Gaudi2的性能是Gaudi1的3.2倍,但很难估计有多少性能是由于整个芯片的容量增加。这个特定的测试正在运行TensorFlow框架来执行图像识别训练,显示的数据是每秒处理的图像数量。

有一件事没有显示,而且很重要,那就是Gaudi2加速器将如何与Hopper GPU堆叠,但英伟达尚未透露任何特定测试的性能结果。但是,由于 H100 中的 HBM3 内存运行速度比 A100 加速器中使用的 HBM2e 内存快 1.5 倍,而FP16、TF32 和 FP64 在新的 Tensor Core 上提供的性能是 3 倍,因此可以合理地预期 H100 的性能将是 ResNet-50 视觉训练工作负载的 1.5 倍到 3 倍。因此,H100将在ResNet-50测试中每秒提供4,395至8,790张图像的性能。我们的猜测是,它将比前者更接近后者,并且比英特尔通过Gaudi2可以提供的更大幅度更大。

与使用BERT模型的自然语言处理相比,图像识别和视频处理相对容易。以下是Gaudi2与英伟达V100和A100的对比,请注意Gaudi1丢失了:

poYBAGJ8taiAPNPHAAHxA4oiaTc243.png

BERT 模型也在TensorFlow 框架上运行,此数据显示了两个不同训练阶段中每秒吞吐量的序列数。在一次预审中,哈瓦那实验室部门首席商务官Eitan Medina表示,Gaudi2的性能不到A100的2倍。但是,H100拥有自己的FP8格式及其Transformer Engine,可以动态地改变AI训练工作流程不同部分的数据精度和处理,可以做得更好。我们不知道具体到什么,但我们强烈怀疑英伟达至少可以缩小与Gaudi2的差距,并且很可能超越它。

有趣的是,英特尔在亚马逊网络服务上启动了DL1Gaudi1实例,然后分别基于A100和V100 GPU的p4d和p3实例,并进行了一些价格/性能分析,以计算ResNet-50基准测试中认可的每张图像的成本。请看一下:

poYBAGJ8tcCAFKhGAAK_5Whik6E208.png

这张图表的意思是,Gaudi1的性能略好于V100,使用上图中ResNet-50中英特尔的性能数据为27.3% ,并且价格提高了约60%,这意味着DL1实例的成本比使用V100的p3实例低得多。随着迁移到基于A100的p4d实例,该实例具有40GB的HBM2e内存,英伟达设备在ResNet-50上的吞吐量比Gaudi1高出58.6%,但Gaudi1处理的每个图像的成本降低了46%。这意味着A100实例确实要贵得多。如果我们对Hopper GPU加速器定价的猜测是正确的,并且英伟达收取大约2倍的费用,大约3倍的性能,英特尔将不得不保持出售给AWS的Gaudi2芯片的价格,因为AWS仍然可以显示出比运行AI训练的H100实例更好的性价比。

无论如何,英特尔在其实验室中运行了超过1000个Gaudi2,因此它可以调整SynapseAI软件堆栈,其中包括在Habana的图形编译器,内核库和通信库上运行的PyTorch和TensorFlow框架。Gaudi2芯片现在正在发货。

除了Gaudi2芯片外,英特尔还在预览其Greco后续Goya推理引擎,该引擎也在台积电跃升至7纳米至16纳米工艺。

Greco 推理卡具有 16GB 的 LPDDR5 主内存,可提供 204 GB/秒的内存带宽,而使用先前的 Goya 推理引擎的 DDR4 内存块为 40 GB/秒。哈瓦那架构的Greco变体支持INT4,BF16和FP16格式,功耗为75瓦,大大低于2019年初宣布的HL-1000设备的200瓦。如上图所示,它被压缩成一个更紧凑的半高,半长的PCI-Express卡。目前还没有关于这个的性能或定价的消息。

综合:半导体产业纵横编辑部

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英特尔
    +关注

    关注

    60

    文章

    9898

    浏览量

    171547
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4703

    浏览量

    128722
  • 图像识别
    +关注

    关注

    9

    文章

    519

    浏览量

    38240
  • Gaudi2
    +关注

    关注

    0

    文章

    13

    浏览量

    99
收藏 人收藏

    评论

    相关推荐

    英特尔12月或发布Battlemage GPU芯片

    近日,有关英特尔即将在12月发布全新Battlemage GPU芯片的传闻再次被证实。据硬件挖掘者和泄密者Tomasz Gawrońsk分享的预告图显示,英特尔极有可能在AMD RDNA 4和英伟达Blackwell之前,率先推
    的头像 发表于 11-19 17:37 329次阅读

    英特尔将携手AMD共同捍卫x86生态

    Advisory Group)由英特尔和AMD共同创立,其目标在于推动x86架构的未来发展,简化软件开发流程,保障互操作性和接口的一致性,并为开发者提供标准化的架构工具、指令集以及对未来的明确规划。
    的头像 发表于 10-16 13:49 424次阅读

    Inflection AI转向英特尔Gaudi 3,放弃英伟达GPU

    近日,人工智能技术公司Inflection AI宣布了一项重要决策,其最新的企业平台将放弃采用英伟达(Nvidia)的GPU,转而选择英特尔Gaudi 3加速器。
    的头像 发表于 10-10 17:21 441次阅读

    英特尔发布Gaudi3 AI加速器,押注低成本优势挑战市场

    英特尔近期震撼发布了专为AI工作负载设计的Gaudi3加速器,这款新芯片虽在速度上不及英伟达热门型号H100与H200 GPU,但英特尔巧妙地将竞争优势聚焦于其更为亲民的价格与总拥有成
    的头像 发表于 09-26 16:16 773次阅读

    IBM Cloud将部署英特尔Gaudi 3 AI芯片

    近日,科技巨头IBM与英特尔宣布了一项重大合作计划,双方将共同在IBM Cloud平台上部署英特尔最新的Gaudi 3 AI芯片,预计该服务将于2025年初正式上线。此次合作标志着两家公司在推动AI技术创新与应用方面迈出了坚实的
    的头像 发表于 09-03 15:52 357次阅读

    英特尔发布AI创作应用AI Playground,将于今夏正式上线!

    的AI PC入门应用程序AI Playground,让广大用户在本地即可快速实现AI个性化创作。 英特尔Xe2 GPU架构,带来50%的性能提升
    的头像 发表于 06-14 09:44 430次阅读
    <b class='flag-5'>英特尔</b>发布AI创作应用AI Playground,将于今夏正式上线!

    英特尔确认Ponte Vecchio GPU将以云服务形式推出

    英特尔在公告中强调,随着AI技术需求的不断增加,公司重点利用Gaudi AI加速器的性能优势及有竞争力的价格,实现其迅速拓展。同时,至强系列CPU依然是HPC解决方案的首选,而数据中心GPU Max亦可在
    的头像 发表于 05-18 17:14 1027次阅读

    英特尔逐步停止Ponte Vecchio GPU生产,专注于Gaudi 2/3产品

    这款GPU英特尔在2022年正式宣布推出的,它拥有超过1000亿个晶体管,旨在推动公司进入更广泛的AI和高性能计算领域。
    的头像 发表于 05-15 10:20 401次阅读

    网友成功在Arm架构平台运行英特尔锐炫A750显卡

    值得注意的是,英特尔独立显卡源于核心显卡,因此在长期使用的“i915”Linux系统内核驱动中,积累了许多与x86架构紧密相关的特性。
    的头像 发表于 05-13 15:54 588次阅读

    英特尔Falcon Shores GPU预计2025年末问世,满足AI产业需求

    英特尔首席执行官帕特·基辛格表示,Falcon Shores将融合全可编程架构Gaudi 3加速器的卓越系统性能,让用户能在两代硬件之间实现顺畅无缝的升级。
    的头像 发表于 05-06 14:45 489次阅读

    英特尔拟推出中国市场“特供版芯片”Gaudi 3

    英特尔计划在中国市场推出“特供版”Gaudi 3 AI芯片,这一决策主要是基于美国对于AI芯片的出口管制政策。
    的头像 发表于 04-16 14:48 534次阅读

    英特尔的最强AI芯片要来了,声称性能完胜英伟达H100

    美国东部时间4月9日凌晨,英特尔发布了其最新的人工智能芯片Gaudi3,预计将在第三季度大范围上市。 在当天举办的Intel Vision 2024大会上,英特尔CEO帕特·基辛格(Pat
    的头像 发表于 04-11 23:36 425次阅读

    英特尔进军AI芯片市场:推出Gaudi 3 AI加速卡与Xeon 6处理器

    Gaudi 3作为英特尔在AI领域的最新力作,旨在与英伟达等市场领导者展开竞争。据英特尔透露,这款芯片在能效和AI模型运行速度方面均表现出色,相比英伟达的芯片具有显著优势。
    的头像 发表于 04-10 15:37 764次阅读

    英特尔Gaudi2C处理器或为Gaudi2的简化版,Gaudi3预计2024年面世

    对于Gaudi2C和Gaudi2之间的差别,有推测认为它可能是“部分”改动后的产品,针对中国市场专门定制。Tomshardware则猜测可能是Gaudi2的简化版。
    的头像 发表于 12-20 13:44 1092次阅读

    英特尔Gaudi 3系列AI加速器明年上市

    英特尔总裁帕特·基辛格(Pat Gelsinger)认为,鉴于英特尔Gaudi3具备的持续加强的性能优势和极具竞争性的TCO及定价机制,预测该产品有望在2024年凭借领先的AI加速器套件占据更大的市场份额。
    的头像 发表于 12-15 11:07 775次阅读