0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AMD与Nvidia的人工智能芯片之战

SSDFans 来源:hpcwire 2024-01-16 11:02 次阅读

AMD和Nvidia陷入了一场人工智能性能之战——就像两家公司几十年来在游戏GPU性能上的竞争一样。

AMD声称其新的Instinct MI300X GPU是世界上最快的人工智能芯片,击败了Nvidia炙手可热的H100和即将推出的H200 GPU。AMDCEO Lisa Su最近在一个人工智能活动上发表演讲时表示:“这是世界上性能最高的生成式人工智能加速器。”

这标志着MI300X的正式推出,它是MI300A的一个更强大的版本,将用于Lawrence Livermore国家实验室建造的代号为El Capitan的200亿次超级计算机。

MI300X基于CDNA3架构,可为FP16和BFLoat16等关键AI数据类型提供三倍以上的性能。该芯片有1530亿个晶体管,采用3D封装;内部使用了5纳米和6纳米工艺制造的芯片模块。该芯片拥有304个GPU计算单元,192GB HBM3内存,5.3 TB/s内存带宽。

MI300X的峰值FP32性能为163.4 teraflops,峰值FP64性能为81.7 teraflops。上一代MI250X的峰值单精度(FP32)矢量和双精度(FP64)矢量性能为47.9 teraflops。AMD还将其芯片与H100的SXM版本进行了比较,Nvidia H100 SXM可提供68 teraflops的峰值FP32性能和34 teraflops的FP64性能。H100 NVL模型在性能上缩小了差距,可提供134teraflops的FP32性能和68teraflops的FP64性能。

Nvidia即将推出的H200是H100的内存升级版本,但内存和带宽仍然比MI300X少。H200的GPU内存为141GB,带宽为4.8TB/s。

“对于MI300X,我们增加了更大的灵活性、更大的内存容量和更大的带宽。这意味着它的内存容量是竞争对手的2.4倍,内存带宽是1.6倍。”Su将MI300X与Nvidia的H100 SXM型号进行了比较,后者具有80GB的HBM内存和3.35TB/s的内存带宽。two-pieceH100 NVL型号的HBM3内存为188GB,但内存带宽为7.8TB/s,超过了MI300X。

AMD能保持这个头衔多久还有待观察。Nvidia正计划对其芯片进行年度升级,新的B100 GPU将于2024年推出,X100 GPU将于2025年推出。

AMD在短短一年的时间里取得了长足的进步。一年前,当ChatGPT出现时,AMD措手不及。聊天机器人推动Nvidia成长为一家价值数万亿美元的公司,A100和H100 GPU成为最热门的科技资产。

GPT-4背后的Nvidia硬件凭借一己之力推动了人工智能的采用,并且仍然是无可争议的人工智能冠军。但Nvidia的硬件短缺促使客户寻找替代品,并为AMD提供了一个展示其最新GPU和系统的机会,成为一个可行的替代品。除了Nvidia,AMD在市场上也有很多机会。

Su表示:“我们现在预计,数据中心加速器TAM在未来四年中将以每年超过70%的速度增长,到2027年将超过4000亿美元。”

MI300X芯片有1530亿个晶体管,有12个5纳米和6纳米芯片。“它使用了世界上最先进的封装。”MI300X在基础层有四个IO芯片。每个IO芯片都有256兆字节的 Infinity Cache 和下一代IO,如128通道HBM3接口,支持PCIe Gen5,以及连接多个MI300X的第四代Infinity Fabric。该芯片在IO芯片上堆叠了8个CDNA3加速器小芯片。304个计算单元通过密集的TSV连接。支持高达每秒17TB的带宽。该芯片连接了8层HBM3,总共有192GB的内存和5.3 TB/s的带宽。

云供应商微软、甲骨文和Meta已经在他们的云基础设施中部署了MI300X GPU,尽管这些公司的人工智能能力主要还是来自Nvidia的芯片。提供人工智能替代方案的云供应商是很普遍的,如亚马逊提供了各种选择,包括其新发布的Trainium2芯片和英特尔的Gaudi处理器。其意图也很明确:让客户有更多的选择,不必屈服于NvidiaH100芯片的天价。

微软CEO Kevin Scott在AMD活动台上表示:“现在看到GPT-4在MI300X上的应用,看到Llama的表现,并让它投入生产,令人非常兴奋。”甲骨文云也将MI300X放入其云服务中。它还与Naveen Rao等早期采用者合作,后者的人工智能服务公司MosaicML最近被Databricks以13亿美元收购。

据HPCwire报道,一家新的云服务公司TensorWave将在2024年推出一种新的可扩展和适应性强的GPU架构。基于GigaIO FabreX可组合PCIe技术,TensorNODE系统将支持多达5,760个Instinct MI300X GPU,并为所有GPU提供单个FabreX内存结构域。

AMD紧随Nvidia的脚步,也宣布了自己的服务器架构,展示了一个兼容开放计算项目的服务器设计,其中包含8个MI300X GPU,这些GPU通过Infinity Fabric相互连接。该板可以放入任何兼容OCP的开放蓝图中,客户可以在其上构建服务器。

“我们这么做是经过深思熟虑的。我们想让客户尽可能容易地采用它,这样你就可以把主板拿出来,放入MI300X Instinct平台。”这样的系统建造起来会更便宜,让客户可以灵活地以最优惠的价格购买硬件。与Nvidia相比,这是一种截然不同的方法,Nvidia的HGX系统基于专有架构,成本很高。

AMD让MI300X兼容OCP的计划已经取得了成效,Meta快速部署了带有该GPU的服务器。Meta高级工程总监Ajit Mathews表示:“MI300X利用了OCP模块、标准和平台,这有助于我们极短的时间内采用它。事实上,MI300X是Meta历史上最快的部署解决方案之一。”

AMD对硬件的关注破坏了该公司的人工智能软件战略,该战略落后于提供CUDA开发框架的Nvidia。CUDA的支持帮助推动了NvidiaGPU的广泛采用。

该公司即将发布下一代ROCm 6,并声称具有新的功能和性能优势。开发者George Hotz曾批评AMD缺乏软件支持、文档以及对GPU开发者的支持回应。AMD总裁彭于平表示,与上一代版本相比,ROCm 6的MI300X性能提高了8倍。

对于具有700亿个参数的大型语言模型,ROCm6比MI300X快8倍,比MI250快8倍。ROCm 6框架将支持新的数据类型,包括FP16,这将提高性能并开放内存资源和带宽。该框架还将进行许多低层次优化,以获得更好的AI性能。

审核编辑:黄飞

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • amd
    amd
    +关注

    关注

    25

    文章

    5468

    浏览量

    134144
  • NVIDIA
    +关注

    关注

    14

    文章

    4985

    浏览量

    103037
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4737

    浏览量

    128939
  • 人工智能
    +关注

    关注

    1791

    文章

    47270

    浏览量

    238444
  • ChatGPT
    +关注

    关注

    29

    文章

    1560

    浏览量

    7641

原文标题:AMD MI300X GPU能否击败Nvidia H200?

文章出处:【微信号:SSDFans,微信公众号:SSDFans】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    苹果或与博通携手研发人工智能芯片

    据消息人士透露,苹果公司正在与博通公司携手研发一款人工智能芯片,并计划于2026年启动生产。苹果的高级机器学习和人工智能总监Benoit Dupin最近表示,该公司正在考虑使用亚马逊最新的人工
    的头像 发表于 12-12 14:01 173次阅读

    嵌入式和人工智能究竟是什么关系?

    嵌入式和人工智能究竟是什么关系? 嵌入式系统是一种特殊的系统,它通常被嵌入到其他设备或机器中,以实现特定功能。嵌入式系统具有非常强的适应性和灵活性,能够根据用户需求进行定制化设计。它广泛应用于各种
    发表于 11-14 16:39

    Untether发布人工智能(AI)芯片

    初创企业Untether发布了一款专为汽车、农业装备及极端环境AI应用设计的人工智能(AI)芯片。   相较于英伟达和AMD的旗舰AI芯片,它们主要服务于需要数千乃至数万个
    的头像 发表于 10-29 13:59 336次阅读

    《AI for Science:人工智能驱动科学创新》第6章人AI与能源科学读后感

    幸得一好书,特此来分享。感谢平台,感谢作者。受益匪浅。 在阅读《AI for Science:人工智能驱动科学创新》的第6章后,我深刻感受到人工智能在能源科学领域中的巨大潜力和广泛应用。这一章详细
    发表于 10-14 09:27

    《AI for Science:人工智能驱动科学创新》第一章人工智能驱动的科学创新学习心得

    周末收到一本新书,非常高兴,也非常感谢平台提供阅读机会。 这是一本挺好的书,包装精美,内容详实,干活满满。 《AI for Science:人工智能驱动科学创新》这本书的第一章,作为整个著作的开篇
    发表于 10-14 09:12

    risc-v在人工智能图像处理应用前景分析

    长时间运行或电池供电的设备尤为重要。 高性能 : 尽管RISC-V架构以低功耗著称,但其高性能也不容忽视。通过优化指令集和处理器设计,RISC-V可以在处理复杂的人工智能图像处理任务时表现出色。 三
    发表于 09-28 11:00

    人工智能ai4s试读申请

    目前人工智能在绘画对话等大模型领域应用广阔,ai4s也是方兴未艾。但是如何有效利用ai4s工具助力科研是个需要研究的课题,本书对ai4s基本原理和原则,方法进行描诉,有利于总结经验,拟按照要求准备相关体会材料。看能否有助于入门和提高ss
    发表于 09-09 15:36

    名单公布!【书籍评测活动NO.44】AI for Science:人工智能驱动科学创新

    芯片设计的自动化水平、优化半导体制造和封测的工艺和水平、寻找新一代半导体材料等方面提供帮助。 第6章介绍了人工智能在化石能源科学研究、可再生能源科学研究、能源转型三个方面的落地应用。 第7章从环境监测
    发表于 09-09 13:54

    报名开启!深圳(国际)通用人工智能大会将启幕,国内外大咖齐聚话AI

    8月28日至30日,2024深圳(国际)通用人工智能大会暨深圳(国际)通用人工智能产业博览会将在深圳国际会展中心(宝安)举办。大会以“魅力AI·无限未来”为主题,致力于打造全球通用人工智能领域集产品
    发表于 08-22 15:00

    FPGA在人工智能中的应用有哪些?

    FPGA(现场可编程门阵列)在人工智能领域的应用非常广泛,主要体现在以下几个方面: 一、深度学习加速 训练和推理过程加速:FPGA可以用来加速深度学习的训练和推理过程。由于其高并行性和低延迟特性
    发表于 07-29 17:05

    Python中的人工智能框架与实例

    人工智能(AI)领域,Python因其简洁的语法、丰富的库和强大的社区支持,成为了最受欢迎的编程语言之一。本文将详细介绍Python中的人工智能框架,并通过具体实例展示如何使用这些框架来实现不同的人工智能应用。
    的头像 发表于 07-15 14:54 1736次阅读

    5G智能物联网课程之Aidlux下人工智能开发(SC171开发套件V2)

    人工智能 工业检测:芯片模组外观检测实训part1 11分40秒 https://t.elecfans.com/v/25609.html *附件:芯片模组外观检测实训.pdf 人工智能
    发表于 05-10 16:46

    5G智能物联网课程之Aidlux下人工智能开发(SC171开发套件V1)

    https://t.elecfans.com/v/27186.html *附件:引体向上测试案例_20240126.pdf 人工智能 工业检测:芯片模组外观检测实训part1 11分40秒 https
    发表于 04-01 10:40

    嵌入式人工智能的就业方向有哪些?

    嵌入式人工智能的就业方向有哪些? 在新一轮科技革命与产业变革的时代背景下,嵌入式人工智能成为国家新型基础建设与传统产业升级的核心驱动力。同时在此背景驱动下,众多名企也纷纷在嵌入式人工智能领域布局
    发表于 02-26 10:17

    AMD上调人工智能芯片销售预期至35亿美元以上

    AMD发布了最新的财报,调高了人工智能芯片业务的业绩预期。根据预测,AMD预计2024年的销售额将增长75%,达到超过35亿美元。
    的头像 发表于 01-31 15:40 644次阅读