0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

国内外AI芯片、算力、大模型综合对比(2023)

架构师技术联盟 来源:架构师技术联盟 2023-09-28 16:01 次阅读

大模型对算力的需求主要体现在训练端:在考虑互联损失的情况下,Chatgpt需要一万张A100作为算力基础,算力的硬件投资规模达到10亿人民币。

国内大模型与国外的主要差距是算力层面,没有算力基础,后面算法等发展都无法进行大模型应用场景会率先爆发于:工具链层面,如ChatGPT和Office产品结合,提高交互和工作效率;语音交互层面,如智能音箱智能座舱和 智能家居等。

国内AI芯片厂商格局:一梯队,有成熟产品、批量出货的企业,包括寒武纪、华为海思、百度昆仑芯、燧原科技等;二梯队,以AI芯片起家的壁 仞科技、天数智心、摩尔线程、沐曦等;三梯队,如海光、景嘉微等。

国内AI芯片与A100的差距:已经批量生产的产品,大多都是A100的上一代;各公司正在研发的相关产品,如昆仑芯三代、思远590、燧思3.0 等,都是对标A100,但由于“实体清单”的限制以及研发水平的原因,都还没有推到市场

寒武纪思元590与英伟达的差距:寒武纪主要还是ASIC架构,劣势是通用性会比较差,优势是某些特定应用场景下,算力可以做到比GPU更 高;百度内部的测试结果,590性能接近A100 90%的性能;590基本支持主流的模型,综合性能接近A100 80%的水平

英伟达A800和H800的出货量预期:训练芯片,国内将有近200亿RMB的采购规模;推理芯片,预计采购金额达100亿RMB;国内对英伟达总 的采购需求约为300亿RMB。

关于AI大模型及ChatGPT业内权威,全网最全材料,请参考下载链接:400+份重磅ChatGPT/AI大模型专业报告。

Q:大模型在算力端带来了哪些新的需求?

算力需求主要分为两部分,包括训练算力和推理算力。

目前来说对训练算力需求非常高,ChatGPT的公开数据显示它的整个训练算力消耗非常 大,达到了3640PF-days(即假如每秒计算一千万亿次,需要计算3640天),换算成英伟达A100芯片,它单卡算力相当于0.6P的算力,理想情况 下总共需要大概6000张,在考虑互联损失的情况下,需要一万张A100作为算力基础。

在A100芯片10万人民币/张的情况下,算力的硬件投资规 模达到10亿人民币。而整个的数据中心还需要推理算力以及服务器等,规模应该在100亿人民币以上。

Q:大模型对计算的需求和以往有什么差别?

具体包括在算力,互联等方面以往大多都是数据中心,超算中心以及各大互联网公司的云计算中心会有相关的算力基础设施需求。

训练端:训练算力相关设备主要是英伟达的A100和H100,推理算力主要是英伟达T4卡。ChatGPT的发布使得算力需求增加了,以前算力的商业 应用并没有特别多,主要是推理端像图像识别、语音识别等。大模型的爆发会导致训练的应用场景越来越多,对训练算力的需求会大幅增长,增长 幅度能达到10倍甚至100倍。

推理端:也会有相应的增长,但幅度不会这么大。

Q:做好一个大模型的最低门槛就是1万块A100的芯片,这个说法准确吗?

如果对标的模型是ChatGPT,那是需要这样的硬件需求的。但百度文心一言没有达到这个芯片规模,训练算力没有达到ChatGPT的水平,尤其是在上下文互动和逻辑上有较大缺陷。

主要问题是文心一言的训练精度不够,这是因为它算力本身的限制。

国内目前大模型主要是算力层面和国外差距比较大,这也是制约国内大模型发展的客观因素,没有算力基础,后面算法等发展都无法进行。

Q:互联网大厂囤芯片以防断供的具体情况?

2022年美国限制英伟达和AMD向国内出售高性能计算芯片,国内互联网大厂意识到风险,去找英伟达购买。但因为从下单到拿货的周期较长,国内互联网厂商的优先级较低,国内互联网大厂买到的A100以及H100芯片数量是比较有限的。

Q:中国特供版A800和H800与A100和H100的具体差距?

主要差距是互联带宽的下降。A800的互联带宽从A100的600GB/S下降到400GB/S,H800的互联带宽从H100的900GB/S下降到450GB/S。本身单卡的算力不变,但是集群后,卡间互联的带宽会限制整个集群的算力规模。

Q:国内目前GPU芯片能不能支撑大模型的需求?

国内目前的相关产品都和A100有所差距。

一部分是已经批量生产的产品,大多都是A100的上一代,比如寒武纪的思元290、百度的昆仑芯二代、燧原科技的燧思2.0的算力水平都落后于 A100一代。

还有各公司正在研发的相关产品,比如昆仑芯三代、思远590、燧思3.0等,这些产品都是对标A100,但由于“实体清单”的限制以及研发水平的 原因,这些产品都还没有推到市场。华为的昇腾910芯片,也是受限于公司被制裁,没有大规模的出货以及销售,可能在政府的计算中心有所使用,但对商用客户端帮助有限。

Q:哪些芯片相关企业会受益于大模型的浪潮?

首先是算力芯片,包括英伟达的A100和H100,以及寒武纪、昆仑芯、燧原、华为海思、海光、沐曦以及摩尔线程。如果国内的产品能去替代英 伟达的产品,会是一个非常大的机会。

经历制裁后,国内的大型互联网企业在采购相关芯片时,目前还是会购买英伟达,但应该也会有相关的国产化替代方案。从生产层面看,还需要高带宽内存颗粒,目前国内的合肥长鑫和长江存储都还做不了,主要是国外的三星、美光和海力士三家企业。产业链上,会带动先进封装相关公司,未来国内芯片厂商会在国内的封装厂做先进封装。除了算力芯片,数据中心建设也需要CPU服务器,会带动国内提供大型服务器的厂商,比如浪潮信息、中科曙光等,以及光模块、调节芯片和散热技术,都会有相关需求。

Q:计算芯片中除了GPU芯片,FPGA芯片、专用芯片ASIC发挥什么作用?

高性能计算芯片不止GPU这个处理架构,比如像寒武纪的ASIC和GPU是同样的应用场景,只是技术架构不一样。比如百度的昆仑芯一代,是XPU-K(自研)的架构。因此算力芯片,不光只有GPU,也包含ASIC、FPGA芯片。

Q:在美国制裁的背景下,国内厂商怎么去替代英伟达的A100,通过什么途径?

目前尤其是在制程工艺的限制,美国2022年10月份的政策限制是互联带宽超过600G,算力超过600T的产品不能使用台积电的先进代工工艺。国内的产品不能超过A100的规格,否则不能使用7nm或者5nm的生产工艺。目前国内有7nm产品的只有中芯国际,从成熟度和产品产能上都和台积电有差距。但即使有差距,国内的公司也会陆续通过中芯国际的生产工艺 去生产相关的芯片。虽然目前工艺限制在7nm,但我们可以通过chiplet等先进的封装工艺将多个7nm芯片高速互联,实现算力的提升。

Q:目前已经在实体清单的芯片公司的情况?

目前华为、寒武纪、海光已在“实体清单”里面,这些公司如果要生产的话,要不就得找中芯国际;要不就得通过类似代理形式或其他渠道找台积电 生产。但后一种方法要面临台积电的审查,但台积电目前整个产线的产能利用率很低,只有约50%,应该不会像之前管的那么严,如果提交的合规报告 或材料符合台积电的要求,比如600+600的审核要求,终端应用场景也不涉及如军工等敏感领域的话,台积电也是能够通过代理方式给这些公司生产的。

我估计目前海光、寒武纪可能都是通过这种途径去实现生产的;华为因为本身目标太大,如果量不大的话应该可以,量特别大的话容易被发现。

Q:目前英伟达订单量是否有比较大的变化?

变化大概多大?ChatGPT发布后,首先微软方面肯定是加买了A100和H100,尤其是微软现在主要购买方向是向H100升级,主要买的是H100。

国内公司受限于制裁,应该是不能买A100的,A800推出后国内公司应该给了英伟达不少订单。但A800因为还要做一些带宽的限制和更改,所以目前还没有批量出到国内,仍需一定时间,但我预计应该很快就会陆续供给国内。

我认为今年英伟达的数据中心业务应该会有一个比较大的增长。因为这些企业都会有一些战略性的备货,如果按照正常节奏买的话,应该不会买这么多。对于ChatGPT带起的热潮,国内企业可能担心以后会买不到,因此会按2-3倍的量去备货。

Q:如何看待英伟达超级计算服务对AI产业的影响?

我们业内觉得这个东西没有什么特别的地方。

国内真正能够做大模型或者有实力去投资大模型的大型互联网厂商,他们不会去租英伟达的超级计算服务,因为没有人愿意把自己的数据放在别人的数据中心里,从数据安全的角度讲,是一个非常大的风险。尤其是像百度、阿里,他们掌握着国内用户一些比较比较敏感的数据,如搜索、购物习惯等。这个比较类似于滴滴,如果这些公司把这些数据弄到英伟达的服务器上去跑的话,这个风险我认为他们应该承担不了,滴滴被罚已有先例。

所以我认为从国内来讲,英伟达提供的计算服务,国内客户应该没有什么会去用的,可能一些本身不涉及敏感数据的客户可能会去尝试,但能做 ChatGPT或文心一言这种规模的企业很少会用英伟达的租赁服务或超级计算服务。

国外客户可能会受益,因为一些小规模的客户没有能力建ChatGPT规模的算力中心,他们可以通过租赁方式使用英伟达的超算中心作为自己模型 的基础设施设施去实现自己模型的运行。

Q:之前有说法说英伟达超级计算服务可通过阿里云、腾讯云做接口提供给国内企业用户,这是否意味着国内承担不起大算力成本的的中小企业会考虑租用英伟达的超级计算服务?

如果能把数据安全层面的问题解决,至少从数据安全的角度讲,如果国家层面的审核通过,国内也想做大模型的小型企业通过租云服务平台去推动自己的模型。

Q:英伟达的光刻计算技术未来会减少多少对于CPU服务器的需求?

英伟达的主要目的不是想替代,发布时提出的目标是要把台积电4万台做光刻用的CPU全换成英伟达的超级光刻计算机。我认为GPU是取代不了CPU的,因为本身两者的运行是不一样的,光刻领域很多是运算的东西,可能GPU有自己的优势。但CPU本身也有控制、调度、流水线的进程操作,能用这么多年有它自己的应用场景和优势。

GPU其实擅长计算,并不擅长去做控制、调度的事情。英伟达在GPU里做类似于ARM的CPU去替代,但我认为在应用场景等各方面没那么容易。

比如现在企业服务器市场,英特尔和AMD份额稳定,英伟达想要踏足还是有很大的难度,也有一些技术障碍。可能台积电这种特定场景可以替代,但未来想把CPU整个层面上用GPU替代没有那么简单。

Q:目前英伟达和国内供应商的关系如何?

比如做整机的供应商,浪潮集团也被加入限制名单他们不受限制。因为中国政府层面对这些外企目前还没有任何的限制政策,英伟达在国内份额和产业情况应该也带动了不少的先进制造和就业。我认为英伟达跟国内做整机的和架构的供应商,目前都合作都正常,而且英伟达后续应该还有更多订单给到这些供应商。只是做好的高性能计算芯片受限制,不卖给或者降规格卖给国内企业。这些限制主要还是来自于美国政府层面,供应层面应该没有问题。一旦上了实体清单就没办法。因为不管是英伟达还是任何的美国企业都不能跟你做生意。如果他跟你有贸易来往,美国政府就可以对他进行制裁。这个限制范围很大,任何使用美国技术的企业都不能跟你有贸易来往,比如现在不仅英伟达不能跟浪潮之间有贸易来往,甚至像韩国、台湾的企业都受约束。

Q:国内来看,您认为哪些领域大模型会率先爆发应用场景?对算力产业链有什么影响?

目前很多公司宣布接入文心一言,ChatGPT在国内国外的应用场景也都陆续在落地。

1)工具链层面:大模型可以做很多事情,比如ChatGPT和Office产品的结合,以前很多东西需要人去写公式、计算,但是现在ChatGPT接入后 Office会变得非常灵活,通过office做交互、实现的话,工作效率会有一个非常大幅的提高。

2)语音交互层面:智能交互,如智能音箱、智能座舱,未来肯定会有一个大的提升,现在汽车里用的小度等,其实语言理解能力是很差的,想要交互是很难的,而且体验也非常差;大模型接入后,语音交互层面会做得很好,比如我们在汽车智能座舱里发一个指令,他的理解、执行他就会非 常精确。包括我们用的智能音箱、智能家居等,理解、执行也会比较到位。

Q:目前国内AI芯片厂商的格局?

个人看法,以大算力或者高性能计算芯片为代表看的话:

第一梯队:有成熟产品、批量出货的企业,主要包括寒武纪、华为海思、百度昆仑芯、燧原科技,这四家有2-3代更多的产品,技术能力、软件能 力都有一定积累。

第二梯队:包括壁仞科技,它去年发布的产品规格很高,但主要还是停留在纸面数据,实测数据、实际性能方面业界和第三方评测机构评价没有那么高,它本身的性能是不及A100的,而且软件层面也还有很多工作要做,目前它只是做了一个软件的雏形,从使用角度来讲离成熟的生态软件、规模化的出货、客户端的个适配还有很长的路要走,现在它也面临着制裁问题、实体清单问题,对于这样的初创企业是生存层面的问题。像天数智心、摩尔线程、沐曦也都陆续有产品推出,但技术能力不及壁仞,只是停留在推理层面,不像第一梯队的企业有更成熟的产品经验,但这几集也都 至少是以做AI芯片起家的,专注于该领域。

第三梯队:包括海光、景嘉微,他们以前不是做GPU的,现在过来做GPU。景嘉微也是做GPU芯片的,但在商用端没有多少使用,实际产品性能 不是特别清楚。海光是做X86CPU起家的,GPU的技术能力还有待市场的认可和检验。

Q:训练芯片是1万张A100的话,推理芯片需要多少?如果它跟日活访问次数等有相关性的话,中长期来看推理芯片的情况?

虽然说大模型训练的算力需求量非常大,但是产能模型训练好了之后,实际投入到使用中或是在跟终端的互动中,其实也是需要消耗很多的推理算力,尤其是在访问量大的时候。所以其实不管是微软的智能计算中心,还是百度的智能计算中心,我认为都有相当规模的推理算力。

通常数据中心或者超算中心里都会配备推理算力,一般算力的规模或者说数量的规模没有特别少的,尤其是数量。比如我买1万张A100的卡,可能还要配几千张的T4推理卡,当然英伟达现在最新出的L4推理卡也会配在数据中心里,但是目前来看它的规模应该没有训练的算力规模大,但随着访问量或交互量上升,我认为推理算力需求量是不小的。当然推理层面CPU本身也是可以分担一些,尤其是数据中心里用的这种大型企业级 CPU,本身是可以做一些推理的事情,但是毕竟不是专业做运算的,所以我认为肯定还是需要大量的推理卡支持。我认为可能规模比较大或后期访 问量特别大的数据中心,推理卡的数量可能会非常接近训练卡的数量。当然因为推理卡本身的价值、算力没有训练卡大,所以从市值规模看,应该 还是没有训练卡的市场规模大。

Q:寒武纪的思元590跟英伟达相比有哪些差距?

从技术架构或初级架构角度看,寒武纪产品主要还是ASIC架构,ASIC的劣势在于通用性会比较差,优势在于如果某些特定应用场景它把算法固化到硬件里边去,算力是可以做到比GPU更高的。这个特点也决定了它的最终的性能特点,所以我们看到公开信息或一些百度内部的测试结果,寒武纪590在做大模型的训练跑transformer、BERT等大语言模型时,性能非常接近A100,接近90%的性能。但如果跑20-30个主流的模型,我们 会看到可能有些模型如果在算法层面没有做特别的固化优化的话,可能只能达到A100 50-60%的性能。综合来看,基本上主流的模型590都是支持的,综合性也接近A100 80%的水平。

Q:如果美国后续不给ARM的架构授权的话,我们有什么解决方案?

目前不管是国内芯片公司,还是英伟达的AI的云端、推理端架构芯片,内部都用了ARM的CPU去做控制,因为AI芯片的内部,除了ASIC或GPU芯 片的内核以外,一般都会配一个ARM的CPU去做AI芯片、处理器层面或是内部的交互,或者做一些控制层面的事情。所以CPU其实对AI芯片来说也 是一个非常重要的东西。

如果我们后面国内AI芯片企业拿不到ARM的授权,一是已经授权的东西还是可以继续用,比如华为、百度、寒武纪已经拿到了A78的授权,但是没有了后续的支持,无法用最新的ARM的架构;二是目前国内同ARM竞争的RISC-V发展的也挺好,它是一个开源生态,如果后续真的国内芯片企业 用不了ARM的话,对它是一个好机会,在性能层面它其实没有比ARM差多少,主要问题在于生态没有像ARM那么完善,如果有更多的开发者去起 来的话,可能生态会慢慢完善起来。

Q:如何看待ARM打算改变授权费模式,从原本的按照芯片价格1-3%收取费用改为按照整机价格收取费用?

按整机价格收取的话可以多要点钱,我们做芯片设计的跟这些IP公司打交道比较多,他们对我们,尤其是国内芯片企业,不光收费贵,而且审计等非常严格。很多时候一次性授权要收取,后面卖出的单颗芯片还要在收取一定比例的费用,所以其实是非常贵的。

用这种商用IP,尤其是ARM,用这些国外的大型IP厂商其实代价都是非常大,对芯片公司尤其初创企业来说,花费的成本非常高。但我们还没有自研能力去做出来比较好的IP,很多比较简单的接口IP如走字眼的高速接口,华为、寒武纪等都可以自己做,但ARM目前确实是比较难做。如果ARM还要再后面再涨价的话,会有更多的芯片设计公司转向RISC-V,其生态会慢慢发展壮大,挑战ARM生态。

其实ARM一家独大已经这么多年了,我觉得应该有一个像RISC-V这样的竞争对手,不然在国内乃至全球大家都不得不用ARM。这种有点像垄断,像高通之前因收取整个手机的专利授权费用被中国政府罚款后就把收费政策改了,如果ARM这么弄的话,可能我们也会有一些扶持或者制裁措施。所以ARM授权模式的改变不一定能成功,而且如果推行的话有可能刺激RISC-V生态壮大。对于芯片公司的研发者或设计者,转去RISC-V生态也是一个好的解决方案,只是要花一些学习成本。

Q:RISC-V架构的在国内的使用情况?

目前国内RISC-V占有率较低,但增长很快,因此未来会有许多企业去做RISC-V产品。比如,阿里提供基于RISC-V架构的平台及生态服务。寒武纪、华为已经开始使用RISC-V架构。

边缘侧AI芯片大多采用ARM架构,因此在专利授权的模式改变和垄断的情况的发生下,会有更多企业去尝试使用RISC-V处理器架构,从而促进整个生态的增长。叠加国内很多企业上了美国“实体清单”,ARM停止服务,促进了RISC-V等开源架构的应用增长。

Q:海光Z100和英伟达A100的差距?和应用领域?

海光训练产品的算力规模不足以支持做数据中心。海光DCU Z100训练算力较小,不到100TFLOPS,只适合一些推理场景,不足以支持大模型的训练,因此没有能力去替代寒武纪、华为和英伟达的产品。

目前来看海光缺少大算力技术基础。第一,海光的X86授权CPU技术积累,对做GPU没有帮助。第二,海光的AMD授权软件生态也不足以在大算力的超算领域和英伟达的扩大生态竞争。因此,要做大算力产品还有很长的路要走。

从产品层面来讲,海光离传统做AI芯片的企业还是有较大的技术差距。

Q:国内大厂(华为、百度、腾讯等)的大模型和OpenAI大模型的算力区别?

目前国内,已经发布的大模型产品只有百度文心一言,在国内处于AI一哥的地位,占据了先机。但是从试用结果看,和ChatGPT、GPT4的相差还是很大。百度的算力、硬件、算法模型层面都没有做到ChatGPT的水平。

具体从算力层面看:第一,算力基础设施规模小于微软的规模水平,因此训练精度水平较低。第二,尽管从国内的角度看,百度对AI算法的投资最多,研发时间最长,技术能力最强,但做AI大模型的时间还是相对较短,因此还需要后续的优化。

其他几家大型互联网企业在大模型领域应该都有提前布局,但由于在OpenAI做出产品之前,这个领域一直没有商机和盈利,因此大家都没有落地该应用,没有百度重视这个领域。ChatGPT火了之后,很多互联网企业才加速了推动自己的产品。

阿里、头条、360、腾讯等大厂可能陆续会推出产品,但做的也会比较仓促,积累时间不够。

Q:文心一言算力使用的产品?

训练端:主要使用英伟达产品V100和A100。

推理端:除英伟达,还使用部分***,比如百度、寒武纪等。

Q:大算力模型发展对上游海光和寒武纪厂商有什么影响?

百度、腾讯、阿里等,肯定基础算力的采购需求,叠加政策限制和国产替代,互联网大厂会逐步考虑国产供应商。

Q:目前百度昆仑芯、寒武纪的主力产品是哪些?下一步研发计划?

昆仑芯:目前百度已有两款产品,第一,2018年下半年发布昆仑芯一代产品,基于三星14nm,可以做训练和推理,因此主要用于推理。第二, 2021年发布昆仑芯二代产品,搭载GDDR6高性显存,支持256TOPS(INT8)算力,和V100性能差不多,可以做训练和推理。两个产品都在百度云服务器上部署。第三代昆仑芯产品,预计明年上半年发布,目标达到A100性能。

寒武纪:相对来说是国内做的比较早的厂商。2021年发布的思元370,是训练和推理一体的产品,推理算力为256TOPS(INT8),训练算力为 128TFLOPS。出货量在寒武纪云端产品和商用客户端,属于相对较大的。比如,在阿里云、浪潮、曙光等服务器厂商和科大讯飞等AI算法层面的 公司都有批量出货。训练端产品主要是2021年发布的思元290和还未发布的思元590。思元290采用7nm台积电制程工艺,训练算力达256TFLOPS,比英伟达的V100和昆仑芯二代都要强一些,但还不足A100的水平。玄思1000加速器搭载4块思元290芯片,整机算力达到1P。下一代产品思元590,规模能达到A100水平,性能将达到预期。再下一代产品,计划对标H100,但要先解决供应的问题,因此项目节奏会推后。

Q:今年英伟达在国内替代款A800和H800,出货量预期?

国内市场:国内可以规模化买H800和A800的产品的公司最多十几家,主要系大型互联网企业的采购。浪潮、曙光等应该是无法购买。估计一块芯片价格10万人民币,叠加企业要做ChatGPT这种大模型需要芯片1万张起步,能拿出10亿规模的现金流,主要还是大型的互联网企业。个人预期各企业将会有囤货需求,按每家企业2万张的平均需求来计算,在训练方面,国内将会有接近200亿人民币的采购规模。在推理芯片方面,预计采购量将是100亿。总的来看,整个国内对英伟达的采购需求大概为300亿人民币。

海外市场:海外需求偏市场化,不太需要提前存货。预计今年也有一个更大规模增长。微软、谷歌和Bing等大企业对大模型的采购需求将增加英伟达芯片的出货量,预期今年将增长30%-50%。

Q:INT8和FP16算力是什么意思?

目前AI芯片或AI加速卡在计算算力的时候,一般采用两个数据格式:INT8(二进制的8位的整型数据)和FP16(16位浮点数)。训练的产品主要 处理是浮点数,推理算力主要处理整型数据。

推理端:一般标记INT8的算力。分类检索识别、语音识别、文本识别等推理场景主要处理的数据格式是8位整型数据。1TOPS的算力指1秒钟做1万亿次INT8整型数据运算。

训练端:业界主流标记为FP16。因为训练对模型的要求越高,对数据运算的要求也更高更精准。FP16指1秒钟做多少次16位浮点数的运算, 1TFLOPS表示1秒钟做一万亿次浮点数的操作运算。

算力的换算关系:

(1)整型INT8的算力是128T,则换算成INT16时,算力会减半到64T。

(2)浮点数的关系不是减半,浮点数位数更大,算力 下降的更快。例如,英伟达A100的16位的浮点数算力是624T,32位浮点数的算力只有40T。

传统的数据中心的区别在于,在AI常见的Infini Band fat tree 结构下,使用的交换机数量更多,且因为每个节点上行下行的端口数完全一致。

英伟达所采用的 AI 集群模型中,对应的一个基本单元为 SuperPOD。一个标准的 SuperPOD 由 140 台 DGX A100 GPU 服务器、HDR InfiniBand 200G 网卡和 170 台 NVIDIA Quantum QM8790 交换机构建而成,其中交换机速率为 200G,每个端口数为 40 个。

基于英伟达方案,一个 SuperPOD 170个交换机,每个交换机有 40 个端口,最简单方式上下各70 台服务器,依次端口互联(上下 1:1 连接)对应的线缆需求为 40×170/2=3400 根,考虑实际部署情况上调至 4000 根线缆需求。

其中,铜缆:AOC:光模块比例=4:4:2。

对应光模块需求数量=4000*0.2*2=1600 个,即对于一个SuperPod,服务器:

交换机:光模块的用量比例=140:170:1600=1:1.2:11.4一个类似 GPT4.0 入门级别要求的需求大约需要3750 台 NVIDIA DGX A100服务器。

根据 IDC 数据,2021 年全球 AI 服务器市场规模为 156 亿美元,预计到 2026 年全球 AI 服务器市场将达到 355 亿美元;2021 年中国 AI 服务器行业市场规模为 64 亿美元。根据 IDC 数据,数据中心场景中,200/400G 端口出货量有望快速提升,22-26 年复合增速达 62%,预计 2026年全球交换机端口出货量超 8.7 亿个,市场规模超 440 亿美元。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 服务器
    +关注

    关注

    12

    文章

    9123

    浏览量

    85324
  • AI芯片
    +关注

    关注

    17

    文章

    1879

    浏览量

    34990
  • 算力
    +关注

    关注

    1

    文章

    964

    浏览量

    14793

原文标题:国内外AI芯片、算力、大模型综合对比(2023)

文章出处:【微信号:架构师技术联盟,微信公众号:架构师技术联盟】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    企业AI租赁是什么

    企业AI租赁是指企业通过互联网向专业的提供商租用所需的计算资源,以满足其AI应用的需求。
    的头像 发表于 11-14 09:30 490次阅读

    亿铸科技熊大鹏探讨AI芯片的挑战与解决策略

    在SEMiBAY2024《HBM与存储器技术与应用论坛》上,亿铸科技的创始人、董事长兼CEO熊大鹏博士发表了题为《超越极限:大芯片的技术挑战与解决之道》的演讲,深入剖析了AI
    的头像 发表于 10-25 11:52 379次阅读

    AI芯片供电电源测试利器:费思低压大电流系列电子负载

    AI芯片作为驱动复杂计算任务的核心引擎,其性能与稳定性成为了决定应用成败的关键因素。而在这背后,供电电源的稳定性和高效性则是保障AI
    的头像 发表于 10-25 11:26 394次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>芯片</b>供电电源测试利器:费思低压大电流系列电子负载

    一体架构创新助力国产大AI芯片腾飞

    在湾芯展SEMiBAY2024《AI芯片与高性能计算(HPC)应用论坛》上,亿铸科技高级副总裁徐芳发表了题为《存一体架构创新助力国产大
    的头像 发表于 10-23 14:48 284次阅读

    名单公布!【书籍评测活动NO.43】 芯片 | 高性能 CPU/GPU/NPU 微架构分析

    ,在全球范围内,对于推动科技进步、经济发展及社会整体的运作具有至关重要的作用。随着信息技术的高速发展,高性能计算(HPC)和人工智能(AI)等技术在多个领域的应用变得日益广泛,芯片
    发表于 09-02 10:09

    模型时代的需求

    现在AI已进入大模型时代,各企业都争相部署大模型,但如何保证大模型,以及相关的稳定性和性能
    发表于 08-20 09:04

    名单公布!【书籍评测活动NO.41】大模型时代的基础架构:大模型中心建设指南

    工作日内未联系,视为放弃本次试用评测资格! 书籍介绍 大模型是近年来引人注目的热点之一。大模型蓬勃发展的基础,是针对其需求设计的及基础架构。本书针对如何为大
    发表于 08-16 18:33

    万卡集群解决大模型需求,建设面临哪些挑战

    解决大模型训练对需求的巨大增长问题,尤其是现在模型参数量从百亿级、千亿级迈向万亿级。   国内外企业积极构建万卡集群   目前,在国际上
    的头像 发表于 06-02 06:18 4689次阅读
    万卡集群解决大<b class='flag-5'>模型</b>训<b class='flag-5'>算</b><b class='flag-5'>力</b>需求,建设面临哪些挑战

    摩尔线程张建中:以国产助力数智世界,满足大模型需求

    摩尔线程创始人兼CEO张建中在会上透露,为了满足国内AI的迫切需求,他们正在积极寻求与国内顶尖科研机构的深度合作,共同推动更大规模的
    的头像 发表于 05-10 16:36 951次阅读

    STM32国内外发展现状

    电子发烧友网站提供《STM32国内外发展现状.docx》资料免费下载
    发表于 04-08 15:56 28次下载

    数据语料库、算法框架和芯片AI模型中的作用和影响

    数据语料库、算法框架和芯片的确是影响AI模型发展的三大重要因素。
    的头像 发表于 03-01 09:42 1074次阅读

    除了刷屏的Sora,国内外还有哪些AI视频生成工具

    。Sora的发布也让AI生成视频有了突破性进展。   过去一年多,全球科技公司都在发布各种大模型,然而AI生成内容更多集中在文本和图片方面,AI视频生成方面却进展缓慢。从当前的形势来看
    的头像 发表于 02-26 08:42 4351次阅读
    除了刷屏的Sora,<b class='flag-5'>国内外</b>还有哪些<b class='flag-5'>AI</b>视频生成工具

    Sora需求引发业界对集结国内AI企业的探讨

    据周鸿祎观察,Sora视频分析所需恐远超千亿规模模型。因而,考虑到如今国内芯片供应受限,
    的头像 发表于 02-25 10:03 581次阅读

    AI应用中的光模块产品

    预测 光模块是数据中心内部互连和数据中心相互连接的核心部件。100G和400G是主流产品,800G过去主要用在超等领域。据LightCounting预计,2023年800G全球普及率仅0.62%。而以ChatGPT为代表的AI
    的头像 发表于 01-02 15:32 541次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>应用中的光模块产品

    弘信电子与AI服务器合资,助力国产芯片落地

    此外,弘信电子近期在AI业务上取得了突破性进展,这并非源自本土化的积累,而是依赖于团队敏锐的战略眼光和强烈的创新动力。此次投资是弘信电子在AI
    的头像 发表于 12-25 09:30 959次阅读