GPU在不同形态下的扩展性问题-电子发烧友网

在AI和大数据时代到来之后，GPU单兵作战就变成了奢望，以现在的数据中心和超算为例，动辄就是成千上万张GPU，庞大的GPU网络在交换机和光模块的支持下代表了这个计算时代下最高的算力。但并非只有数据中心和超算里的GPU才需要这样的扩展性，嵌入式GPU和专业GPU同样如此。

物理限制的嵌入式GPU

随着各种传感器的性能持续走高，譬如多线激光雷达、高分辨率的图像传感器等，我们对边缘计算单元尤其是GPU的需求也在持续增加。但在实现的过程中，我们还有一些物理限制没法消除，像是尺寸、重量和功耗等。

为了解决这一系列问题，美国政府和行业方案提供商们成立了SOSA联盟，以求开发开放的标准和最好的方案来实现高性价比、互操作性强的传感器系统。如何克服这些负载计算工作量提升带来的挑战，又能不增加宝贵的物理资源呢？答案自然还是将GPU、DPU等技术集成到嵌入式结构中去。

这类嵌入式GPU并非用来单独售卖，而是交给合作伙伴整合到不同的边缘计算系统中，比如研华、凌华、EIZO、Mercury Systems等，然后交付给美国空军、洛克希德·马丁这类军事、航空、工业客户。

MXM嵌入式GPU模块 / 凌华科技

即便选择了嵌入式结构，也还有着不少的路线，比如GPU、FPGA和ASIC等等。SOSA联盟主席，来自美国空军的Ilya Lipkin表示，如果想要更快的运行速度，快速部署软件，自然是选择GPU最好。但他们也面临着空间的问题，因为嵌入式GPU往往会被塞到3U或者6U的服务器里，他们想要做到更小的体积，甚至是手掌大小，可这样一来就不得不牺牲带宽、容量。

所以，虽然嵌入式GPU仍然在这些嵌入式传感系统中可以保持领先地位，但他们并没有像获得数据中心那样不算严格的空间要求。目前的MXM嵌入式GPU可以做到PCIe GPU五分之一的尺寸，但这对于嵌入式GPU的扩展性来说还不算完美。在边缘计算上，反倒是一些FPGA和ASIC方案在能耗比和扩展性上占优，如果嵌入式GPU不能做到更强大的扩展性，很有可能会被后来者颠覆。

显卡交火时代的结束

不管是最新发布的RTX4090消费级显卡，还是RTX 6000这样的专业显卡，都象征了英伟达在新架构GPU上的又一次创新。在台积电4N工艺的加持下，无论是晶体管数目还是CUDA核心都做到了极致。

然而，原本变成了专属英伟达高端消费显卡和专业显卡的交火技术NVLink，在RTX4090和RTX 6000上却无处可寻，难不成英伟达彻底放弃显卡交火技术，也就此放弃NVLink了？根据英伟达CEO黄仁勋的说法，他们省下了NVLink连接器的空间，释放了更多的空间来处理更多的AI计算。

在上一代显卡的NVLink中，通过连接两块英伟达显卡，使用高端显卡和专业显卡的专业系统能够获得更高的带宽和双倍的显存容量。这样的提升对于个人或专业用户来说是极大的提升，那么为何英伟达会放弃NVLink呢？笔者也在英伟达GTC的一次分享会议上提出了这一问题。

RTX6000 / 英伟达

英伟达方面表示，就RTX 6000这类专业显卡而言，他们取消NVLink后省下了足够的空间，塞入了更多的计算单元来提升单卡的性能。与此同时，虽然这些专业显卡的NVLink支持被取消，不代表英伟达放弃了这一技术。英伟达决心将NVLink的重心放在数据中心产品上，比如Grace CPU、Hopper GPU，他们通过NVLink Die to Die和Chip to Chip的互联可以实现更好的扩展性。

但这确实象征着一个时代的结束，过去AMD的交火和英伟达的SLI也是两家竞争最火热的一项技术，可随着AMD放弃了交火支持，英伟达的SLI在换成NVLink后如今也迎来了终结。

但显卡交火的落幕也情有可原，且不说这种互联方式的受众群体一再变少，要想享受到显卡交火的性能也需要软件追加更新支持。或许专业显卡的目标还是追求单卡性能就好，多卡互联的支持还是让给数据中心吧。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

gpu

gpu

+关注

关注
28

文章
4795

浏览量
129502

[求职] RK3588核心板，寻找志同道合的电子发烧友！

。灵活的扩展性: 支持多种操作系统，包括Android、Linux等，方便开发者进行二次开发。项目经验智能家居网关: 凭借强大的处理能力和丰富的接口，成功应用于智能家居网关项目，实现多种智能设备

发表于 02-11 10:49

解锁新应用：探索GPU扩展是如何提升渲染农场的工作效率

联瑞GPU扩展方案在渲染农场的应用,是在原有计算机设备的基础上增加GPU的数量，不用额外购买GPU

发表于 01-09 17:13 •161次阅读

FPGA+GPU+CPU国产化人工智能平台

平台采用国产化FPGA+GPU+CPU构建嵌入式多核异构智算终端，可形成FPGA+GPU、FPGA+CPU、CPU+FPGA等组合模式，形成低功耗、高可扩展性的硬件系统，结合使用场景灵活搭配，已有

发表于 01-07 16:42 •428次阅读

在众核场景下EXT4该如何应对才能发挥性能

一、背景和问题 1. EXT4日志的问题随着计算机系统加载数百个CPU内核，文件系统的可扩展性得到进一步强调。因此本文主要定位服务器中广泛使用的Ext4文件系统在做日志记录时的可扩展性问题

发表于 12-30 11:35 •207次阅读

训练AI大模型需要什么样的gpu

训练AI大模型需要选择具有强大计算能力、足够显存、高效带宽、良好散热和能效比以及良好兼容性和扩展性的GPU。在选择时，需要根据具体需求进行权衡和选择。

发表于 12-03 10:10 •244次阅读

深度评测：云计算平台的优势和不足

云计算平台具有成本效益、灵活性和可扩展性、简化维护和升级、全球访问性以及灾难恢复等优势，但也面临安全性问题、依赖性问题、合规性和隐私问题、性能限制以及迁移复杂性等挑战。企业在采用云计算

发表于 11-22 10:48 •232次阅读

Perforce Helix Core通过ISO 26262认证！为汽车软件开发团队提供无限可扩展性、细粒度安全性、文件快速访问等

News！Helix Core通过ISO 26262认证，符合汽车系统开发所需的安全和可靠性标准，助力汽车软件安全合规！具备无限可扩展性、细粒度安全性、文件快速访问...是众多汽车OEM和供应商的首选版本控制工具。

发表于 11-12 14:41 •910次阅读

GPU算力租用平台怎么样

GPU算力租用平台以其成本效益、灵活性与可扩展性、简化运维以及即时访问等优势，在深度学习、科学计算、图形渲染等多个领域发挥着重要作用。

发表于 10-17 10:03 •296次阅读

Cincoze高阶效能&PCIe扩展型工控机

应用于如机器视觉、AI运算等要求高度运算效能与实时GPU图像辨识速度的应用场景。DS 系列不仅具备强大的处理能力，还支持多种扩展模块，以及多元的认证标准，确保在苛刻的环境下持续稳定运行

发表于 10-15 14:49 •220次阅读

Imagination DXS GPU:重塑汽车智能与交互的未来

增长。在此背景下，Imagination公司最新推出的DXS GPU IP产品，以其可扩展性、灵活性和强大的计算能力，为车载智能与交互系统注入了新的活力。

发表于 09-23 13:06 •900次阅读

使用低成本MSPM0 MCU在无线电动工具和园艺工具中实现可扩展性

电子发烧友网站提供《使用低成本MSPM0 MCU在无线电动工具和园艺工具中实现可扩展性.pdf》资料免费下载

发表于 09-02 11:47 •2次下载

国产NVMe SSD扩展卡：驱动存储新纪元

NVMe技术的标准化接口使得不同厂商的设备能够更好地兼容和互操作，提升了存储系统的灵活性和扩展性。

发表于 08-17 14:59 •1519次阅读

大模型发展下，国产GPU的机会和挑战

电子发烧友网站提供《大模型发展下，国产GPU的机会和挑战.pdf》资料免费下载

发表于 07-18 15:44 •10次下载

进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

。允许在网络结构中直接减少和组合张量，优化计算任务并增强图形处理器集群的可扩展性。 **5. **安全性和可靠性引入英伟达机密计算技术，在不影响性能的情况下，增强了大规模实时生成式人工智能推理的安全性

发表于 05-13 17:16

FPGA在深度学习应用中或将取代GPU

、运动和电力限制等环境因素。 Larzul 说：“在一些关键的应用场景中，比如智慧城市的视频监控，要求硬件暴露在对 GPU 有不利影响的环境因素 (比如太阳) 下。“ GPU 受晶体管

发表于 03-21 15:19