重铸AI云纪元：助力超大模型运行的GPU集群

集群资源以提高性能并非新鲜事。在集群技术的早期，Beowulf 项目就证明了商品硬件也可以实现高性能。如今，每当部署某种新技术时就会使用"Beowulf集群备忘录"。例如，“想象一个由Frontier系统组成的Beowulf集群。”有趣的是，GigalO和TensorWave最近的声明更接近现实。

GigaIO 于今年 6 月推出了首款 32 GPU 单节点超级计算机 SuperNODE。SuperNode 在11月丹佛举行的 2023 年超级计算大会上赢得了两项令人垂涎的 HPCwire 编辑选择奖：最佳人工智能产品或技术奖和五大值得关注的新产品或技术奖。HPCwire 曾报道过 32 GPU GigaiO superNODE 和 64 GPU SuperDuperNODE 的性能。现在，GigaIO 和 TensorWave 似乎已经将“想象一个由这些 GPU 组成的Beowulf集群”铭记于心。

近日，GigaIO 宣布其旗舰产品 SuperNODE 获得了迄今为止最重要的订单，该产品最终将使用数万台 AMD Instinct MI300X 加速器，这些加速器也在AMD “Advanced AI” 活动上发布。GigaIO的新型基础设施将成为名为 “TensorNODE”的裸机专用人工智能云代码的骨干，该云将由云提供商TensorWave构建，用于访问AMD数据中心GPU，特别是用于大语言模型（LLM）。

正如GigaIO全球销售首席技术官Matt Demas在接受采访时所说："我们利用我们的SuperNODE为TensorWave创建了一个大型集群。“每个 SuperNODE 都有两台额外的服务器，并可以访问整个 TensorNODE 的所有 GPU 内存。每个 TensorNODE 上还有大量可用的暂存磁盘。

TensorNODE 部署将以 GigaIO SuperNODE 架构为基础，规模更大，利用 GigaIO 的 PCIe Gen-5 内存结构，提供比传统网络更简单的工作负载设置和部署，并减少相关的性能消耗。

TensorWave 将利用 GigaIO 的 FabreX 创建首个 PB 级 GPU 内存池，而不会受到非内存中心网络的性能影响。TensorNODE 的第一批产品预计将于 2024 年初开始运行，其架构将在单个 FabreX 存储结构域上支持多达 5,760 个 GPU。由于所有 GPU 都可以访问域内所有其他 GPU 的 VRAM，因此可以实现超大模型。工作负载可以在任何节点的单个作业中访问超过 PB 的 VRAM，从而使最大型的作业也能在创纪录的时间内完成。在整个 2024 年，将部署多个 TensorNODE。

TensorNODE 是全 AMD 解决方案，采用第四代 AMD CPU 和 MI300X 加速器。MI300X 可为每个加速器提供 192GB 的 HBM3 内存，从而实现了 TensorNODE 的预期性能。这些加速器的内存容量与 GigaIO 的内存结构相结合，可在几乎不降低性能的情况下实现近乎完美的扩展，从而解决了分布式内存模型导致的 GPU 内核利用不足或闲置的难题。

TensorWave 首席执行官 Darrick Horton 表示："TensorWave 很高兴能与 GigaIO 和 AMD 一起将这一创新解决方案推向市场。"我们之所以选择GigaIO平台，是因为它具有卓越的功能，而且GigaIO符合我们的价值观和对开放标准的承诺。我们正在利用这种新型基础设施来支持大规模人工智能工作负载，我们很荣幸能与 AMD 合作，成为首批部署 MI300X 加速器解决方案的云提供商之一。"

与标准的静态基础设施相比，GigaIO动态基础设施的可组合性为TensorWave提供了独特的灵活性和敏捷性；随着LLM和人工智能用户的需求不断发展，基础设施可以随时调整，以满足当前和未来的需求。此外，TensorWave 的云将比其他云更环保，因为它省去了 GPU 服务器主机（通常每台服务器 4-8 个 GPU）和相关网络设备，从而节省了成本、复杂性、空间、水和电力。

"通过将革命性的 AMD Instinct MI300X 加速器与 GigaIO 的人工智能基础架构（包括我们独特的内存结构 FabreX）相结合，我们很高兴能够为 TensorWave 的基础架构提供大规模支持。这次部署验证了我们重新构想数据中心基础设施的开创性方法，"GigaIO 首席执行官 Alan Benjamin 说。"TensorWave 团队在云计算方面具有远见卓识，在建立和部署非常复杂的加速数据中心方面具有深厚的专业知识。

考虑到 GenAI 模型对内存的需求，GigaIO 和 AMD 提供的巨大内存大小和带宽应该会使 TensorWave TensorNode 吸引许多正在云中构建和提供人工智能解决方案的客户。

审核编辑：黄飞

阅读全文

加速器(36400) 加速器(36400)
gpu(126255) gpu(126255)
AI(263628) AI(263628)
HBM(14364) HBM(14364)
大模型(810) 大模型(810)

大模型应用：激发芯片设计新纪元

的支持。蓬勃发展的大模型应用所带来的特殊性需求，正推动芯片设计行业迈向新纪元。众多顶级的半导体厂商纷纷为大模型应用而专门构建 AI 芯片，其高算力、高带宽、动辄千亿的晶体管数量成为大芯片的标配。芯片设计复杂度，迈向新高峰在人工

2023-08-15 11:02:11

836

GPU集群组网技术详解

流行的GPU/TPU集群网络组网，包括：NVLink、InfiniBand、ROCE以太网Fabric、DDC网络方案等，深入了解它们之间的连接方式以及如何在LLM训练中发挥作用。为了获得良好的训练性能，GPU网络需要满足以下条件。

2023-12-25 10:11:43

1377

NVIDIA GPU加速的ARM服务器，能否开创计算架构新纪元？

NVIDIA与Arm、Ampere、Cray、富士通、HPE、Marvell携手构建GPU加速服务器，以满足从超大规模云到边缘、从模拟到AI、从高性能存储到百万兆级超级计算等多样化需求。

2019-11-20 09:38:42

1384

NVIDIA 借助超大规模 AI 语言模型为全球企业赋能

NVIDIA NeMo Megatron 框架; 可定制的大规模语言模型 Megatron 530B；多GPU、多节点 Triton推理服务器助力基于语言的AI开发和部署，推动行业和科学发展。

2021-11-10 14:22:52

752

对话天数智芯董事长兼CEO盖鲁江：国产通用GPU性能提升的四大抓手

而言，核心三要素是算法、数据和算力，其中算力是底座。对于算力而言，目前行业基本的共识是基于通用GPU来构建AI大模型的算力集群，上海天数智芯半导体有限公司（以下简称：天数智芯）是目前国内第一家实现通用GPU量产并落地的公司。在WAIC上，天数

2023-07-11 01:07:00

2462

AI为什么如此耗能？

1 个 AI 模型 = 5 辆汽车终身碳排量，AI 为何如此耗能？

2021-01-22 06:35:03

AI开发者福音！阿里云推出国内首个基于英伟达NGC的GPU优化容器

摘要： 3月28日，在2018云栖大会·深圳峰会上，阿里云宣布与英伟达GPU 云合作（NGC），开发者可以在云市场下载NVIDIA GPU 云镜像和运行NGC 容器，来使用阿里云上的NVIDIA

2018-04-04 14:39:24

AI算法中比较常用的模型都有什么？

AI算法中比较常用的模型都有什么

2022-08-27 09:19:06

Ai 部署的临界考虑电子指南

虽然GPU解决方案对训练，AI部署需要更多。预计到2020年代中期，人工智能行业将增长到200亿美元，其中大部分增长是人工智能推理。英特尔Xeon可扩展处理器约占运行AI推理的处理器单元的70

2023-08-04 07:25:00

GPU上OpenVINO基准测试的推断模型的默认参数与CPU上的参数不同是为什么？

在 CPU 和 GPU 上推断出具有 OpenVINO™ 基准的相同模型： benchmark_app.exe -m model.xml -d CPU benchmark_app.exe -m

2023-08-15 06:43:46

GPU八大主流的应用场景

GPU来完成。但GPU于手机及PC端渗透率基本见顶，根据中国社科院数据，2011-2018年全球主要国家PC每百人渗透率呈下降趋势，智能手机对PC具有一定替代性。而云计算与智能驾驶及AI的兴起对高算力

2021-12-07 10:04:11

GPU编程的平台模型、执行模型、内存模型及编程模型

GPU编程--OpenCL四大模型

2019-04-29 07:40:44

ai芯片和gpu的区别

ai芯片和gpu的区别▌车载芯片的发展趋势(CPU-GPU-FPGA-ASIC)过去汽车电子芯片以与传感器一一对应的电子控制单元(ECU)为主，主要分布与发动机等核心部件上。...

2021-07-27 07:29:46

集群通信网络是什么？数字集群移动通信网络是如何运行的？

2021-05-26 06:27:08

FPGA在深度学习应用中或将取代GPU

上涨，因为事实表明，它们的 GPU 在训练和运行深度学习模型方面效果明显。实际上，英伟达也已经对自己的业务进行了转型，之前它是一家纯粹做 GPU 和游戏的公司，现在除了作为一家云 GPU 服务

2024-03-21 15:19:45

Firefly集群服务器解决方案

服务器，而随着人们对服务器工作负载模式的新需求，越来越多的智能场景需要小型服务器来部署。方案简介集群服务器解决方案，以多块核心板的组合方式，提供标准的软硬件接口，支持分布式AI运算，可用于机器学习

2019-08-16 15:09:56

Imagination全新BXS GPU助力德州仪器汽车处理器系列产品介绍

Imagination全新BXS GPU助力德州仪器汽车处理器系列产品实现先进图形处理功能

2020-12-16 07:04:43

Mali GPU支持tensorflow或者caffe等深度学习模型吗

Mali GPU 支持tensorflow或者caffe等深度学习模型吗？好像caffe2go和tensorflow lit可以部署到ARM，但不知道是否支持在GPU运行？我希望把训练

2022-09-16 14:13:01

NVIDIA 在首个AI推理基准测试中大放异彩

的任务中，比如运行用于语言翻译的GNMT模型等。功能丰富、应用广泛的NVIDIA T4Tensor Core GPU 在多个场景取得了优秀的成绩。这个功耗仅为70瓦的GPU能够轻松安装到任何带有PCIe槽

2019-11-08 19:44:51

ST MCU边缘AI开发者云 - STM32Cube.AI

的模型在微控制器上平稳运行。这使我们能够保持竞争力，并为客户提供最佳解决方案。“多亏了 STM32Cube.AI 开发人员云，我们可以在很短的时间内确认我们创建具有嵌入式AI的产品的方法的有效性。通过

2023-02-02 09:52:43

copy模式的DRDS集群

层多活解决方案。DRDS按照之前说的业务数据拆分的维度，阿里云DRDS有两种集群分别支持买家维度与卖家维度：unit 模式的DRDS集群：多地用户分别在本地域读写本地域的数据，且本地域的数据会和中心数据做双向同步。copy 模式的DRDS集群：此集群数据在中心数据库写，完成后全.

2021-11-16 09:23:44

　　华为云深度学习服务，让企业智能从此不求人

模型收敛的情况下，最大集群规模只支持10块GPU。这意味着在进行数据运算时，即时使用更多的GPU，计算效果也只相当于10块GPU的能力，这样训练的时间将更加的漫长。　　　　而华为云的深度学习

2018-08-02 20:44:09

【KV260视觉入门套件试用体验】Vitis AI 构建开发环境，并使用inspector检查模型

Vitis AI 的所有工具和库，而不需要在本地安装任何依赖。CPU版本的Vitis AI docker 可以在没有 GPU 的机器上运行，但是模型优化的速度会比 GPU 版本慢一些。实际上，我会选择通过

2023-10-14 15:34:26

【产品活动】阿里云GPU云服务器年付5折！阿里云异构计算助推行业发展！

，本周将会推出针对异构计算GPU实例GN5年付5折的优惠活动，希望能够打造良好的AI生态环境，帮助更多的人工智能企业以及项目顺利上云。随着深度学习对人工智能的巨大推动，深度学习所构建的多层神经网络模型

2017-12-26 11:22:09

【合作伙伴】华为云--智能见未来

华为云华为云IoT，致力于提供极简接入、智能化、安全可信等全栈全场景服务和开发、集成、托管、运营等一站式工具服务，助力合作伙伴/客户轻松、快速地构建5G、AI万物互联的场景化物联网解决方案，包括实现设备的统一接入和管理；处理和分析物联网数据，实现数据快速变现等

2022-12-12 10:35:23

介绍在STM32cubeIDE上部署AI模型的系列教程

介绍在STM32cubeIDE上部署AI模型的系列教程，开发板型号STM32H747I-disco，值得一看。MCUAI原文链接:【嵌入式AI开发】篇四|部署篇：STM32cubeIDE上部署神经网络之模型部署

2021-12-14 09:05:03

使用cube-AI分析模型时报错的原因有哪些？

使用cube-AI分析模型时报错，该模型是pytorch的cnn转化成onnx ``` Neural Network Tools for STM32AI v1.7.0 (STM.ai v8.0.0-19389) INTERNAL ERROR: list index out of range ```

2024-03-14 07:09:26

可以使用适用于云计算中HPC的GPU虚拟化吗

是否可以使用NVidia虚拟化在云计算中使用GPU虚拟化创建VM群集？怎么能实现呢？以上来自于谷歌翻译以下为原文Is it possible to use NVidia virtualization

2018-09-30 10:47:56

在Ubuntu上使用Nvidia GPU训练模型

问题最近在Ubuntu上使用Nvidia GPU训练模型的时候，没有问题，过一会再训练出现非常卡顿，使用nvidia-smi查看发现，显示GPU的风扇和电源报错：解决方案自动风扇控制在nvidia

2022-01-03 08:24:09

在X-CUBE-AI.7.1.0中导入由在线AI平台生成的.h5模型报错怎么解决？

你好，我试图在 X-CUBE-AI.7.1.0 中导入由在线 AI 平台生成的 .h5 模型，收到错误：E010(InvalidModelError): Model saved with Keras 2.7.0 but

2022-12-27 06:10:35

在阿里云Kubernetes容器服务上打造TensorFlow实验室

的定义和训练的收敛趋势。总结我们可以利用阿里云Kubernetes容器服务，轻松的搭建在云端搭建TensorFlow的环境，运行深度学习的实验室，并且利用TensorBoard追踪训练效果。欢迎大家使用阿里云上的GPU容器服务，在使用GPU高效计算的能力同时，比较简单和快速的开始模型开发工作。原文链接

2018-05-10 10:24:11

如何判断推理何时由GPU或NPU在iMX8MPlus上运行？

当我为 TFLite 模型运行基准测试时，有一个选项 --nnapi=true我如何知道 GPU 和 NPU 何时进行推理？谢谢

2023-03-20 06:10:30

如何加速电信领域AI开发？

在即将开展的“中国移动全球合作伙伴大会”上，华为将发布一款面向运营商电信领域的一站式AI开发平台——SoftCOM AI平台，帮助电信领域开发者解决AI开发在数据准备、模型训练、模型发布以及部署验证

2021-02-25 06:53:41

如何在基于Arm的设备上运行游戏AI呢

的时间线（右）默认情况下，所有 ML-Agents 模型都使用 Barracuda 执行。Barracuda包是 Unity的跨平台 NN 推理库。它可以在 GPU 和 CPU 上运行 NN 模型。但

2022-08-15 15:43:38

容器开启数据服务之旅系列（二）：Kubernetes如何助力Spark大数据分析

+ OSS on ACK，允许Spark分布式计算节点对阿里云OSS对象存储的直接访问。容器开启数据服务之旅系列（二）：Kubernetes如何助力Spark大数据分析（二）：Kubernetes

2018-04-17 15:10:33

当AI遇上FPGA会产生怎样的反应

和模型编译成与浪潮深度学习加速解决方案的配置脚本，即可进行线上应用，省去至少3个月到半年的开发周期和相关成本。并且在算法运行效率上，浪潮FPGA加速方案相比CPU、GPU都有着很大优势。目前，浪潮

2021-09-17 17:08:32

微型微控制器与强大的人工智能（AI）世界有什么关系

AI设计主要参与方都是功能强大的CPU，GPU和FPGA等。微型微控制器与强大的人工智能（AI）世界有什么关系？但随着AI从云到边缘的发展，使得这一观点正在迅速改变，AI计算引擎使MCU能够突破

2021-11-01 08:55:02

深度融合模型的特点

躺在实验机器上在现有条件下，一般涉及到模型的部署就要涉及到模型的转换，而转换的过程也是随着对应平台的不同而不同，一般工程师接触到的平台分为GPU云平台、手机和其

2021-07-16 06:08:20

瑞芯微Toybrick AI开发平台

在计算棒上，计算棒是一个专用AI应用模块；Toybrick 1808计算棒提供全套模型保护方案加解密过程均运行中TrustZone安全环境中，无法跟踪让您的模型在计算棒上不用担心被盗走，每颗计算棒上

2020-07-24 10:58:40

用于快速模型的模型调试器11.20版用户指南

用于快速模型的模型调试器是用于可扩展集群软件开发的完全可重定目标的调试器。它旨在满足SoC软件开发人员的需求。 Model Debugger具有易于使用的GUI前端，并支持： •源代码级调试

2023-08-10 06:33:37

用于快速模型的模型调试器11.21版用户指南

2023-08-09 07:57:45

硬件帮助将AI移动到边缘

虽然人工智能和机器学习计算通常在数据中心中大规模地执行，但是最新的处理设备使得能够将AI / ML能力嵌入到网络边缘的IoT设备中。边缘的AI可以快速响应，无需等待云的响应。如果可以在本地完成推理

2019-05-29 10:38:09

网络边缘实施AI的原因

将AI推向边缘的影响通过在边缘运行ML模型可以使哪些具体的AI项目更容易运行？

2021-02-23 06:21:10

萌新求助，求云模型及发生器matlab代码

2021-11-19 07:11:38

解锁高性能计算与区块链应用，阿里云Kubernetes服务召唤神龙

摘要：阿里云ECS弹性裸金属服务器（神龙）已经与其容器服务全面兼容，用户可以选择在弹性裸金属服务器上直接运行容器、管控Kubernetes/Docker容器集群，如此将会获得非常出色的性能、数倍

2018-06-13 15:52:15

训练好的ai模型导入cubemx不成功怎么解决？

训练好的ai模型导入cubemx不成功咋办，试了好几个模型压缩了也不行，ram占用过大，有无解决方案？

2023-08-04 09:16:28

请问Mali GPU的并行化计算模型是怎样构建的？

Mali T604 GPU的结构是由哪些部分组成的？Mali T604 GPU的编程特性有哪些？Mali GPU的并行化计算模型是怎样构建的？基于Mali-T604 GPU的快速浮点矩阵乘法并行化该如何去实现？

2021-04-19 08:06:26

轻松实现一键部署AI模型至RT-Thread系统

使用 STM32Cube.AI 的模型转换工具，获得一个集成了 AI 的 BSP对，就是这么硬核，一步肝到位！内部的流程请看源码或者 plugin_stm32 仓库下的 readme 文档运行命令进入

2022-09-02 15:06:14

适用于快速模型的模型调试器用户指南

2023-08-08 06:28:56

防止AI大模型被黑客病毒入侵控制（原创）聆思大模型AI开发套件评测4

模型并为其提供了输入数据。最后，我运行了模型的推理，并输出了预测结果。此外，还需要考虑其他因素，如模型的优化器、损失函数和评估指标等。为了防止AI大模型被黑客病毒入侵控制，通常可以采取以下措施

2024-03-19 11:18:16

阿里云AI如何助攻世界杯？视频集锦背后的技术实践

。对于世界杯这种超大观看量级、超强影响力的重要体育赛事，阿里云一直致力研究的AI技术一定不会缺席。本届世界杯互联网直播的顺利进行，离不开各大云计算厂商的支持。在这其中，阿里云是当之无愧的“C位“，除了

2018-07-12 15:12:13

阿里云CPFS在人工智能/深度学习领域的实践

拷贝多份占用存储空间，也给网络管理和数据管理带来了复杂性；并且由于数据无法共享，无法支持整个GPU集群同时运行任务，降低了整个IT系统的使用效率。为了便于数据管理和共享，传统文件存储在AI系统中得到一定

2018-08-23 17:39:35

阿里云E-HPC赋能制造业仿真云弹性

群扩容和缩容。同云桌面／GPU服务器的结合一般在仿真工作流里面，完成大量的仿真计算后会进入到渲染阶段，所以一般会经过GPU服务器集群的Pipeline，最后通过云桌面展示给客户的客户。于是E-HPC

2018-05-18 22:19:53

阿里云HPC助力新制造 | 上汽仿真计算云SSCC

作业在上汽仿真计算云平台上完成，模拟了整车、发动机数百种工况。由于阿里云超级计算集群带来的性能提升，相对本地集群节约了计算求解时间，用户作业排队时间也明显缩短，工程师可以在工作时间段做更多的模型调整

2018-05-31 15:30:30

阿里云上Kubernetes集群联邦

摘要： kubernetes集群让您能够方便的部署管理运维容器化的应用。但是实际情况中经常遇到的一些问题，就是单个集群通常无法跨单个云厂商的多个Region，更不用说支持跨跨域不同的云厂商。这样会给

2018-03-12 17:10:52

阿里云在LC3大会上透露未来要做的两件事

，Hovorod等多种深度学习框架，CPU、GPU、FPGA等异构计算集群可以统一管理调度和高效运行，如此实现模型持续训练和迭代上线，从而降低开发AI应用服务的门槛，大大提升AI落地的效率。未来阿里云将在

2018-07-02 15:27:20

阿里云宣布与国内规模最大的汽车企业上汽集团合作

智行，装车量已突破60万辆。未来双方也将继续深入合作，从端到云全面拓展合作。上汽仿真计算云基于ECS神龙SCC超级计算集群+E-HPC弹性高性能计算产品，让客户在阿里云端打造了一个媲美物理机集群性能，同时兼具与HPC业务部署灵活性和弹性的高性能云端计算服务平台，助力智能制造行业客户上云。原文链接

2018-06-19 16:04:24

阿里云智能视频 AI 重装来袭

摘要：近日，阿里云重磅推出视频点播新功能——视频AI ，基于深度学习、计算机视觉技术和海量数据，为广大用户提供多场景的视频AI服务。近日，阿里云重磅推出视频点播新功能——视频AI，基于深度学习

2018-01-23 15:19:23

基于SMP集群的混合并行编程模型研究

提出一种适用于SMP 集群的混合MPI+OpenMP 并行编程模型。该模型贴近于SMP 集群的体系结构且综合了消息传递和共享内存2 种编程模型的优势，能获得较好的性能。讨论该混合模型的实

2009-03-30 09:28:40

GPU将开创计算新纪元

GPU将开创计算新纪元魏鸣，是NVIDIA公司中国区市场总监。　　美国著名计算机科学家、田纳西州大学计算机创新实验室主任Jack Dongarra博士曾经说过，将来的计算

2009-12-30 10:17:39

1221

基于Jini集群网格计算模型及算法

研究如何使用Jini 来实现集群网格计算环境，给出系统模型JCGE(a Jini-based cluster grid environment)，设计一个在此模型上进行并行计算的通用算法，并在集群主机上对此模型及算法进行测试，

2011-05-14 11:05:45

能把百城主官聚在一起的，也只有AI大模型了，和华为云一起，探秘城市+AI的化学反应

AI大模型

脑极体发布于 2023-09-20 20:40:16

AI大模型可以设计电路吗?

AI大模型

电子发烧友网官方发布于 2024-01-02 15:09:29

AI大模型会不会取代电子工程师?

AI大模型

电子发烧友网官方发布于 2024-01-02 15:11:43

AI大模型怎么解决芯片过剩?

AI大模型

电子发烧友网官方发布于 2024-01-02 15:42:05

AI大模型可以取代大学教育吗？

AI大模型

电子发烧友网官方发布于 2024-01-02 16:27:52

AI大模型远程控制启动车辆（原创）

AI大模型

还没吃饭发布于 2024-03-18 15:18:29

助推阿里巴巴业务突破，GPU算力为AI应用赋能

作为NVIDIA在中国重要的合作伙伴，阿里巴巴正在将GPU大规模的应用于诸多业务的AI推理应用中，借助GPU带来的强大算力为AI应用赋能，助力多个业务实现突破。

2018-10-04 08:41:00

3066

亚马逊推出AWS Inferentia芯片专门用于部署带有GPU的大型AI模型

亚马逊宣布推出Inferentia，这是由AWS设计的芯片，专门用于部署带有GPU的大型AI模型，该芯片将于明年推出。

2018-12-03 09:46:08

1753

AI模型利用神经网络数据“藏毒”？

然而，如果攻击者在使用AI模型时也“以管理员身份运行”，给AI模型埋藏一个“后门”，平时程序运行正常，然而一旦被激活，模型输出就会变成攻击者预先设置的目标。

2020-08-23 09:47:39

1412

深度学习的GPU共享工作

研究的热点之一。本篇文章希望能提供一个对GPU共享工作的分享，希望能和相关领域的研究者们共同讨论。 GPU共享，是指在同一张GPU卡上同时运行多个任务。优势在于：（1）集群中可以运行更多任务，减少抢占。（2）资源利用率（GPU/显存/e.t.c.）提高；GPU共享后，总利用率接近运行任务利

2020-11-27 10:06:21

3271

探究超大Transformer语言模型的分布式训练框架

NVIDIA Megatron 是一个基于 PyTorch 的框架，用于训练基于 Transformer 架构的巨型语言模型。本系列文章将详细介绍Megatron的设计和实践，探索这一框架如何助力

2021-10-20 09:25:43

2078

如何快速新建一个可高效扩展并易用的GPU集群

基于京东部署的DGX SuperPOD集群 “天琴α”，京东探索研究院联合悉尼大学共同研发了织女模型，一并攻克了 GLUE 两项挑战性任务。

2022-01-04 14:22:55

3380

Meta发布采用NVIDIA系统的AI研究超级集群

Meta的AI超级计算机是迄今为止最大的NVIDIA DGX A100客户系统。该系统将为Meta的AI研究人员提供5百亿亿次级AI计算性能，采用了最先进的NVIDIA系统、InfiniBand网络和软件，实现了数千个GPU集群的系统优化。

2022-02-07 10:40:56

1621

NVIDIA助力微软将AI Transformer模型投入生产用途

Microsoft 的目标是，通过结合使用 Azure 与 NVIDIA GPU 和 Triton 推理软件，率先将一系列强大的 AI Transformer 模型投入生产用途。

2022-03-28 09:43:38

1029

NVIDIA RAPIDS加速器可将工作分配集群中各节点

近期，该团队在 GPU 助力的服务器上测试了适用于 Apache Spark 的 NVIDIA RAPIDS 加速器，该软件可将工作分配到集群中的各节点。

2022-04-01 14:15:03

890

DGX SuperPOD助力助力织女模型的高效训练

　　“强悍的织女模型在京东探索研究院建设的全国首个基于 DGX SuperPOD 架构的超大规模计算集群 “天琴α” 上完成训练，该集群具有全球领先的大规模分布式并行训练技术，其近似线性加速比的数据、模型、流水线并行技术持续助力织女模型的高效训练。”

2022-04-13 15:13:11

783

NVIDIA助力百度智能云落地新一代高性能AI计算集群

　　经过百度内部 NLP 研究团队的验证，在这个网络环境下的超大规模集群上提交千亿模型训练作业时，同等机器规模下整体训练效率是普通 GPU 集群的 3.87 倍。

2022-05-20 15:00:27

953

NVIDIA GPU加速潞晨科技Colossal-AI大模型开发进程

通过 NVIDIA GPU 加速平台，Colossal-AI 实现了通过高效多维并行、异构内存管理、大规模优化库、自适应任务调度等方式，更高效快速部署 AI 大模型训练与推理。

2022-10-19 09:39:39

1149

天数智芯与计图完成兼容性适配携手助力前沿AI应用生态

近日，天数智芯通用GPU产品“天垓100”与计图即时编译深度学习框架完成兼容性适配认证，同时支持加速深度学习模型的训练和推理，支持运行多种前沿AI应用，进一步助力国产AI生态发展。

2022-12-23 09:35:33

684

天数智芯通用GPU产品为大模型时代提供强大算力底座

第七届集微半导体峰会于6月初在厦门成功举办，上海天数智芯半导体有限公司（以下简称“天数智芯”）产品线总裁邹翾受邀参加“集微通用芯片行业应用峰会”，发表了题为“国产GPU助力大模型的实践”的主题演讲

2023-06-08 22:55:02

952

AMD甩出最强AI芯片单个GPU跑大模型

专为生成式AI设计的GPU：HBM密度是英伟达H100的2.4倍，带宽是英伟达H100的1.6倍。

2023-06-20 10:47:47

605

Stability AI发布大型模型SDXL 0.9，并可以运行在消费级GPU上

据悉，SDXL 0.9是在所有开源图像模型中参数数量位居前茅，并且可以在消费级GPU上运行，还具备一个35亿参数的基础模型和一个66亿参数的附加模型。

2023-06-26 09:41:49

720

EE直播间|GPU助力数据中心高性能计算和AI大模型的开发

6 月 27 日上午1000，电子工程专辑【EE直播间】最新一期即将开播！本期直播将围绕“GPU助力数据中心高性能计算和AI大模型的开发”为主题，由 AspenCore 产业分析师为大家介绍

2023-06-26 11:20:02

337

AI大模型时代需要什么样的网络？

据了解，星脉网络具备业界最高的 3.2T 通信带宽，可提升 40% 的 GPU 利用率、节省 30%~60% 的模型训练成本，进而能为 AI 大模型带来 10 倍通信性能提升。基于腾讯云新一代算力集群，可支持 10 万卡的超大计算规模。

2023-07-14 14:46:33

1215

完成适配！曦云C500在智谱AI升级版大模型上充分兼容、高效稳定运行

适配。测试结果显示，曦云C500在智谱AI的升级版大模型上充分兼容、高效稳定运行。沐曦旗舰产品曦云C500基于自主研发的高性能GPU IP，特别适合千亿参数AI大模型的训练和推理；基于全自研 GPU 指令集打造的MXMACA软件栈，全面兼容主流GPU生态，实现用户零成本迁移；

2023-08-23 10:38:47

3030