NVIDIA GPU加速潞晨科技Colossal-AI大模型开发进程-电子发烧友网

通过 NVIDIA GPU 加速平台，Colossal-AI 实现了通过高效多维并行、异构内存管理、大规模优化库、自适应任务调度等方式，更高效快速部署 AI 大模型训练与推理。

AI 大模型的高门槛成为研发一大难题

近年来，AI 模型已从 AlexNet、ResNet、AlphaGo 发展到 BERT、GPT、MoE…随着深度学习的兴起及大模型横扫各大性能榜单，AI 能力不断提升的一个显著特征是模型参数的爆发式增长，这也使得训练模型的成本急剧上升。目前最大的 AI 模型智源悟道 2.0 参数量达到 1.75 万亿，前沿 AI 模型的大小在短短几年内便已增大万倍，远超硬件数倍的缓慢增长，模型大小也远超单个 GPU 的容纳能力。

由于单台机器的能力已远远无法满足日益增长的 AI 训练需求，即便是超级计算机，也面临着当硬件堆砌到达一定数量后，效率无法进一步提升的瓶颈，浪费了大量计算资源。而分布式并行也与单机情况差异巨大，通常需要计算机系统和体系结构相关的专业人员，这进一步提高了训练和部署成本。

此外，PyTorch、TensorFlow 等现有深度学习框架也难以有效处理超大模型，通常需要专业的 AI 系统工程师针对具体模型做适配和优化。更重要的是，不是每一个研发团队都具备 “钞” 能力，能够随时调用大规模 GPU 集群来使用大模型，更不用提仅有一张显卡的个人开发者。因此，尽管大模型已经吸引了大量关注，高昂的上手门槛却令大众 “望尘莫及”。

NVIDIA GPU 加速

潞晨科技 Colossal-AI 大模型开发进程

Colossal-AI 基于 NVIDIA GPU A30，为 AI 大模型的普适化做出了一系列贡献：

1、提升 AI 大规模并行效率

对于 GPT-3 等超大 AI 模型，仅需一半资源启动训练，或通过高效并行加速，降低训练成本超百万美元。在训练 ViT 模型时，可以扩大 14 倍的 batch size，加快 5 倍的训练速度；对于 GPT-2 模型，我们可以降低 11 倍的内存消耗和超线性扩展，训练加速 3 倍，模型大小可扩展至 24 倍；对于 BERT 模型，可训练加速可达两倍以上。

2、扩大硬件 AI 模型容量

在单个 GPU 上对于训练任务，可提升模型容量十余倍，将 GPU 训练 GPT-2 和 PaLM 等前沿模型的参数容量提升数十倍。

3、丰富 AI 大模型行业落地

在产品发布的数个月内，潞晨科技已与数十家行业标杆企业建立深度合作，客户涵盖中、美、英、新等全球市场，涉及云计算、芯片设计、生物医药、自动驾驶、智能零售等领域。例如，潞晨方案将 GPU 优化和大规模并行技术引入 AlphaFold 的训练和推理，成功将 AlphaFold 总体训练时间从 11 天减少到 67 小时，且总成本更低，在长序列推理中也实现 9.3 ∼ 11.6 倍提升。Colossal-AI 团队还助力百图生科开源全球最快的复合物结构预测模型，可同时支持蛋白质单体与复合物结构预测，将原有推理速度提升约 11 倍。

目前，在 NVIDIA GPU 出色的 AI 加速性能加持下，Colossal-AI 已成功应用在诸多领域，显著缩短 AI 大模型开发和部署流程，降低 AI 大模型落地成本。

NVIDIA GPU 产品助力

潞晨科技 Colossal-AI 大模型落地与推广

NVIDIA GPU 产品与 Colossal-AI 的合作，极大地提升了 AI 大模型的训练与推理流程，显著提升了用户体验，为 AI 大模型的落地与推广做出了重要贡献。

借助 Colossal-AI 与 NVIDIA GPU 产品，对于企业用户，可将现有项目便捷扩展到大规模计算集群，使用高效并行技术，以低成本快速完成 AI 大模型的开发部署。对于计算资源有限的普通用户，也能训练百亿参数的大模型，相比现有主流方案，可提升参数容量十余倍，降低了 AI 大模型微调和推理等下游任务和应用部署的门槛。

潞晨科技致力于将软件系统设计与硬件架构深度融合，实现一体化、智能化、自动化的人工智能计算服务。NVIDIA 初创加速计划为我们提供了技术支持、市场宣传、业务对接等一列的支持。潞晨科技也参加了 2022 NVIDIA 初创企业展示活动，并进入了最终展示，借此获得了更多生态关注。

NVIDIA GPU 产品作为 Colossal-AI 算力基础，本次双方的深化合作将促进潞晨科技与 NVIDIA 共同探索 GPU 如何更有效地应用在训练和推理 AI 大模型中，为 GPU 硬件与 Colossal-AI 软件系统的共同进步打下良好基础。双方将共同努力推动 AI 大模型的普世化进程，不断解放和发展 AI 生产力。

——潞晨科技创始人尤洋博士

关于潞晨科技

潞晨科技主营业务包括分布式软件系统，大规模人工智能平台和企业级云计算解决方案。公司旨在帮助企业最大化人工智能部署效率的同时最小化部署成本。其核心产品面向大模型时代的通用深度学习系统 Colossal-AI，涵盖高效多维自动并行、异构内存管理、大规模优化库、自适应任务调度等自研技术，可高效快速部署 AI 大模型训练和推理，兼容低端设备，显著缩短 AI 大模型训练和推理时间、降低训练和推理成本，减少学习和部署的人力成本。

审核编辑：汤梓红

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

NVIDIA

NVIDIA

+关注

关注
14

文章
5108

浏览量
104475
gpu

gpu

+关注

关注
28

文章
4831

浏览量
129780
AI

AI

+关注

关注
87

文章
32452

浏览量
271635
大模型

大模型

+关注

关注
2

文章
2784

浏览量
3432

原文标题：NVIDIA GPU加速AI落地，潞晨科技Colossal-AI助力大模型普适化

文章出处：【微信号：NVIDIA-Enterprise，微信公众号：NVIDIA英伟达企业解决方案】欢迎添加关注！文章转载请注明出处。

芯至科技与潞晨科技达成战略合作

在当前人工智能技术迅速发展的背景下，行业内的深度合作已成为推动技术创新与应用落地的重要力量。近日，芯至科技(上海)有限公司与北京潞晨科技有限公司宣布达成战略合作框架协议，共同探索人工智能大模型

发表于 02-12 09:51 •486次阅读

NVIDIA宣布NVIDIA Isaac重要更新

，更为全球开发者提供了更加强大、高效的工具，以加速AI机器人的开发进程。 NVIDIA Isaac是一个综合性的平台，它集成了

发表于 01-17 14:45 •285次阅读

NVIDIA发布Cosmos平台，加速物理AI开发

NVIDIA近日宣布了一项重大创新——推出NVIDIA Cosmos™平台。该平台集成了先进的生成式世界基础模型、高级tokenizer、护栏以及加速视频处理管线，旨在推动自动驾驶汽车

发表于 01-13 11:06 •501次阅读

NVIDIA推出加速物理AI开发的Cosmos世界基础模型

经数百万小时的驾驶和机器人视频数据训练的先进模型，可用于普及物理 AI 开发，并以开放模型许可形式提供。

发表于 01-09 11:05 •358次阅读

NVIDIA推出面向RTX AI PC的AI基础模型

NVIDIA 今日发布能在 NVIDIA RTX AI PC 本地运行的基础模型，为数字人、内容创作、生产力和开发提供强大助力。

发表于 01-08 11:01 •311次阅读

NVIDIA推出多个生成式AI模型和蓝图

NVIDIA 宣布推出多个生成式 AI 模型和蓝图，将 NVIDIA Omniverse 一体化进一步扩展至物理 AI 应用，如机器人、自动

发表于 01-08 10:48 •241次阅读

NVIDIA和GeForce RTX GPU专为AI时代打造

NVIDIA 和 GeForce RTX GPU 专为 AI 时代打造。

发表于 01-06 10:45 •309次阅读

GPU是如何训练AI大模型的

在AI模型的训练过程中，大量的计算工作集中在矩阵乘法、向量加法和激活函数等运算上。这些运算正是GPU所擅长的。接下来，AI部落小编带您了解GPU

发表于 12-19 17:54 •374次阅读

《CST Studio Suite 2024 GPU加速计算指南》

许可证模型的加速令牌或SIMULIA统一许可证模型的SimUnit令牌或积分授权。 4. GPU计算的启用 - 交互式模拟：通过加速对话框

发表于 12-16 14:25

NVIDIA推出全新生成式AI模型Fugatto

NVIDIA 开发了一个全新的生成式 AI 模型。利用输入的文本和音频，该模型可以创作出包含任意的音乐、人声和声音组合的作品。

发表于 11-27 11:29 •526次阅读

《算力芯片高性能 CPUGPUNPU 微架构分析》第3篇阅读心得：GPU革命：从图形引擎到AI加速器的蜕变

对卷积核优化的思考。 GPU的存储体系采用了独特的倒金字塔结构，在我看来这是其计算性能的关键。大容量寄存器设计破解了传统冯诺依曼架构的内存瓶颈，合并访存机制巧妙解决了内存带宽限制。NVIDIA GPU

发表于 11-24 17:12

NVIDIA CorrDiff生成式AI模型能够精准预测台风

在 NVIDIA GPU 上运行的一个扩散模型向天气预报工作者展示了加速计算如何实现新的用途并提升能效。

发表于 09-13 17:13 •869次阅读

NVIDIA RTX AI套件简化AI驱动的应用开发

NVIDIA 于近日发布 NVIDIA RTX AI套件，这一工具和 SDK 集合能够帮助 Windows 应用开发者定制、优化和部署适用于 Windows 应用的

发表于 09-06 14:45 •592次阅读

NVIDIA加速微软最新的Phi-3 Mini开源语言模型

NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微软最新的 Phi-3 Mini 开源语言模型。TensorRT-LLM 是一个开源库，用于优化从 PC 到云端的

发表于 04-28 10:36 •711次阅读

NVIDIA在加速识因智能AI大模型落地应用方面的重要作用介绍

本案例介绍了 NVIDIA 在加速识因智能 AI 大模型落地应用方面的重要作用。生成式大模型已广泛应用于各领域，通过学习人类思维方式，能快速

发表于 03-29 15:28 •765次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

NVIDIA GPU加速潞晨科技Colossal-AI大模型开发进程

评论

芯至科技与潞晨科技达成战略合作

NVIDIA宣布NVIDIA Isaac重要更新

NVIDIA发布Cosmos平台，加速物理AI开发

NVIDIA推出加速物理AI开发的Cosmos世界基础模型

NVIDIA推出面向RTX AI PC的AI基础模型

NVIDIA推出多个生成式AI模型和蓝图

NVIDIA和GeForce RTX GPU专为AI时代打造

GPU是如何训练AI大模型的

《CST Studio Suite 2024 GPU加速计算指南》

NVIDIA推出全新生成式AI模型Fugatto

《算力芯片高性能 CPUGPUNPU 微架构分析》第3篇阅读心得：GPU革命：从图形引擎到AI加速器的蜕变

NVIDIA CorrDiff生成式AI模型能够精准预测台风

NVIDIA RTX AI套件简化AI驱动的应用开发

NVIDIA加速微软最新的Phi-3 Mini开源语言模型

NVIDIA在加速识因智能AI大模型落地应用方面的重要作用介绍