NVIDIA为全球企业开发和部署大型语言模型打开一扇新的大门-电子发烧友网

NVIDIA NeMo Megatron 框架; 可定制的大规模语言模型Megatron 530B；多GPU、多节点 Triton推理服务器助力基于语言的AI开发和部署，推动行业和科学发展

NVIDIA为全球企业开发和部署大型语言模型打开了一扇新的大门——使这些企业能够建立他们自己的、特定领域的聊天机器人、个人助理和其他AI应用程序，并能够以前所未有的水平理解语言中的微妙和细微差别。

NVIDIA推出了为训练具有数万亿参数的语言模型而优化的NVIDIA NeMo Megatron框架、为新领域和语言进行训练的可定制大型语言模型（LLM）Megatron 530B以及具有多GPU、多节点分布式推理功能的NVIDIA Triton推理服务器。

这些工具与NVIDIA DGX系统相结合，提供了一个可部署到实际生产环境的企业级解决方案，以简化大型语言模型的开发和部署。

“大型语言模型已被证明是灵活且功能强大的，无需专门的培训或监督，即可回答深层次领域问题，翻译语言，理解和总结文件，编写故事和计算程序。” NVIDIA应用深度学习研究副总裁Bryan Catanzaro表示。“ 为新的语言和领域建立大型语言模型可能仍然是最大的超级计算的应用，现在这些功能对全球的企业也变得触手可及。”

NVIDIA NeMo Megatron和Megatron 530B

加速大型语言模型开发

NVIDIA NeMo Megatron是在Megatron的基础上发展起来的开源项目，由NVIDIA研究人员主导，研究大型转换语言模型的高效训练。Megatron 530B是世界上最大的可定制语言模型。

NeMo Megatron框架使企业能够克服训练复杂自然语言处理模型的挑战。经过优化，可以在NVIDIA DGX SuperPOD的大规模加速计算基础设施上进行扩展。

NeMo Megatron通过数据处理库自动处理LLM训练的复杂性，这些数据处理库可以摄入、策划、组织和清理数据。利用先进的数据、张量和管道并行化技术，它能使大型语言模型的训练有效地分布在成千上万的GPU上。企业可以通过NeMo Megatron框架进一步训练它以服务新的领域和语言。

NVIDIA Triton推理服务器

助力实时大型语言模型推理

此外，今日发布的最新NVIDIA Triton推理服务器中的多GPU、多节点特性，使大型语言模型推理工作负载能够实时在多个GPU和节点上扩展。这些模型需要的内存比单个GPU甚至是包含多个GPU的大型服务器所能提供的还要多，并且，实际应用对其推理实时性有着极高的要求。

通过Triton推理服务器，Megatron530B能够在两个NVIDIA DGX系统上运行，将处理时间从CPU服务器上的1分钟以上缩短到半秒，令实时应用部署大型语言模型成为可能。

全球范围开发的大规模定制语言模型

使用NVIDIA DGX SuperPOD构建大型复杂语言模型的早期客户包括SiDi、京东探索研究院和VinBrai。 SiDi是巴西的一家大型AI 研究和开发机构，已经采用三星虚拟助手，供全国 2 亿巴西葡萄牙语者使用。 SiDi 首席执行官John Yi 表示：“SiDi 团队在AI 虚拟助理和聊天机器人开发方面拥有丰富的经验，此类开发既需要强大的 AI 性能，也需要经过训练并适应人类语言不断变化的细微差别的专用软件。NVIDIA DGX SuperPOD 非常适合推动我们团队的先进工作，帮助我们为巴西的葡萄牙语者提供领先的AI 服务。” 京东探索研究院，是以供应链为基础的领先技术和服务提供商京东的研发部门，他们利用 NVIDIA DGX SuperPOD 开发NLP，应用于智能客户服务、智能零售、智能物流、物联网、医疗健康等领域。 VinBrain，越南的医疗健康 AI 公司，他们使用 DGX SuperPOD 为100 家医院的放射科医生和远程医疗医生开发和部署了一种临床语言模型。在这些医院，已有 600 多名医疗健康从业者使用该模型。

供应情况

企业可以利用今天同期发布的NVIDIA LaunchPad，免费体验开发和部署大型语言模型。行业组织可以申请加入抢先体验计划，了解用于训练大规模语言模型的 NVIDIA NeMo Megatron 加速框架。

NVIDIA Triton可从NVIDIA NGC目录中获得，该目录是GPU优化的AI软件中心，包括框架、工具包、预训练模型和Jupyter Notebooks，并可从Triton GitHub repository中获取开放源代码。

Triton也包含在NVIDIA AI Enterprise软件套件中，该套件由NVIDIA优化、认证和支持。企业可以使用该软件套件，在内部数据中心和私有云的主流加速服务器上运行语言模型推理。

NVIDIA DGX SuperPOD 和NVIDIA DGX 系统通过NVIDIA 的全球经销商提供，这些合作伙伴能够根据要求为符合条件的客户提供询价服务。

责任编辑：haq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

NVIDIA

NVIDIA

+关注

关注
14

文章
4981

浏览量
102997
AI

AI

+关注

关注
87

文章
30763

浏览量
268907
模型

模型

+关注

关注
1

文章
3229

浏览量
48813

原文标题：GTC21 | NVIDIA 借助超大规模 AI 语言模型为全球企业赋能

文章出处：【微信号：NVIDIA_China，微信公众号：NVIDIA英伟达】欢迎添加关注！文章转载请注明出处。

企业AI模型部署攻略

当下，越来越多的企业开始探索和实施AI模型，以提升业务效率和竞争力。然而，AI模型的部署并非易事，需要企业在多个层面进行细致的规划和准备。下

发表于 12-23 10:31 •61次阅读

大语言模型开发框架是什么

大语言模型开发框架是指用于训练、推理和部署大型语言模型

发表于 12-06 10:28 •115次阅读

大语言模型开发语言是什么

在人工智能领域，大语言模型（Large Language Models, LLMs）背后，离不开高效的开发语言和工具的支持。下面，AI部落小编为您介绍大

发表于 12-04 11:44 •99次阅读

云端语言模型开发方法

云端语言模型的开发是一个复杂而系统的过程，涉及数据准备、模型选择、训练优化、部署应用等多个环节。

发表于 12-02 10:48 •115次阅读

大语言模型如何开发

大语言模型的开发是一个复杂且细致的过程，涵盖了数据准备、模型架构设计、训练、微调和部署等多个阶段

发表于 11-04 10:14 •135次阅读

如何利用大型语言模型驱动的搜索为公司创造价值

大型语言模型LLMs具有自动化内容创建、提高内容质量及多样化的潜力，可重塑企业与信息的交互方式。通过利用LLMs，企业能提升工作效率，降低运

发表于 10-13 08:07 •168次阅读

NVIDIA NIM助力企业高效部署生成式AI模型

Canonical、Nutanix 和 Red Hat 等厂商的开源 Kubernetes 平台集成了 NVIDIA NIM，将允许用户通过 API 调用来大规模地部署大语言模型。

发表于 10-10 09:49 •385次阅读

Mistral AI与NVIDIA推出全新语言模型Mistral NeMo 12B

Mistral AI 和 NVIDIA 于近日共同发布了一款全新的领先语言模型Mistral NeMo 12B。开发者可以轻松定制和

发表于 07-27 11:04 •658次阅读

NVIDIA AI Foundry 为全球企业打造自定义 Llama 3.1 生成式 AI 模型

Retriever 微服务，以实现准确响应埃森哲率先使用新服务，为客户创建自定义 Llama 3.1 模型；Aramco、ATT 和优步。 Llama 3.1 多语种大语言模型

发表于 07-24 09:39 •706次阅读

富士通与Cohere合作,专注于开发和提供大型语言模型(LLM)

富士通（Fujitsu）与总部位于多伦多与旧金山的顶尖安全及数据隐私人工智能企业Cohere Inc.携手宣布建立深度战略合作伙伴关系，共同致力于大型语言模型（LLM）的创新与

发表于 07-16 16:55 •485次阅读

英伟达开源Nemotron-4 340B系列模型，助力大型语言模型训练

近日，英伟达宣布开源了一款名为Nemotron-4 340B的大型模型，这一壮举为开发者们打开了通往高性能

发表于 06-17 14:53 •561次阅读

NVIDIA 通过 Holoscan 为 NVIDIA IGX 提供企业软件支持

和部署边缘 AI 解决方案。 NVIDIA AI Enterprise-IGX 是一款全新产品，其为企业的边缘计算软件堆栈提供前所未有的性能、安全性和支持，简

发表于 06-04 10:21 •499次阅读

NVIDIA NIM 革命性地改变模型部署，将全球数百万开发者转变为生成式 AI 开发者

和测试 COMPUTEX—2024 年 6 月 2 日— NVIDIA 于今日宣布，全球 2,800 万开发者现可下载 NVIDIA NIM™——

发表于 06-03 09:12 •225次阅读

QSPI工作在QUAD模式下，擦除第一扇区成功，第二扇区失败为什么？

请教下，QSPI 为何工作在 QUAD模式下，擦除第一扇区所需要的时间基本上是OK，擦除第二扇区所需要的时间怎么会是 0ms ？？？

发表于 05-07 07:58

基于北京迅为iTOP-RK3588大语言模型部署测试

基于北京迅为iTOP-RK3588大语言模型部署测试

发表于 04-25 14:35 •942次阅读