NVIDIA全面加快Meta Llama 3的推理速度-电子发烧友网

Meta 最新开源大语言模型采用 NVIDIA 技术构建，其经过优化后可在云、数据中心、边缘和 PC 的 NVIDIA GPU 上运行。

NVIDIA 发布对其所有平台的优化措施，此举将加快最新一代大语言模型（LLM）Meta Llama 3 的运行速度。

在与 NVIDIA 加速计算相结合后，该开源模型能够使开发者、研究者和企业在各种应用中负责任地进行创新。

在 NVIDIA AI 上进行训练

Meta 工程师在搭载 24,576 个 NVIDIA Tensor Core GPU 的计算机集群上对 Llama 3 进行了训练，这些 GPU 通过 RoCE 和 NVIDIA Quantum-2 InfiniBand 网络相连。

为进一步推动生成式 AI 的发展，Meta 最近介绍了将其基础设施扩展到 35 万个 NVIDIA GPU 的计划。

将 Llama 3 投入使用

通过 NVIDIA GPU 加速的各版本 Llama 3 目前可用于云、数据中心、边缘和 PC。

开发者可通过浏览器在 ai.nvidia.com 上试用 Llama 3。该模型被打包成一项带有标准应用编程接口的 NVIDIA NIM 微服务，可以部署在任何位置。

企业可使用 NVIDIA NeMo 和自己的数据对 Llama 3 进行微调。NeMo 是一个 LLM 开源框架，通过安全、受支持的 NVIDIA AI Enterprise 平台提供。自定义模型可使用 NVIDIA TensorRT-LLM 进行推理性能优化，并通过 NVIDIA Triton 推理服务器进行部署。

在设备和 PC 上运行 Llama 3

Llama 3 还可在用于机器人和边缘计算设备的 NVIDIA Jetson Orin 上运行，创建类似 Jetson AI Lab 中的交互式代理。

此外，用于工作站和 PC 的 NVIDIA RTX 和 GeForce RTX GPU 也能加快 Llama 3 的推理速度。这些系统将开发者的目标范围扩大到全球超过 1 亿台由 NVIDIA 提供加速的系统。

利用 Llama 3 获得最佳性能

为聊天机器人部署 LLM 的最佳实践包括实现低延迟、快速读取和最佳 GPU 利用率之间的平衡，并以此来降低成本。

这种服务需要以用户阅读速度的两倍（约为每秒 10 个 token）提供 token（大致相当于字词）。

如果在使用 700 亿参数级 Llama 3 进行的初步测试中应用这些指标，那么单个 NVIDIA Tensor Core GPU 每秒可生成约 3,000 个 token，足以同时为约 300 名用户提供服务。

这意味着一台搭载 8 个GPU 的 NVIDIA HGX 服务器每秒可提供 24,000 个 token，相当于同时支持 2,400 多名用户，进一步降低了成本。

在边缘设备方面，80 亿参数版本的 Llama 3 在 Jetson AGX Orin 上每秒可生成多达 40 个 token，在 Jetson Orin Nano 上每秒可生成多达 15 个 token。

推进社区模型的发展

作为一个积极的开源贡献者，NVIDIA 致力于优化社区软件，帮助用户应对最严峻的挑战。开源模型还能提高 AI 的透明度，让广大用户享受到 AI 安全性和弹性方面的工作成果。

审核编辑：刘清

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

NVIDIA

NVIDIA

+关注

关注
14

文章
5093

浏览量
104035
GPU芯片

GPU芯片

+关注

关注
1

文章
303

浏览量
5925
边缘计算

边缘计算

+关注

关注
22

文章
3139

浏览量
49691
大模型

大模型

+关注

关注
2

文章
2714

浏览量
3318

原文标题：NVIDIA 全面加快 Meta Llama 3 的推理速度

文章出处：【微信号：NVIDIA-Enterprise，微信公众号：NVIDIA英伟达企业解决方案】欢迎添加关注！文章转载请注明出处。

使用NVIDIA TensorRT提升Llama 3.2性能

Llama 3.2 模型集扩展了 Meta Llama 开源模型集的模型阵容，包含视觉语言模型（VLM)、小语言模型（SLM）和支持视觉的更新版 Llama Guard 模型。与

发表于 11-20 09:59 •360次阅读

Meta发布Llama 3.2量化版模型

近日，Meta在开源Llama 3.2的1B与3B模型后，再次为人工智能领域带来了新进展。10月24日，Meta正式推出了这两个模型的量化版本，旨在进一步优化模型性能，拓宽其应用场景。

发表于 10-29 11:05 •515次阅读

亚马逊云科技上线Meta Llama 3.2模型

亚马逊云科技近日宣布，Meta公司的新一代模型Llama 3.2已在其平台上正式上线。该模型包括Meta首款多模态模型，现已在Amazon Bedrock和Amazon SageMaker中全

发表于 10-11 18:08 •525次阅读

亚马逊云科技正式上线Meta Llama 3.2模型

亚马逊云科技宣布，Meta的新一代模型Llama 3.2，包括其首款多模态模型，现已在Amazon Bedrock和Amazon SageMaker中正式可用。

发表于 10-11 09:20 •588次阅读

英伟达推出全新NVIDIA AI Foundry服务和NVIDIA NIM推理微服务

NVIDIA 宣布推出全新 NVIDIA AI Foundry 服务和 NVIDIA NIM 推理微服务，与同样刚推出的 Llama 3.1

发表于 07-25 09:48 •816次阅读

Meta发布全新开源大模型Llama 3.1

科技巨头Meta近期震撼发布了其最新的开源人工智能（AI）模型——Llama 3.1，这一举措标志着Meta在AI领域的又一重大突破。Meta创始人马克·扎克伯格亲自站台，盛赞

发表于 07-24 18:25 •1526次阅读

生成式AI医疗崭露头角:Meta Llama 3 NIM引数十公司关注

Meta推出的强大开源大语言模型——Meta Llama 3，运用NVIDIA加速计算训练与优化，助力医疗健康及生命科学领域工作流程的显著提

发表于 06-07 15:25 •1634次阅读

Meta Llama 3基础模型现已在亚马逊云科技正式可用

亚马逊云科技近日宣布，Meta公司最新发布的两款Llama 3基础模型——Llama 3 8B和Llam

发表于 05-09 10:39 •469次阅读

高通支持Meta Llama 3在骁龙终端上运行

高通与Meta携手合作，共同推动Meta的Llama 3大语言模型（LLM）在骁龙驱动的各类终端设备上实现高效运行。此次合作致力于优化Llama

发表于 05-09 10:37 •493次阅读

英特尔AI产品助力其运行Meta新一代大语言模型Meta Llama 3

英特尔丰富的AI产品——面向数据中心的至强处理器，边缘处理器及AI PC等产品为开发者提供最新的优化，助力其运行Meta新一代大语言模型Meta Llama 3

发表于 04-28 11:16 •731次阅读

高通与Meta合作优化Meta Llama 3，实现终端侧运行

高通技术公司高级副总裁兼技术规划和边缘解决方案业务总经理马德嘉表示：“我们对Meta开放Meta Llama 3的策略表示赞赏，高通与Meta

发表于 04-22 09:51 •546次阅读

Llama 3 王者归来，Airbox 率先支持部署

模型。无论是在代码生成、复杂推理，还是在遵循指令和可视化想法方面，Llama3都实现了全面领先。该模型在以下五个基准测试中均表现出色：MMLU（学科知识理解）GP

发表于 04-22 08:33 •756次阅读

百度智能云国内首家支持Llama3全系列训练推理！

4月18日，Meta 正式发布 Llama 3，包括8B 和 70B 参数的大模型，官方号称有史以来最强大的开源大模型。

发表于 04-20 09:20 •461次阅读

高通支持Meta Llama 3大语言模型在骁龙旗舰平台上实现终端侧执行

高通和Meta合作优化Meta Llama 3大语言模型，支持在未来的骁龙旗舰平台上实现终端侧执行。

发表于 04-20 09:13 •611次阅读

Meta推出最强开源模型Llama 3 要挑战GPT

Meta推出最强开源模型Llama 3 要挑战GPT Facebook母公司Meta Platforms（META.US）推出了开源AI大模

发表于 04-19 17:00 •932次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

NVIDIA全面加快Meta Llama 3的推理速度

评论

使用NVIDIA TensorRT提升Llama 3.2性能

Meta发布Llama 3.2量化版模型

亚马逊云科技上线Meta Llama 3.2模型

亚马逊云科技正式上线Meta Llama 3.2模型

英伟达推出全新NVIDIA AI Foundry服务和NVIDIA NIM推理微服务

Meta发布全新开源大模型Llama 3.1

生成式AI医疗崭露头角:Meta Llama 3 NIM引数十公司关注

Meta Llama 3基础模型现已在亚马逊云科技正式可用

高通支持Meta Llama 3在骁龙终端上运行

英特尔AI产品助力其运行Meta新一代大语言模型Meta Llama 3

高通与Meta合作优化Meta Llama 3，实现终端侧运行

Llama 3 王者归来，Airbox 率先支持部署

百度智能云国内首家支持Llama3全系列训练推理！

高通支持Meta Llama 3大语言模型在骁龙旗舰平台上实现终端侧执行

Meta推出最强开源模型Llama 3 要挑战GPT