0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA全面加快Meta Llama 3的推理速度

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2024-04-23 09:52 次阅读

Meta 最新开源大语言模型采用 NVIDIA 技术构建,其经过优化后可在云、数据中心、边缘和 PC 的 NVIDIA GPU 上运行。

NVIDIA 发布对其所有平台的优化措施,此举将加快最新一代大语言模型(LLM)Meta Llama 3 的运行速度。

在与 NVIDIA 加速计算相结合后,该开源模型能够使开发者、研究者和企业在各种应用中负责任地进行创新。

在 NVIDIA AI 上进行训练

Meta 工程师在搭载 24,576 个 NVIDIA Tensor Core GPU 的计算机集群上对 Llama 3 进行了训练,这些 GPU 通过 RoCE 和 NVIDIA Quantum-2 InfiniBand 网络相连。

为进一步推动生成式 AI 的发展,Meta 最近介绍了将其基础设施扩展到 35 万个 NVIDIA GPU 的计划。

将 Llama 3 投入使用

通过 NVIDIA GPU 加速的各版本 Llama 3 目前可用于云、数据中心、边缘和 PC。

开发者可通过浏览器在 ai.nvidia.com 上试用 Llama 3。该模型被打包成一项带有标准应用编程接口NVIDIA NIM 微服务,可以部署在任何位置。

企业可使用 NVIDIA NeMo 和自己的数据对 Llama 3 进行微调。NeMo 是一个 LLM 开源框架,通过安全、受支持的 NVIDIA AI Enterprise 平台提供。自定义模型可使用 NVIDIA TensorRT-LLM 进行推理性能优化,并通过 NVIDIA Triton 推理服务器进行部署。

在设备和 PC 上运行 Llama 3

Llama 3 还可在用于机器人和边缘计算设备的 NVIDIA Jetson Orin 上运行,创建类似 Jetson AI Lab 中的交互式代理。

此外,用于工作站和 PC 的 NVIDIA RTXGeForce RTX GPU 也能加快 Llama 3 的推理速度。这些系统将开发者的目标范围扩大到全球超过 1 亿台由 NVIDIA 提供加速的系统。

利用 Llama 3 获得最佳性能

为聊天机器人部署 LLM 的最佳实践包括实现低延迟、快速读取和最佳 GPU 利用率之间的平衡,并以此来降低成本。

这种服务需要以用户阅读速度的两倍(约为每秒 10 个 token)提供 token(大致相当于字词)。

如果在使用 700 亿参数级 Llama 3 进行的初步测试中应用这些指标,那么单个 NVIDIA Tensor Core GPU 每秒可生成约 3,000 个 token,足以同时为约 300 名用户提供服务。

这意味着一台搭载 8 个GPU 的 NVIDIA HGX 服务器每秒可提供 24,000 个 token,相当于同时支持 2,400 多名用户,进一步降低了成本。

在边缘设备方面,80 亿参数版本的 Llama 3 在 Jetson AGX Orin 上每秒可生成多达 40 个 token,在 Jetson Orin Nano 上每秒可生成多达 15 个 token。

推进社区模型的发展

作为一个积极的开源贡献者,NVIDIA 致力于优化社区软件,帮助用户应对最严峻的挑战。开源模型还能提高 AI 的透明度,让广大用户享受到 AI 安全性和弹性方面的工作成果。


审核编辑:刘清
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4862

    浏览量

    102755
  • GPU芯片
    +关注

    关注

    1

    文章

    303

    浏览量

    5772
  • 边缘计算
    +关注

    关注

    22

    文章

    3054

    浏览量

    48549
  • 大模型
    +关注

    关注

    2

    文章

    2298

    浏览量

    2408

原文标题:NVIDIA 全面加快 Meta Llama 3 的推理速度

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    Meta发布Llama 3.2量化版模型

    近日,Meta在开源Llama 3.2的1B与3B模型后,再次为人工智能领域带来了新进展。10月24日,Meta正式推出了这两个模型的量化版本,旨在进一步优化模型性能,拓宽其应用场景。
    的头像 发表于 10-29 11:05 291次阅读

    亚马逊云科技上线Meta Llama 3.2模型

    亚马逊云科技近日宣布,Meta公司的新一代模型Llama 3.2已在其平台上正式上线。该模型包括Meta首款多模态模型,现已在Amazon Bedrock和Amazon SageMaker中
    的头像 发表于 10-11 18:08 413次阅读

    亚马逊云科技正式上线Meta Llama 3.2模型

    亚马逊云科技宣布,Meta的新一代模型Llama 3.2,包括其首款多模态模型,现已在Amazon Bedrock和Amazon SageMaker中正式可用。
    的头像 发表于 10-11 09:20 441次阅读

    英伟达推出全新NVIDIA AI Foundry服务和NVIDIA NIM推理微服务

    NVIDIA 宣布推出全新 NVIDIA AI Foundry 服务和 NVIDIA NIM 推理微服务,与同样刚推出的 Llama 3.1
    的头像 发表于 07-25 09:48 660次阅读

    Meta发布全新开源大模型Llama 3.1

    科技巨头Meta近期震撼发布了其最新的开源人工智能(AI)模型——Llama 3.1,这一举措标志着Meta在AI领域的又一重大突破。Meta创始人马克·扎克伯格亲自站台,盛赞
    的头像 发表于 07-24 18:25 1389次阅读

    生成式AI医疗崭露头角:Meta Llama 3 NIM引数十公司关注

    Meta推出的强大开源大语言模型——Meta Llama 3,运用NVIDIA加速计算训练与优化,助力医疗健康及生命科学领域工作流程的显著提
    的头像 发表于 06-07 15:25 1496次阅读

    Meta Llama 3基础模型现已在亚马逊云科技正式可用

    亚马逊云科技近日宣布,Meta公司最新发布的两款Llama 3基础模型——Llama 3 8B和Llam
    的头像 发表于 05-09 10:39 367次阅读

    高通支持Meta Llama 3在骁龙终端上运行

    高通与Meta携手合作,共同推动MetaLlama 3大语言模型(LLM)在骁龙驱动的各类终端设备上实现高效运行。此次合作致力于优化Llama
    的头像 发表于 05-09 10:37 398次阅读

    英特尔AI产品助力其运行Meta新一代大语言模型Meta Llama 3

    英特尔丰富的AI产品——面向数据中心的至强处理器,边缘处理器及AI PC等产品为开发者提供最新的优化,助力其运行Meta新一代大语言模型Meta Llama 3
    的头像 发表于 04-28 11:16 578次阅读

    高通与Meta合作优化Meta Llama 3,实现终端侧运行

    高通技术公司高级副总裁兼技术规划和边缘解决方案业务总经理马德嘉表示:“我们对Meta开放Meta Llama 3的策略表示赞赏,高通与Meta
    的头像 发表于 04-22 09:51 419次阅读

    Llama 3 王者归来,Airbox 率先支持部署

    模型。无论是在代码生成、复杂推理,还是在遵循指令和可视化想法方面,Llama3都实现了全面领先。该模型在以下五个基准测试中均表现出色:MMLU(学科知识理解)GP
    的头像 发表于 04-22 08:33 579次阅读
    <b class='flag-5'>Llama</b> <b class='flag-5'>3</b> 王者归来,Airbox 率先支持部署

    百度智能云国内首家支持Llama3全系列训练推理

    4月18日,Meta 正式发布 Llama 3,包括8B 和 70B 参数的大模型,官方号称有史以来最强大的开源大模型。
    的头像 发表于 04-20 09:20 368次阅读
    百度智能云国内首家支持<b class='flag-5'>Llama3</b>全系列训练<b class='flag-5'>推理</b>!

    高通支持Meta Llama 3大语言模型在骁龙旗舰平台上实现终端侧执行

    高通和Meta合作优化Meta Llama 3大语言模型,支持在未来的骁龙旗舰平台上实现终端侧执行。
    的头像 发表于 04-20 09:13 448次阅读

    Meta推出最强开源模型Llama 3 要挑战GPT

    Meta推出最强开源模型Llama 3 要挑战GPT Facebook母公司Meta Platforms(META.US)推出了开源AI大模
    的头像 发表于 04-19 17:00 796次阅读

    【飞腾派4G版免费试用】仙女姐姐的嵌入式实验室之五~LLaMA.cpp及3B“小模型”OpenBuddy-StableLM-3B

    和语法规则,将这些词汇串联起来,形成一个完整的回答 关于LLaMALLaMA.cpp LLaMA全称是Large Language Model Meta AI,是由
    发表于 12-22 10:18