0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用NVIDIA TensorRT提升Llama 3.2性能

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2024-11-20 09:59 次阅读

Llama 3.2 模型集扩展了 Meta Llama 开源模型集的模型阵容,包含视觉语言模型(VLM)、小语言模型(SLM)和支持视觉的更新版 Llama Guard 模型。与 NVIDIA 加速计算平台搭配使用,Llama 3.2 可为开发者、研究者和企业提供极具价值的新功能和优化,帮助实现生成式 AI 用例。

1B 和 3B 规模的 SLM 基于 NVIDIA Tensor Core GPU 训练而成,最适合用于在各种边缘设备上部署基于 Llama 的 AI 助手。11B 和 90B 规模的 VLM 支持文本和图像输入以及文本输出。凭借多模态支持,VLM 可以帮助开发者构建需要视觉基础、推理和理解能力的强大应用。例如,他们可以构建用于图像描述生成、图像转文本检索、视觉问答和文档问答等的 AI 智能体。除文本输入外,Llama Guard 模型现在还支持图像输入护栏。

Llama 3.2 模型架构是一种自动回归语言模型,使用了经过优化的 Transformer 架构。其指令调整版本使用了监督微调(SFT)和人类反馈强化学习(RLHF)技术,以符合人类对有用性和安全性的偏好。所有模型均支持 128K 词元的长上下文长度,并通过支持分组查询注意力(GQA)针对推理进行了优化。

NVIDIA 已对 Llama 3.2 模型集进行了优化,使其能够在全球数百万个 GPU 上实现高吞吐量和低延迟,其中包括数据中心、搭载NVIDIA RTX的本地工作站和搭载NVIDIA Jetson的边缘应用。本文将介绍针对硬件和软件的优化、定制和易于部署的功能。

使用 NVIDIA TensorRT

提升 Llama 3.2 的性能

为了提供空前吞吐量和最佳终端用户体验,同时降低成本和延迟,NVIDIA 正在加速 Llama 3.2 模型集。NVIDIA TensorRT包含了适用于高性能深度学习推理的 TensorRT 和 TensorRT-LLM 程序库。

Llama 3.2 1B 和 Llama 3.2 3B 模型在 TensorRT-LLM 中使用按比例旋转位置嵌入(RoPE)技术和其他几项优化措施(包括 KV 缓存和飞行批处理)获得加速,以支持长上下文。

Llama 3.2 11B 和 Llama 3.2 90B 模型均为多模态模型,并且包含一个视觉编码器和一个文本解码器。视觉编码器通过将模型导出为 ONNX 图并构建 TensorRT 引擎获得加速。ONNX 导出创建了一个包含内置运算符和标准数据类型的标准模型定义,主要用于推理。TensorRT 利用 ONNX 图,通过构建 TensorRT 引擎针对目标 GPU 优化模型。这种引擎能够提供各种硬件级优化,通过层和张量融合以及内核自动调整最大程度地提高 NVIDIA GPU 的利用率。

借助 TensorRT-LLM 支持的交叉注意力机制,视觉编码器的视觉信息被融合到 Llama 文本解码器中。这样一来,VLM 就能联系输入的文本进行视觉推理和理解,从而高效率地生成文本。

使用 NVIDIA NIM

轻松部署生成式 AI 解决方案

用户可使用NVIDIA NIM微服务将 TensorRT 优化直接部署到生产中。NIM 微服务加速了生成式 AI 模型在所有 NVIDIA 加速基础设施上的部署,包括云、数据中心和工作站等。

NIM 微服务支持 Llama 3.2 90B Vision Instruct,Llama 3.2 11B Vision Instruct,Llama 3.2 3B Instruct 和 Llama 3.2 1B Instruct 在生产中的部署。NIM 为生成式 AI 工作负载提供了经过简化的管理和编排、标准应用编程接口(API)以及带有生产就绪容器的企业级支持。世界各地的开发者、研究者和企业对整个生态系统提供了强大且日益增强的支持,目前已有超过 175 家合作伙伴将其解决方案与 NVIDIA NIM 微服务集成,他们可以从生成式 AI 应用投资中取得最大的回报。

使用 NVIDIA AI Foundry 和 NVIDIA NeMo

定制和评估 Llama 3.2 模型

NVIDIA AI Foundry提供了一个端到端的 Llama 3.2 模型定制平台,使用户能够获取先进的 AI 工具、计算资源和 AI 专业知识。定制模型在专有数据上进行微调,使企业能够在特定领域的任务中实现更高的性能和准确性,从而获得竞争优势。

开发者可以借助NVIDIA NeMo整理他们的训练数据,充分利用 LoRA、SFT、DPO、RLHF 等先进的调校技术定制 Llama 3.2 模型、评估准确性和添加护栏,以此保证模型提供适当的回答。AI Foundry 在 NVIDIA DGX Cloud 上提供专用容量并得到 NVIDIA AI 专家的支持。输出被打包成 NVIDIA NIM 推理微服务的定制 Llama 3.2 模型,该模型可部署在任何地方。

使用 NVIDIA RTX 和

NVIDIA Jetson 扩展本地推理

如今,Llama 3.2 模型已在全球超过 1 亿台 NVIDIA RTX PC 和工作站上进行了优化。为了部署在 Windows 中,NVIDIA 已对这套模型进行了优化,使其能够利用 ONNX-GenAI 运行时和 DirectML 后端实现高效运行。

全新的 VLM 和 SLM 为 NVIDIA RTX 系统解锁了新的功能。为了进行演示,我们创建了一个多模态检索增强生成(RAG)管线示例。该管线结合了文本和可视化数据处理(例如图像、统计图和图表),具有更强大的信息检索和生成功能。

请注意,您需要一个配备 NVIDIA RTX 专业 GPU且显存在 30GB 以上的 Linux 工作站。

SLM 专为边缘设备本地部署而定制,采用了蒸馏、剪枝和量化等技术降低显存、延迟和计算要求,同时保持了重点应用领域的准确性。如要下载 Llama 3.2 1B 和 3B SLM 并将其部署到 GPU 推理能力经过优化且具有 INT4/FP8 量化功能的 Jetson 上,请参见NVIDIA Jetson AI Lab 上的 SLM 教程

多模态模型为视频分析和机器人领域带来了独一无二的视觉功能,因此在边缘应用中的作用越来越突出。

推动社区 AI 模型的发展

作为积极的开源贡献者,NVIDIA 致力于优化社区软件,帮助用户应对最严峻的挑战。开源 AI 模型还能促进公开透明,使用户能够大范围地分享 AI 安全性和弹性方面的工作成果。

借助 Hugging Face 推理即服务功能,开发者能够快速部署领先的大语言模型(LLM),例如在 NVIDIA DGX Cloud 上运行且通过 NVIDIA NIM 微服务优化的 Llama 3 模型集。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4929

    浏览量

    102787
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4700

    浏览量

    128672
  • AI
    AI
    +关注

    关注

    87

    文章

    30072

    浏览量

    268331
  • 模型
    +关注

    关注

    1

    文章

    3158

    浏览量

    48700

原文标题:从边缘到云端部署经加速的 Llama 3.2

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    TensorRT-LLM低精度推理优化

    本文将分享 TensorRT-LLM 中低精度量化内容,并从精度和速度角度对比 FP8 与 INT8。首先介绍性能,包括速度和精度。其次,介绍量化工具 NVIDIA TensorRT
    的头像 发表于 11-19 14:29 129次阅读
    <b class='flag-5'>TensorRT</b>-LLM低精度推理优化

    Meta发布Llama 3.2量化版模型

    近日,Meta在开源Llama 3.2的1B与3B模型后,再次为人工智能领域带来了新进展。10月24日,Meta正式推出了这两个模型的量化版本,旨在进一步优化模型性能,拓宽其应用场景。
    的头像 发表于 10-29 11:05 300次阅读

    Llama 3 性能评测与分析

    1. 设计与构建质量 Llama 3的设计延续了其前代产品的简洁风格,同时在细节上进行了优化。机身采用了轻质材料,使得整体重量得到了有效控制,便于携带。此外,Llama 3的表面处理工艺也有所提升
    的头像 发表于 10-27 14:30 184次阅读

    使用OpenVINO 2024.4在算力魔方上部署Llama-3.2-1B-Instruct模型

    前面我们分享了《三步完成Llama3在算力魔方的本地量化和部署》。2024年9月25日,Meta又发布了Llama3.2:一个多语言大型语言模型(LLMs)的集合。
    的头像 发表于 10-12 09:39 445次阅读
    使用OpenVINO 2024.4在算力魔方上部署<b class='flag-5'>Llama-3.2</b>-1B-Instruct模型

    亚马逊云科技上线Meta Llama 3.2模型

    亚马逊云科技近日宣布,Meta公司的新一代模型Llama 3.2已在其平台上正式上线。该模型包括Meta首款多模态模型,现已在Amazon Bedrock和Amazon SageMaker中全面可用。
    的头像 发表于 10-11 18:08 417次阅读

    亚马逊云科技正式上线Meta Llama 3.2模型

    亚马逊云科技宣布,Meta的新一代模型Llama 3.2,包括其首款多模态模型,现已在Amazon Bedrock和Amazon SageMaker中正式可用。
    的头像 发表于 10-11 09:20 446次阅读

    Meta发布多模态LLAMA 3.2人工智能模型

    Meta Platforms近日宣布了一项重要技术突破,成功推出了多模态LLAMA 3.2人工智能模型。这一创新模型不仅能够深度解析文本信息,还实现了对图像内容的精准理解,标志着Meta在AI多模态处理领域迈出了坚实的一步。
    的头像 发表于 09-27 11:44 359次阅读

    魔搭社区借助NVIDIA TensorRT-LLM提升LLM推理效率

    “魔搭社区是中国最具影响力的模型开源社区,致力给开发者提供模型即服务的体验。魔搭社区利用NVIDIA TensorRT-LLM,大大提高了大语言模型的推理性能,方便了模型应用部署,提高了大模型产业应用效率,更大规模地释放大模型的
    的头像 发表于 08-23 15:48 372次阅读

    NVIDIA AI Foundry 为全球企业打造自定义 Llama 3.1 生成式 AI 模型

    借助 NVIDIA AI Foundry,企业和各国现在能够使用自有数据与 Llama 3.1 405B 和 NVIDIA Nemotron 模型配对,来构建“超级模型” NVIDIA
    发表于 07-24 09:39 678次阅读
    <b class='flag-5'>NVIDIA</b> AI Foundry 为全球企业打造自定义 <b class='flag-5'>Llama</b> 3.1 生成式 AI 模型

    NVIDIA加速微软最新的Phi-3 Mini开源语言模型

    NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微软最新的 Phi-3 Mini 开源语言模型。TensorRT-LLM 是一个开源库,用于优化从 PC 到云端的
    的头像 发表于 04-28 10:36 478次阅读

    利用NVIDIA组件提升GPU推理的吞吐

    本实践中,唯品会 AI 平台与 NVIDIA 团队合作,结合 NVIDIA TensorRTNVIDIA Merlin HierarchicalKV(HKV)将推理的稠密网络和热
    的头像 发表于 04-20 09:39 632次阅读

    英伟达H200性能显著提升,年内将推出B200新一代AI半导体

    同一天,NVIDIA发布了H200的性能评估报告,表明在与美国Meta公司的大型语言模型——LLM“Llama 2”的对比中,H200使AI导出答案的处理速度最高提升了45%。
    的头像 发表于 04-01 09:36 1329次阅读

    利用NVIDIA产品技术组合提升用户体验

    本案例通过利用NVIDIA TensorRT-LLM加速指令识别深度学习模型,并借助NVIDIA Triton推理服务器在NVIDIA V100 GPU上进行高效部署,帮助必优科技的文
    的头像 发表于 01-17 09:30 646次阅读

    Torch TensorRT是一个优化PyTorch模型推理性能的工具

    那么,什么是Torch TensorRT呢?Torch是我们大家聚在一起的原因,它是一个端到端的机器学习框架。而TensorRT则是NVIDIA的高性能深度学习推理软件工具包。Torc
    的头像 发表于 01-09 16:41 1504次阅读
    Torch <b class='flag-5'>TensorRT</b>是一个优化PyTorch模型推理<b class='flag-5'>性能</b>的工具

    【飞腾派4G版免费试用】仙女姐姐的嵌入式实验室之五~LLaMA.cpp及3B“小模型”OpenBuddy-StableLM-3B

    预训练语言模型。该模型最大的特点就是基于以较小的参数规模取得了优秀的性能,根据官网提供的信息,LLaMA的模型包含4个版本,最小的只有70亿参数,最大的650亿参数,但是其性能相比较之前的OPT
    发表于 12-22 10:18