魔搭社区借助NVIDIA TensorRT-LLM提升LLM推理效率-电子发烧友网

“魔搭社区是中国最具影响力的模型开源社区，致力给开发者提供模型即服务的体验。魔搭社区利用NVIDIA TensorRT-LLM，大大提高了大语言模型的推理性能，方便了模型应用部署，提高了大模型产业应用效率，更大规模地释放大模型的应用价值。”

——周文猛，魔搭社区技术负责人，阿里巴巴通义实验室技术总监

魔搭上线 NVIDIA TensorRT-LLM

支持开源LLM 推理加速

魔搭社区于 2022 年 11 月初创建，首次在业界提出了 “模型即服务” (MaaS, Model as a Service) 的理念。在过去一年半的时间里，MaaS 这一理念不仅实现了技术落地，也被行业广泛接纳，并成为继 IaaS、PaaS、SaaS 服务的又一新的技术范式。

2023 年 7 月，Meta 宣布开源 Llama 2 模型，改变了整个大语言模型 (LLM) 行业的竞争格局。通过繁荣的开源生态，大语言模型迎来了群策群力的技术迭代和突破。

国内外优秀的大语言模型，如 ChatGLM、零一万物、书生·浦语系列、通义千问等，都将魔搭社区作为开源模型首发平台。魔搭社区成为了大模型发展的技术风向标，在中国的开发者群体中，形成了广泛的 “找模型，用模型，上魔搭社区” 的观念认同，从而建成了中国最大开源模型社区。

魔搭社区现在上线了 NVIDIA TensorRT-LLM，TensorRT-LLM 提供了易于使用的应用程序编程接口 (API)，以定义和运行大语言模型，支持社区上的各类开源大语言模型 (LLM) 的推理加速。开发者仅通过简短几行代码即可将优化的模型部署到 GPU 上。

目前 NVIDIA TensorRT-LLM 在魔搭社区上已支持的模型类型和推理精度，几乎涵盖了所有主流的大语言/多模态模型以及常用的量化方法，包括 FP32、FP16、BF16、INT8 和 INT4，适用于不同的环境。

LLM 推理面临的挑战

计算资源消耗巨大：开源大语言模型参数规模越来越大，比如 Qwen1.5-110B 参数规模高达千亿级，对计算资源的需求庞大。在没有优化的情况下直接部署，不仅成本高昂，而且对硬件要求高。

推理延迟高：大语言模型的推理时间长，尤其是在实时交互式应用中，如聊天机器人、语音助手等，高延迟会严重影响用户体验。

能效比低：计算密集型工作流意味着更高的能耗，这对于追求绿色计算和可持续发展的现代数据中心而言是一个重要问题。

部署复杂度高：模型优化、适配不同硬件平台、以及持续维护升级等都是挑战，尤其对于非专业用户来说，部署一个高性能的语言模型服务并不容易。

NVIDIA TensorRT-LLM

如何提升 LLM 推理效率

极致性能优化：NVIDIA TensorRT-LLM 是基于 NVIDIA TensorRT API 生态系统构建的，专为大规模语言模型优化的推理引擎。它利用 GPU 的强大并行计算能力，通过算法优化、层融合、量化等技术显著减少模型推理所需的计算量和内存占用，从而提升推理速度，降低延迟。

高效率与低功耗：通过精心设计的优化策略，TensorRT-LLM 能够在不牺牲模型精度的前提下，大幅提高能效比，这对于数据中心的成本控制和环境友好至关重要。

简化部署流程：提供一键式的模型优化与部署工具，简化了从训练到推理的整个流程。即便是复杂的模型结构，开发者也能轻松地将其部署到 GPU 上，大大降低了技术门槛，加速了产品上市时间。

广泛兼容性与可扩展性：支持魔搭社区的多种主流的深度学习框架和开源模型架构，如 Transformer 系列模型。TensorRT-LLM 设计灵活，便于未来适应更多先进的模型技术和算法创新的更新，保持技术领先性。

在 NVIDIA TensorRT-LLM 和NVIDIA Triton 推理服务器的加持下，魔搭社区正在为开发者提供更为全面、高效、快捷的模型推理部署方案。未来，魔搭社区计划将在生成式 AI 的模型和软件加速库层面，与 NVIDIA 相关团队继续开展合作，推动大语言模型的广泛应用和落地。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

NVIDIA

NVIDIA

+关注

关注
14

文章
5075

浏览量
103675
模型

模型

+关注

关注
1

文章
3298

浏览量
49188
LLM

LLM

+关注

关注
0

文章
298

浏览量
395

原文标题：魔搭社区利用 NVIDIA TensorRT-LLM 加速开源大语言模型推理

文章出处：【微信号：NVIDIA-Enterprise，微信公众号：NVIDIA英伟达企业解决方案】欢迎添加关注！文章转载请注明出处。

新品| LLM630 Compute Kit，AI 大语言模型推理开发平台

LLM630LLM推理，视觉识别，可开发，灵活扩展···LLM630ComputeKit是一款AI大语言模型推理开发平台，专为边缘计算和智能交互应用而设计。该套件的主板搭载爱芯AX63

发表于 01-17 18:48 •131次阅读

新品| <b class='flag-5'>LLM</b>630 Compute Kit，AI 大语言模型<b class='flag-5'>推理</b>开发平台

京东广告生成式召回基于 NVIDIA TensorRT-LLM 的推理加速实践

、个性化召回、深度召回等），以召回大量候选商品。随后，系统通过相对简单的粗排模型对候选集进行初步筛选，缩小候选范围，最后通过精排和重排模型，确定最终返回给用户的推荐结果。随着大语言模型（LLM）在推荐系统中的应用，生成

发表于 01-14 15:17 •142次阅读

在NVIDIA TensorRT-LLM中启用ReDrafter的一些变化

Recurrent Drafting (简称 ReDrafter) 是苹果公司为大语言模型 (LLM) 推理开发并开源的一种新型推测解码技术，该技术现在可与 NVIDIA TensorRT-L

发表于 12-25 17:31 •255次阅读

解锁NVIDIA TensorRT-LLM的卓越性能

NVIDIA TensorRT-LLM 是一个专为优化大语言模型 (LLM) 推理而设计的库。它提供了多种先进的优化技术，包括自定义 Attention Kernel、Inflight

发表于 12-17 17:47 •276次阅读

NVIDIA TensorRT-LLM Roadmap现已在GitHub上公开发布

感谢众多用户及合作伙伴一直以来对NVIDIA TensorRT-LLM的支持。TensorRT-LLM 的 Roadmap 现已在 GitHub 上公开发布！

发表于 11-28 10:43 •337次阅读

什么是LLM？LLM在自然语言处理中的应用

所未有的精度和效率处理和生成自然语言。 LLM的基本原理 LLM基于深度学习技术，尤其是变换器（Transformer）架构。变换器模型因其自注意力（Self-Attention）机制而闻名，这种机制使得模型能够捕捉文本中的长距

发表于 11-19 15:32 •868次阅读

TensorRT-LLM低精度推理优化

本文将分享 TensorRT-LLM 中低精度量化内容，并从精度和速度角度对比 FP8 与 INT8。首先介绍性能，包括速度和精度。其次，介绍量化工具 NVIDIA TensorRT Model

发表于 11-19 14:29 •427次阅读

NVIDIA Nemotron-4 340B模型帮助开发者生成合成训练数据

Nemotron-4 340B 是针对 NVIDIA NeMo 和 NVIDIA TensorRT-LLM 优化的模型系列，该系列包含最先进的指导和奖励模型，以及一个用于生成式 AI 训练的数据集。

发表于 09-06 14:59 •379次阅读

LLM大模型推理加速的关键技术

LLM（大型语言模型）大模型推理加速是当前人工智能领域的一个研究热点，旨在提高模型在处理复杂任务时的效率和响应速度。以下是对LLM大模型推理

发表于 07-24 11:38 •1001次阅读

LLM模型的应用领域

在本文中，我们将深入探讨LLM（Large Language Model，大型语言模型）的应用领域。LLM是一种基于深度学习的人工智能技术，它能够理解和生成自然语言文本。近年来，随着计算能力的提高

发表于 07-09 09:52 •716次阅读

什么是LLM？LLM的工作原理和结构

随着人工智能技术的飞速发展，大型语言模型（Large Language Model，简称LLM）逐渐成为自然语言处理（NLP）领域的研究热点。LLM以其强大的文本生成、理解和推理能力，在文本

发表于 07-02 11:45 •8921次阅读

NVIDIA加速微软最新的Phi-3 Mini开源语言模型

NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微软最新的 Phi-3 Mini 开源语言模型。TensorRT-LLM 是一个开源库，用于优化从 PC 到云端的

发表于 04-28 10:36 •631次阅读

利用NVIDIA组件提升GPU推理的吞吐

本实践中，唯品会 AI 平台与 NVIDIA 团队合作，结合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV（HKV）将

发表于 04-20 09:39 •820次阅读

自然语言处理应用LLM推理优化综述

当前，业界在将传统优化技术引入 LLM 推理的同时，同时也在探索从大模型自回归解码特点出发，通过调整推理过程和引入新的模型结构来进一步提升推理

发表于 04-10 11:48 •679次阅读

基于NVIDIA Megatron Core的MOE LLM实现和训练优化

本文将分享阿里云人工智能平台 PAI 团队与 NVIDIA Megatron-Core 团队在 MoE (Mixture of Experts) 大语言模型（LLM）实现与训练优化上的创新工作。

发表于 03-22 09:50 •869次阅读