NVIDIA TensorRT-LLM Roadmap现已在GitHub上公开发布-电子发烧友网

感谢众多用户及合作伙伴一直以来对NVIDIA TensorRT-LLM的支持。TensorRT-LLM 的 Roadmap 现已在 GitHub 上公开发布！

TensorRT-LLM

持续助力用户优化推理性能

TensorRT-LLM 可在 NVIDIA GPU 上加速和优化最新的大语言模型（Large Language Models）的推理性能。该开源程序库在 /NVIDIA/TensorRT-LLM GitHub 资源库中免费提供。

近期，我们收到了许多用户的积极反馈，并表示，TensorRT-LLM 不仅显著提升了性能表现，还成功地将其应用集成到各自的业务中。TensorRT-LLM 强大的性能和与时俱进的新特性，为客户带来了更多可能性。

Roadmap 现已公开发布

过往，许多用户在将 TensorRT-LLM 集成到自身软件栈的过程中，总是希望能更好地了解 TensorRT-LLM 的 Roadmap。即日起，NVIDIA 正式对外公开 TensorRT-LLM 的 Roadmap ，旨在帮助用户更好地规划产品开发方向。

我们非常高兴地能与用户分享，TensorRT-LLM 的 Roadmap 现已在 GitHub 上公开发布。您可以通过以下链接随时查阅：

https://github.com/NVIDIA/TensorRT-LLM

图 1. NVIDIA/TensorRT-LLM GitHub 网页截屏

这份 Roadmap 将为您提供关于未来支持的功能、模型等重要信息，助力您提前部署和开发。

同时，在 Roadmap 页面的底部，您可通过反馈链接提交问题。无论是问题报告还是新功能建议，我们都期待收到您的宝贵意见。

图 2.Roadmap 整体框架介绍

利用 TensorRT-LLM

优化大语言模型推理

TensorRT-LLM 是一个用于优化大语言模型（LLM）推理的库。它提供最先进的优化功能，包括自定义 Attention Kernel、Inflight Batching、Paged KV Caching、量化技术（FP8、INT4 AWQ、INT8 SmoothQuant 等）以及更多功能，以让你手中的 NVIDIA GPU 能跑出极致推理性能。

TensorRT-LLM 已适配大量的流行模型。通过类似 PyTorch 的 Python API，可以轻松修改和扩展这些模型以满足自定义需求。以下是已支持的模型列表。

我们鼓励所有用户定期查阅 TensorRT-LLM Roadmap。这不仅有助于您及时了解 TensorRT-LLM 的最新动态，还能让您的产品开发与 NVIDIA 的技术创新保持同步。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

NVIDIA

NVIDIA

+关注

关注
14

文章
4991

浏览量
103140
GitHub

GitHub

+关注

关注
3

文章
471

浏览量
16464
LLM

LLM

+关注

关注
0

文章
289

浏览量
351

原文标题：NVIDIA TensorRT-LLM Roadmap 现已在 GitHub 上公开发布！

文章出处：【微信号：NVIDIA-Enterprise，微信公众号：NVIDIA英伟达企业解决方案】欢迎添加关注！文章转载请注明出处。

在NVIDIA TensorRT-LLM中启用ReDrafter的一些变化

Recurrent Drafting (简称 ReDrafter) 是苹果公司为大语言模型 (LLM) 推理开发并开源的一种新型推测解码技术，该技术现在可与 NVIDIA TensorRT-L

发表于 12-25 17:31 •146次阅读

解锁NVIDIA TensorRT-LLM的卓越性能

NVIDIA TensorRT-LLM 是一个专为优化大语言模型 (LLM) 推理而设计的库。它提供了多种先进的优化技术，包括自定义 Attention Kernel、Inflight

发表于 12-17 17:47 •179次阅读

TensorRT-LLM低精度推理优化

本文将分享 TensorRT-LLM 中低精度量化内容，并从精度和速度角度对比 FP8 与 INT8。首先介绍性能，包括速度和精度。其次，介绍量化工具 NVIDIA TensorRT Model

发表于 11-19 14:29 •315次阅读

NVIDIA Nemotron-4 340B模型帮助开发者生成合成训练数据

Nemotron-4 340B 是针对 NVIDIA NeMo 和 NVIDIA TensorRT-LLM 优化的模型系列，该系列包含最先进的指导和奖励模型，以及一个用于生成式 AI 训练的数据集。

发表于 09-06 14:59 •327次阅读

魔搭社区借助NVIDIA TensorRT-LLM提升LLM推理效率

“魔搭社区是中国最具影响力的模型开源社区，致力给开发者提供模型即服务的体验。魔搭社区利用NVIDIA TensorRT-LLM，大大提高了大语言模型的推理性能，方便了模型应用部署，提高了大模型产业应用效率，更大规模地释放大模型的

发表于 08-23 15:48 •459次阅读

Mistral Large 2现已在Amazon Bedrock中正式可用

北京2024年7月25日 /美通社/ -- 亚马逊云科技宣布，Mistral AI的Mistral Large 2（24.07）基础模型（FM）现已在Amazon Bedrock中正式可用

发表于 07-26 08:07 •344次阅读

NVIDIA 通过 Holoscan 为 NVIDIA IGX 提供企业软件支持

Enterprise-IGX软件现已在NVIDIA IGX平台上正式可用，以满足工业边缘对实时 AI 计算日益增长的需求。它们将共同帮助医疗、工业和科学计算领域的解决方案提供商利用企业级软件和支持来加快开发

发表于 06-04 10:21 •516次阅读

NVIDIA加速微软最新的Phi-3 Mini开源语言模型

NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微软最新的 Phi-3 Mini 开源语言模型。TensorRT-LLM 是一个开源库，用于优化从 PC 到云端的

发表于 04-28 10:36 •582次阅读

Mistral Large模型现已在Amazon Bedrock上正式可用

Mistral AI的Mistral Large模型现已在Amazon Bedrock上正式可用。今年三月，亚马逊云科技在Amazon Bedrock上引入了法国先锋AI初创企业Mistral AI

发表于 04-08 16:26 •564次阅读

基于NVIDIA Megatron Core的MOE LLM实现和训练优化

本文将分享阿里云人工智能平台 PAI 团队与 NVIDIA Megatron-Core 团队在 MoE (Mixture of Experts) 大语言模型（LLM）实现与训练优化上的创新工作。

发表于 03-22 09:50 •792次阅读

Android 15的首个开发者预览版现已发布

Android 15 的首个开发者预览版现已发布，以便各位开发者能与我们通力协作，打造更优秀的 Android 平台。

发表于 03-12 14:16 •933次阅读

ServiceNow、Hugging Face 和 NVIDIA 发布全新开放获取 LLM，助力开发者运用生成式 AI 构建企业应用

2024 年 2 月 28 日 - ServiceNow（NYSE：NOW）、Hugging Face 和 NVIDIA 于今日发布 StarCoder2，其为一系列用于代码生成的开放获取大语言模型（LLM

发表于 02-29 11:12 •252次阅读

TensorRT LLM加速Gemma！NVIDIA与谷歌牵手，RTX助推AI聊天

NVIDIA今天在其官方博客中表示，今天与谷歌合作，在所有NVIDIA AI平台上为Gemma推出了优化。

发表于 02-23 09:42 •619次阅读

利用NVIDIA产品技术组合提升用户体验

本案例通过利用NVIDIA TensorRT-LLM加速指令识别深度学习模型，并借助NVIDIA Triton推理服务器在NVIDIA V100 GPU上进行高效部署，帮助必优科技的文

发表于 01-17 09:30 •703次阅读

使用NVIDIA TensorRT-LLM支持CodeFuse-CodeLlama-34B上的int4量化和推理优化实践

CodeFuse是由蚂蚁集团开发的代码语言大模型，旨在支持整个软件开发生命周期，涵盖设计、需求、编码、测试、部署、运维等关键阶段。

发表于 01-12 18:13 •1136次阅读