0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA TensorRT-LLM Roadmap现已在GitHub上公开发布

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2024-11-28 10:43 次阅读

感谢众多用户及合作伙伴一直以来对NVIDIA TensorRT-LLM的支持。TensorRT-LLM 的 Roadmap 现已在 GitHub 上公开发布!

TensorRT-LLM

持续助力用户优化推理性能

TensorRT-LLM 可在 NVIDIA GPU 上加速和优化最新的大语言模型(Large Language Models)的推理性能。该开源程序库在 /NVIDIA/TensorRT-LLM GitHub 资源库中免费提供。

近期,我们收到了许多用户的积极反馈,并表示,TensorRT-LLM 不仅显著提升了性能表现,还成功地将其应用集成到各自的业务中。TensorRT-LLM 强大的性能和与时俱进的新特性,为客户带来了更多可能性。

Roadmap 现已公开发布

过往,许多用户在将 TensorRT-LLM 集成到自身软件栈的过程中,总是希望能更好地了解 TensorRT-LLM 的 Roadmap。即日起,NVIDIA 正式对外公开 TensorRT-LLM 的 Roadmap ,旨在帮助用户更好地规划产品开发方向。

我们非常高兴地能与用户分享,TensorRT-LLM 的 Roadmap 现已在 GitHub 上公开发布。您可以通过以下链接随时查阅:

https://github.com/NVIDIA/TensorRT-LLM

d88235d6-acaa-11ef-93f3-92fbcf53809c.png

图 1. NVIDIA/TensorRT-LLM GitHub 网页截屏

这份 Roadmap 将为您提供关于未来支持的功能、模型等重要信息,助力您提前部署和开发。

同时,在 Roadmap 页面的底部,您可通过反馈链接提交问题。无论是问题报告还是新功能建议,我们都期待收到您的宝贵意见。

d8915bb0-acaa-11ef-93f3-92fbcf53809c.png

图 2.Roadmap 整体框架介绍

利用 TensorRT-LLM

优化大语言模型推理

TensorRT-LLM 是一个用于优化大语言模型(LLM)推理的库。它提供最先进的优化功能,包括自定义 Attention Kernel、Inflight Batching、Paged KV Caching、量化技术(FP8、INT4 AWQ、INT8 SmoothQuant 等)以及更多功能,以让你手中的 NVIDIA GPU 能跑出极致推理性能。

TensorRT-LLM 已适配大量的流行模型。通过类似 PyTorch 的 Python API,可以轻松修改和扩展这些模型以满足自定义需求。以下是已支持的模型列表。

d89b7758-acaa-11ef-93f3-92fbcf53809c.png

我们鼓励所有用户定期查阅 TensorRT-LLM Roadmap。这不仅有助于您及时了解 TensorRT-LLM 的最新动态,还能让您的产品开发与 NVIDIA 的技术创新保持同步。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4949

    浏览量

    102842
  • GitHub
    +关注

    关注

    3

    文章

    467

    浏览量

    16390
  • LLM
    LLM
    +关注

    关注

    0

    文章

    277

    浏览量

    307

原文标题:NVIDIA TensorRT-LLM Roadmap 现已在 GitHub 上公开发布!

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    TensorRT-LLM低精度推理优化

    本文将分享 TensorRT-LLM 中低精度量化内容,并从精度和速度角度对比 FP8 与 INT8。首先介绍性能,包括速度和精度。其次,介绍量化工具 NVIDIA TensorRT Model
    的头像 发表于 11-19 14:29 185次阅读
    <b class='flag-5'>TensorRT-LLM</b>低精度推理优化

    NVIDIA Nemotron-4 340B模型帮助开发者生成合成训练数据

    Nemotron-4 340B 是针对 NVIDIA NeMo 和 NVIDIA TensorRT-LLM 优化的模型系列,该系列包含最先进的指导和奖励模型,以及一个用于生成式 AI 训练的数据集。
    的头像 发表于 09-06 14:59 280次阅读
    <b class='flag-5'>NVIDIA</b> Nemotron-4 340B模型帮助<b class='flag-5'>开发</b>者生成合成训练数据

    魔搭社区借助NVIDIA TensorRT-LLM提升LLM推理效率

    “魔搭社区是中国最具影响力的模型开源社区,致力给开发者提供模型即服务的体验。魔搭社区利用NVIDIA TensorRT-LLM,大大提高了大语言模型的推理性能,方便了模型应用部署,提高了大模型产业应用效率,更大规模地释放大模型的
    的头像 发表于 08-23 15:48 399次阅读

    Mistral Large 2现已在Amazon Bedrock中正式可用

    北京2024年7月25日 /美通社/ -- 亚马逊云科技宣布,Mistral AI的Mistral Large 2(24.07)基础模型(FM)现已在Amazon Bedrock中正式可用
    的头像 发表于 07-26 08:07 317次阅读

    NVIDIA 通过 Holoscan 为 NVIDIA IGX 提供企业软件支持

    Enterprise-IGX软件现已在NVIDIA IGX平台上正式可用,以满足工业边缘对实时 AI 计算日益增长的需求。它们将共同帮助医疗、工业和科学计算领域的解决方案提供商利用企业级软件和支持来加快开发
    的头像 发表于 06-04 10:21 471次阅读

    NVIDIA加速微软最新的Phi-3 Mini开源语言模型

    NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微软最新的 Phi-3 Mini 开源语言模型。TensorRT-LLM 是一个开源库,用于优化从 PC 到云端的
    的头像 发表于 04-28 10:36 496次阅读

    Mistral Large模型现已在Amazon Bedrock正式可用

    Mistral AI的Mistral Large模型现已在Amazon Bedrock正式可用。今年三月,亚马逊云科技在Amazon Bedrock引入了法国先锋AI初创企业Mistral AI
    的头像 发表于 04-08 16:26 526次阅读

    基于NVIDIA Megatron Core的MOE LLM实现和训练优化

    本文将分享阿里云人工智能平台 PAI 团队与 NVIDIA Megatron-Core 团队在 MoE (Mixture of Experts) 大语言模型(LLM)实现与训练优化的创新工作。
    的头像 发表于 03-22 09:50 720次阅读
    基于<b class='flag-5'>NVIDIA</b> Megatron Core的MOE <b class='flag-5'>LLM</b>实现和训练优化

    Android 15的首个开发者预览版现已发布

    Android 15 的首个开发者预览版现已发布,以便各位开发者能与我们通力协作,打造更优秀的 Android 平台。
    的头像 发表于 03-12 14:16 870次阅读
    Android 15的首个<b class='flag-5'>开发</b>者预览版<b class='flag-5'>现已</b><b class='flag-5'>发布</b>

    ServiceNow、Hugging Face 和 NVIDIA 发布全新开放获取 LLM,助力开发者运用生成式 AI 构建企业应用

    2024 年 2 月 28 日 - ServiceNow(NYSE:NOW)、Hugging Face 和 NVIDIA 于今日发布 StarCoder2,其为一系列用于代码生成的开放获取大语言模型(LLM
    发表于 02-29 11:12 234次阅读
    ServiceNow、Hugging Face 和 <b class='flag-5'>NVIDIA</b> <b class='flag-5'>发布</b>全新开放获取 <b class='flag-5'>LLM</b>,助力<b class='flag-5'>开发</b>者运用生成式 AI 构建企业应用

    TensorRT LLM加速Gemma!NVIDIA与谷歌牵手,RTX助推AI聊天

    NVIDIA今天在其官方博客中表示,今天与谷歌合作,在所有NVIDIA AI平台上为Gemma推出了优化。
    的头像 发表于 02-23 09:42 575次阅读
    <b class='flag-5'>TensorRT</b> <b class='flag-5'>LLM</b>加速Gemma!<b class='flag-5'>NVIDIA</b>与谷歌牵手,RTX助推AI聊天

    利用NVIDIA产品技术组合提升用户体验

    本案例通过利用NVIDIA TensorRT-LLM加速指令识别深度学习模型,并借助NVIDIA Triton推理服务器在NVIDIA V100 GPU上进行高效部署,帮助必优科技的文
    的头像 发表于 01-17 09:30 664次阅读

    使用NVIDIA TensorRT-LLM支持CodeFuse-CodeLlama-34B的int4量化和推理优化实践

    CodeFuse是由蚂蚁集团开发的代码语言大模型,旨在支持整个软件开发生命周期,涵盖设计、需求、编码、测试、部署、运维等关键阶段。
    的头像 发表于 01-12 18:13 1095次阅读

    Torch TensorRT是一个优化PyTorch模型推理性能的工具

    那么,什么是Torch TensorRT呢?Torch是我们大家聚在一起的原因,它是一个端到端的机器学习框架。而TensorRT则是NVIDIA的高性能深度学习推理软件工具包。Torch Te
    的头像 发表于 01-09 16:41 1610次阅读
    Torch <b class='flag-5'>TensorRT</b>是一个优化PyTorch模型推理性能的工具

    如何在 NVIDIA TensorRT-LLM 中支持 Qwen 模型

    的特点和优势。然而,这些工具往往未能充分发挥 GPU 的性能。 为了解决这些问题,NVIDIA 推出了一种全新的解决方案—— Tens
    的头像 发表于 12-04 20:25 916次阅读
    如何在 <b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT-LLM</b> 中支持 Qwen 模型