TensorRT LLM加速Gemma！NVIDIA与谷歌牵手，RTX助推AI聊天-电子发烧友网

NVIDIA今天在其官方博客中表示，今天与谷歌合作，在所有NVIDIA AI平台上为Gemma推出了优化。Gemma是谷歌最先进的新轻量级2B(20亿)和7B(70亿)参数开放语言模型，可以在任何地方运行，降低了成本，加快了特定领域用例的创新工作。

这两家公司的团队密切合作，主要是使用NVIDIA TensorRT LLM加速谷歌Gemma开源模型的性能。开源模型Gemma采用与Gemini模型相同的底层技术构建，而NVIDIA TensorRT LLM是一个开源库，用于在数据中心的NVIDIA GPU、云服务器以及带有NVIDIA RTX GPU的PC上运行时，可以极大优化大型语言模型推理。这也这使得开发人员能够完全利用全球超过1亿台数量的RTX GPU AI PC完成自己的工作。

同时，开发人员还可以在云计算服务器中的NVIDIA GPU上运行Gemma，包括在谷歌云基于H100 Tensor Core GPU，以及很快谷歌将于今年部署的NVIDIA H200 TensorCore GPU——该GPU具有141GB的HBM3e内存，内存带宽可以达到4.8TB/s。

另外，企业开发人员还可以利用NVIDIA丰富的工具生态系统，包括具有NeMo框架的NVIDIA AI Enterprise和TensorRT LLM，对Gemma进行微调，并在其生产应用程序中部署优化模型。

NVIDIA表示，先期上线支持Gemma的是Chat with RTX，这是一款NVIDIA技术演示应用，使用检索增强生成和TensorRT LLM扩展，在基于RTX GPU的本地Windows PC上为用户提供生成式AI应用的功能。通过RTX聊天，用户可以轻松地将PC上的本地文件连接到大型语言模型，从而使用自己的数据对聊天机器人进行个性化设置。

由于该模型在本地运行，因此可以快速提供结果，并且用户数据保留在设备上。与基于云的LLM服务不同，使用Chat with RTX聊天可以让用户在本地PC上处理敏感数据，而无需与第三方共享或连接互联网。

审核编辑：刘清

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

NVIDIA

NVIDIA

+关注

关注
14

文章
4796

浏览量
102497
GPU芯片

GPU芯片

+关注

关注
1

文章
303

浏览量
5757
LLM

LLM

+关注

关注
0

文章
247

浏览量
285
生成式AI

生成式AI

+关注

关注
0

文章
465

浏览量
422

原文标题：TensorRT LLM加速Gemma！NVIDIA与谷歌牵手，RTX助推AI聊天

文章出处：【微信号：Microcomputer，微信公众号：Microcomputer】欢迎添加关注！文章转载请注明出处。

魔搭社区借助NVIDIA TensorRT-LLM提升LLM推理效率

“魔搭社区是中国最具影响力的模型开源社区，致力给开发者提供模型即服务的体验。魔搭社区利用NVIDIA TensorRT-LLM，大大提高了大语言模型的推理性能，方便了模型应用部署，提高了大模型产业应用效率，更大规模地释放大模型的应用价值。”

发表于 08-23 15:48 •259次阅读

NVIDIA加速微软最新的Phi-3 Mini开源语言模型

NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微软最新的 Phi-3 Mini 开源语言模型。TensorRT-LLM

发表于 04-28 10:36 •407次阅读

NVIDIA和谷歌云宣布开展一项新的合作，加速AI开发

NVIDIA 和谷歌云宣布开展一项新的合作，以帮助全球初创企业加速创建生成式 AI 应用和服务。

发表于 04-11 14:03 •403次阅读

谷歌AI大模型Gemma全球开放使用

谷歌公司近日宣布，其全新的AI大模型Gemma现已在全球范围内开放使用。这一重要举措不仅彰显了谷歌在AI领域的领先地位，还为其在全球范围内的

发表于 02-28 18:12 •1000次阅读

谷歌发布开源AI大模型Gemma

近日，谷歌发布了全新AI大模型Gemma，这款模型为各种规模的组织提供了前所未有的机会，以负责任的方式在商业应用中进行分发。

发表于 02-28 17:38 •731次阅读

Google Gemma优化后可在NVIDIA GPU上运行

2024 年 2 月 21 日，NVIDIA 携手 Google 在所有 NVIDIA AI 平台上发布面向 Gemma 的优化功能，Gemma

发表于 02-25 11:01 •386次阅读

谷歌发布轻量级开源人工智能模型Gemma

谷歌近日宣布推出开源人工智能（AI）模型系列Gemma，旨在为开发人员和研究人员提供一个负责任的AI构建平台。这一举措标志着自2022年OpenAI的ChatGPT引领

发表于 02-23 11:38 •711次阅读

谷歌宣布Gemma大模型全球开放使用

谷歌公司近日宣布，其先进的AI大模型Gemma即日起在全球范围内开放使用。这一新模型由谷歌DeepMind和其他团队合作开发，并与其最大的AI

发表于 02-23 10:41 •661次阅读

英伟达推出全新AI聊天机器人

近日，英伟达（Nvidia）宣布推出其全新的AI聊天机器人——“Chat With RTX”。这款聊天机器人被视为英伟达版的ChatGPT，

发表于 02-19 11:09 •778次阅读

NVIDIA AI Foundation Models：使用生产就绪型 LLM 构建自定义企业聊天机器人和智能副驾

系列基础模型是一套功能强大的全新工具，可用于为企业构建生产就绪生成式 AI 应用，从而推动从客服 AI 聊天机器人到尖端 AI 产品的各种创新。这些新的基础模型现已加入

发表于 11-17 21:35 •775次阅读

点亮未来：TensorRT-LLM 更新加速 AI 推理性能，支持在 RTX 驱动的 Windows PC 上运行新模型

微软 Ignite 2023 技术大会发布的新工具和资源包括 OpenAI Chat API 的 TensorRT-LLM 封装接口、RTX 驱动的性能改进 DirectML for Llama 2

发表于 11-16 21:15 •610次阅读

TensorRT-LLM初探（一）运行llama

TensorRT-LLM正式出来有半个月了，一直没有时间玩，周末趁着有时间跑一下。

发表于 11-16 17:39 •1085次阅读

现已公开发布！欢迎使用 NVIDIA TensorRT-LLM 优化大语言模型推理

NVIDIA 于 2023 年 10 月 19 日公开发布 TensorRT-LLM ，可在 NVIDIA GPU 上加速和优化最新的大语言模型（Large Language Mode

发表于 10-27 20:05 •839次阅读

周四研讨会预告 | 注册报名 NVIDIA AI Inference Day - 大模型推理线上研讨会

由 CSDN 举办的 NVIDIA AI Inference Day - 大模型推理线上研讨会，将帮助您了解 NVIDIA 开源大型语言模型（LLM）推理

发表于 10-26 09:05 •294次阅读

阿里云 & NVIDIA TensorRT Hackathon 2023 决赛圆满收官，26 支 AI 团队崭露头角

及优胜奖，展现出了卓越的技术实力。扫码查看获奖名单解锁 NVIDIA TensorRT-LLM 挖掘生成式 AI 新需求今年的 NVIDIA

发表于 10-17 03:20 •453次阅读