NVIDIA Triton推理服务器简化人工智能推理-电子发烧友网

人工智能的快速发展正在推高数据集的规模，以及网络的规模和复杂性。支持人工智能的应用程序，如电子商务产品推荐、基于语音的助手和呼叫中心自动化，需要数十到数百个经过培训的人工智能模型。推理服务帮助基础设施管理人员部署、管理和扩展这些模型，并在生产中保证实时服务质量（ QoS ）。此外，基础架构经理希望提供和管理用于部署这些 AI 模型的正确计算基础架构，最大限度地利用计算资源，灵活地放大或缩小规模，以优化部署的运营成本。将人工智能投入生产既是一项推理服务，也是一项基础设施管理挑战。

NVIDIA 与谷歌云合作，将 CPU 和 GPU 通用推理服务平台 NVIDIA Triton Inference Server的功能与谷歌 Kubernetes 引擎（ GKE ）相结合，使企业更容易将人工智能投入生产。NVIDIA Triton Inference Server 是一个托管环境，用于在安全的谷歌基础设施中部署、扩展和管理容器化人工智能应用程序。

使用 NVIDIA Triton 推理服务器在谷歌云上的 CPU 和 GPU 上提供推理服务

在企业应用程序中操作 AI 模型带来了许多挑战——为在多个框架中培训的模型提供服务，处理不同类型的推理查询类型，并构建一个能够跨 CPU 和 GPU 等多个部署平台进行优化的服务解决方案。

Triton 推理服务器通过提供一个单一的标准化推理平台来解决这些挑战，该平台可以从任何基于 TensorFlow 、TensorRT、 PyTorch 、 ONNX 运行时、 OpenVINO 或自定义 C ++/ Python 框架的本地存储或谷歌云的托管存储在任何基于 GPU 或 CPU 的基础设施上部署经过培训的 AI 模型。

图 1 Triton 部署在 Google Kubernetes 引擎（ GKE ）上的推理服务器

在 GKE 集群上一键部署 NVIDIA Triton 推理服务器

Google Kubernetes Engine （ GKE ）上的 Triton 为部署在 CPU 和 GPU 上的 AI 模型提供了通用推理服务平台，并结合了 Kubernetes 群集管理、负载平衡和基于需求的自动缩放计算的方便性。

使用谷歌市场上新的一键式 Triton GKE 推理服务器应用程序，可以将 Triton 无缝部署为 Google Kubernetes Engine （ GKE ）管理的集群上的容器化微服务。

GKE 的 Triton 推理服务器应用程序是一个 helm chart 部署程序，可自动安装和配置 Triton ，以便在具有 NVIDIA GPU 节点池的 GKE 集群上使用，包括 NVIDIA A100 Tensor Core GPU s 和 NVIDIA T4 Tensor Core GPU s ，并利用谷歌云上的 Istio 进行流量进入和负载平衡。它还包括一个水平 pod autoscaler （ HPA ），它依赖堆栈驱动程序自定义度量适配器来监控 GPU 占空比，并根据推理查询和 SLA 要求自动缩放 GKE 集群中的 GPU 节点。

关于作者

Uttara Kumar 是 NVIDIA 的高级产品营销经理，专注于 GPU - 云计算中的人工智能加速应用。她非常关心让每个人都能获得技术的民主化，让开发者能够利用 NVIDIA 数据中心平台的力量来加快创新步伐。在 NVIDIA 之前，她领导半导体和科学计算软件公司的软件产品营销。她拥有安娜堡密歇根大学的 Eel CTR 工程硕士学位。

审核编辑：郭婷

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

cpu

cpu

+关注

关注
68

文章
10850

浏览量
211515
服务器

服务器

+关注

关注
12

文章
9097

浏览量
85309
人工智能

人工智能

+关注

关注
1791

文章
47137

浏览量
238113

嵌入式和人工智能究竟是什么关系?

领域，如工业控制、智能家居、医疗设备等。 人工智能是计算机科学的一个分支，它研究如何使计算机具备像人类一样思考、学习、推理和决策的能力。人工智能的发展历程可以追溯到上世纪50年代，经

发表于 11-14 16:39

什么是AI服务器？AI服务器的优势是什么？

AI服务器是一种专门为人工智能应用设计的服务器，它采用异构形式的硬件架构，通常搭载GPU、FPGA、ASIC等加速芯片，利用CPU与加速芯片的组合来满足高吞吐量互联的需求，为自然语言处理、计算机视觉、机器学习等

发表于 09-21 11:43 •798次阅读

AMD助力HyperAccel开发全新AI推理服务器

HyperAccel 是一家成立于 2023 年 1 月的韩国初创企业，致力于开发 AI 推理专用型半导体器件和硬件，最大限度提升推理工作负载的存储器带宽使用，并通过将此解决方案应用于大型语言模型来

发表于 09-18 09:37 •350次阅读

AMD助力HyperAccel开发全新AI<b class='flag-5'>推理</b><b class='flag-5'>服务器</b>

AI云服务器：开启智能计算新时代

一、AI云服务器的定义与特点 AI云服务器的定义 AI云服务器是一种基于云计算技术，专为处理人工智能相关工作负载而构建的服务器。它集成了强大

发表于 08-09 16:08 •831次阅读

FPGA在人工智能中的应用有哪些？

FPGA（现场可编程门阵列）在人工智能领域的应用非常广泛，主要体现在以下几个方面：一、深度学习加速训练和推理过程加速：FPGA可以用来加速深度学习的训练和推理过程。由于其高并行性和低延迟特性

发表于 07-29 17:05

英伟达推出全新NVIDIA AI Foundry服务和NVIDIA NIM推理微服务

NVIDIA 宣布推出全新 NVIDIA AI Foundry 服务和 NVIDIA NIM 推理微服务

发表于 07-25 09:48 •696次阅读

LLM大模型推理加速的关键技术

LLM（大型语言模型）大模型推理加速是当前人工智能领域的一个研究热点，旨在提高模型在处理复杂任务时的效率和响应速度。以下是对LLM大模型推理加速关键技术的详细探讨，内容将涵盖模型压缩、解码方法优化、底层优化、分布式并行

发表于 07-24 11:38 •839次阅读

AI服务器的特点和关键技术

AI服务器，即人工智能服务器，是一种专门设计用于运行和加速人工智能（AI）算法与模型的硬件设备。随着人工智能技术的快速发展和普及，AI

发表于 07-17 16:34 •1471次阅读

OpenAI草莓项目:引领人工智能向类人推理新纪元迈进

在人工智能技术的浩瀚星海中，OpenAI正以其独特的“草莓”项目，引领着一场前所未有的智能革命。据权威媒体路透社的最新揭秘，这家由微软鼎力支持的初创企业，正秘密酝酿一项旨在极大提升人工智能推理

发表于 07-16 14:37 •412次阅读

英伟达推出AI模型推理服务NVIDIA NIM

英伟达近日宣布推出一项革命性的AI模型推理服务——NVIDIA NIM。这项服务将极大地简化AI模型部署过程，为全球的2800万英伟达开发者

发表于 06-04 09:15 •668次阅读

进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

、库及优化的AI模型和应用程序，为用户提供全面的AI计算解决方案。 DGX SuperPOD - 专为人工智能设计的数据中心 NVIDIA 发布专为训练和推理万亿参数生成式AI模型而设计的数据中心

发表于 05-13 17:16

利用NVIDIA组件提升GPU推理的吞吐

本实践中，唯品会 AI 平台与 NVIDIA 团队合作，结合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV（HKV）将推理的稠密网络和热

发表于 04-20 09:39 •704次阅读

Groq LPU崛起，AI芯片主战场从训练转向推理

人工智能推理的重要性日益凸显，高效运行端侧大模型及AI软件背后的核心技术正是推理。不久的未来，全球芯片制造商的主要市场将全面转向人工智能推理

发表于 02-29 16:46 •1152次阅读

使用NVIDIA Triton推理服务器来加速AI预测

这家云计算巨头的计算机视觉和数据科学服务使用 NVIDIA Triton 推理服务器来加速 AI 预测。

发表于 02-29 14:04 •572次阅读

利用NVIDIA产品技术组合提升用户体验

本案例通过利用NVIDIA TensorRT-LLM加速指令识别深度学习模型，并借助NVIDIA Triton推理服务器在

发表于 01-17 09:30 •679次阅读

搜索历史

NVIDIA Triton推理服务器简化人工智能推理

评论

嵌入式和人工智能究竟是什么关系?

什么是AI服务器？AI服务器的优势是什么？

AMD助力HyperAccel开发全新AI推理服务器

AI云服务器：开启智能计算新时代

FPGA在人工智能中的应用有哪些？

英伟达推出全新NVIDIA AI Foundry服务和NVIDIA NIM推理微服务

LLM大模型推理加速的关键技术

AI服务器的特点和关键技术

OpenAI草莓项目:引领人工智能向类人推理新纪元迈进

英伟达推出AI模型推理服务NVIDIA NIM

进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

利用NVIDIA组件提升GPU推理的吞吐

Groq LPU崛起，AI芯片主战场从训练转向推理

使用NVIDIA Triton推理服务器来加速AI预测

利用NVIDIA产品技术组合提升用户体验