0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA Triton推理服务器简化人工智能推理

星星科技指导员 来源:NVIDIA 作者:Uttara Kumar 2022-04-08 16:43 次阅读

人工智能的快速发展正在推高数据集的规模,以及网络的规模和复杂性。支持人工智能的应用程序,如电子商务产品推荐、基于语音的助手和呼叫中心自动化,需要数十到数百个经过培训的人工智能模型。推理服务帮助基础设施管理人员部署、管理和扩展这些模型,并在生产中保证实时服务质量( QoS )。此外,基础架构经理希望提供和管理用于部署这些 AI 模型的正确计算基础架构,最大限度地利用计算资源,灵活地放大或缩小规模,以优化部署的运营成本。将人工智能投入生产既是一项推理服务,也是一项基础设施管理挑战。

NVIDIA 与谷歌云合作,将 CPUGPU 通用推理服务平台 NVIDIA Triton Inference Server的功能与谷歌 Kubernetes 引擎( GKE )相结合,使企业更容易将人工智能投入生产。NVIDIA Triton Inference Server 是一个托管环境,用于在安全的谷歌基础设施中部署、扩展和管理容器化人工智能应用程序。

使用 NVIDIA Triton 推理服务器在谷歌云上的 CPU 和 GPU 上提供推理服务

在企业应用程序中操作 AI 模型带来了许多挑战——为在多个框架中培训的模型提供服务,处理不同类型的推理查询类型,并构建一个能够跨 CPU 和 GPU 等多个部署平台进行优化的服务解决方案。

Triton 推理服务器通过提供一个单一的标准化推理平台来解决这些挑战,该平台可以从任何基于 TensorFlow 、TensorRT、 PyTorch 、 ONNX 运行时、 OpenVINO 或自定义 C ++/ Python 框架的本地存储或谷歌云的托管存储在任何基于 GPU 或 CPU 的基础设施上部署经过培训的 AI 模型。

图 1 Triton 部署在 Google Kubernetes 引擎( GKE )上的推理服务器

在 GKE 集群上一键部署 NVIDIA Triton 推理服务器

Google Kubernetes Engine ( GKE )上的 Triton 为部署在 CPU 和 GPU 上的 AI 模型提供了通用推理服务平台,并结合了 Kubernetes 群集管理、负载平衡和基于需求的自动缩放计算的方便性。

使用谷歌市场上新的一键式 Triton GKE 推理服务器应用程序,可以将 Triton 无缝部署为 Google Kubernetes Engine ( GKE )管理的集群上的容器化微服务。

GKE 的 Triton 推理服务器应用程序是一个 helm chart 部署程序,可自动安装和配置 Triton ,以便在具有 NVIDIA GPU 节点池的 GKE 集群上使用,包括 NVIDIA A100 Tensor Core GPU s 和 NVIDIA T4 Tensor Core GPU s ,并利用谷歌云上的 Istio 进行流量进入和负载平衡。它还包括一个水平 pod autoscaler ( HPA ),它依赖堆栈驱动程序自定义度量适配器来监控 GPU 占空比,并根据推理查询和 SLA 要求自动缩放 GKE 集群中的 GPU 节点。

关于作者

Uttara Kumar 是 NVIDIA 的高级产品营销经理,专注于 GPU - 云计算中的人工智能加速应用。她非常关心让每个人都能获得技术的民主化,让开发者能够利用 NVIDIA 数据中心平台的力量来加快创新步伐。在 NVIDIA 之前,她领导半导体和科学计算软件公司的软件产品营销。她拥有安娜堡密歇根大学的 Eel CTR 工程硕士学位。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    10850

    浏览量

    211515
  • 服务器
    +关注

    关注

    12

    文章

    9097

    浏览量

    85309
  • 人工智能
    +关注

    关注

    1791

    文章

    47137

    浏览量

    238113
收藏 人收藏

    评论

    相关推荐

    嵌入式和人工智能究竟是什么关系?

    领域,如工业控制、智能家居、医疗设备等。 人工智能是计算机科学的一个分支,它研究如何使计算机具备像人类一样思考、学习、推理和决策的能力。人工智能的发展历程可以追溯到上世纪50年代,经
    发表于 11-14 16:39

    什么是AI服务器?AI服务器的优势是什么?

    AI服务器是一种专门为人工智能应用设计的服务器,它采用异构形式的硬件架构,通常搭载GPU、FPGA、ASIC等加速芯片,利用CPU与加速芯片的组合来满足高吞吐量互联的需求,为自然语言处理、计算机视觉、机器学习等
    的头像 发表于 09-21 11:43 798次阅读

    AMD助力HyperAccel开发全新AI推理服务器

    HyperAccel 是一家成立于 2023 年 1 月的韩国初创企业,致力于开发 AI 推理专用型半导体器件和硬件,最大限度提升推理工作负载的存储带宽使用,并通过将此解决方案应用于大型语言模型来
    的头像 发表于 09-18 09:37 350次阅读
    AMD助力HyperAccel开发全新AI<b class='flag-5'>推理</b><b class='flag-5'>服务器</b>

    AI云服务器:开启智能计算新时代

    一、AI云服务器的定义与特点 AI云服务器的定义 AI云服务器是一种基于云计算技术,专为处理人工智能相关工作负载而构建的服务器。它集成了强大
    的头像 发表于 08-09 16:08 831次阅读

    FPGA在人工智能中的应用有哪些?

    FPGA(现场可编程门阵列)在人工智能领域的应用非常广泛,主要体现在以下几个方面: 一、深度学习加速 训练和推理过程加速:FPGA可以用来加速深度学习的训练和推理过程。由于其高并行性和低延迟特性
    发表于 07-29 17:05

    英伟达推出全新NVIDIA AI Foundry服务NVIDIA NIM推理服务

    NVIDIA 宣布推出全新 NVIDIA AI Foundry 服务NVIDIA NIM 推理服务
    的头像 发表于 07-25 09:48 696次阅读

    LLM大模型推理加速的关键技术

    LLM(大型语言模型)大模型推理加速是当前人工智能领域的一个研究热点,旨在提高模型在处理复杂任务时的效率和响应速度。以下是对LLM大模型推理加速关键技术的详细探讨,内容将涵盖模型压缩、解码方法优化、底层优化、分布式并行
    的头像 发表于 07-24 11:38 839次阅读

    AI服务器的特点和关键技术

    AI服务器,即人工智能服务器,是一种专门设计用于运行和加速人工智能(AI)算法与模型的硬件设备。随着人工智能技术的快速发展和普及,AI
    的头像 发表于 07-17 16:34 1471次阅读

    OpenAI草莓项目:引领人工智能向类人推理新纪元迈进

    人工智能技术的浩瀚星海中,OpenAI正以其独特的“草莓”项目,引领着一场前所未有的智能革命。据权威媒体路透社的最新揭秘,这家由微软鼎力支持的初创企业,正秘密酝酿一项旨在极大提升人工智能推理
    的头像 发表于 07-16 14:37 412次阅读

    英伟达推出AI模型推理服务NVIDIA NIM

    英伟达近日宣布推出一项革命性的AI模型推理服务——NVIDIA NIM。这项服务将极大地简化AI模型部署过程,为全球的2800万英伟达开发者
    的头像 发表于 06-04 09:15 668次阅读

    进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

    、库及优化的AI模型和应用程序,为用户提供全面的AI计算解决方案。 DGX SuperPOD - 专为人工智能设计的数据中心 NVIDIA 发布专为训练和推理万亿参数生成式AI模型而设计的数据中心
    发表于 05-13 17:16

    利用NVIDIA组件提升GPU推理的吞吐

    本实践中,唯品会 AI 平台与 NVIDIA 团队合作,结合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV(HKV)将推理的稠密网络和热
    的头像 发表于 04-20 09:39 704次阅读

    Groq LPU崛起,AI芯片主战场从训练转向推理

    人工智能推理的重要性日益凸显,高效运行端侧大模型及AI软件背后的核心技术正是推理。不久的未来,全球芯片制造商的主要市场将全面转向人工智能推理
    的头像 发表于 02-29 16:46 1152次阅读

    使用NVIDIA Triton推理服务器来加速AI预测

    这家云计算巨头的计算机视觉和数据科学服务使用 NVIDIA Triton 推理服务器来加速 AI 预测。
    的头像 发表于 02-29 14:04 572次阅读

    利用NVIDIA产品技术组合提升用户体验

    本案例通过利用NVIDIA TensorRT-LLM加速指令识别深度学习模型,并借助NVIDIA Triton推理服务器
    的头像 发表于 01-17 09:30 679次阅读