0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA Triton推理服务器简化人工智能推理

星星科技指导员 来源:NVIDIA 作者:Uttara Kumar 2022-04-08 16:43 次阅读

人工智能的快速发展正在推高数据集的规模,以及网络的规模和复杂性。支持人工智能的应用程序,如电子商务产品推荐、基于语音的助手和呼叫中心自动化,需要数十到数百个经过培训的人工智能模型。推理服务帮助基础设施管理人员部署、管理和扩展这些模型,并在生产中保证实时服务质量( QoS )。此外,基础架构经理希望提供和管理用于部署这些 AI 模型的正确计算基础架构,最大限度地利用计算资源,灵活地放大或缩小规模,以优化部署的运营成本。将人工智能投入生产既是一项推理服务,也是一项基础设施管理挑战。

NVIDIA 与谷歌云合作,将 CPUGPU 通用推理服务平台 NVIDIA Triton Inference Server的功能与谷歌 Kubernetes 引擎( GKE )相结合,使企业更容易将人工智能投入生产。NVIDIA Triton Inference Server 是一个托管环境,用于在安全的谷歌基础设施中部署、扩展和管理容器化人工智能应用程序。

使用 NVIDIA Triton 推理服务器在谷歌云上的 CPU 和 GPU 上提供推理服务

在企业应用程序中操作 AI 模型带来了许多挑战——为在多个框架中培训的模型提供服务,处理不同类型的推理查询类型,并构建一个能够跨 CPU 和 GPU 等多个部署平台进行优化的服务解决方案。

Triton 推理服务器通过提供一个单一的标准化推理平台来解决这些挑战,该平台可以从任何基于 TensorFlow 、TensorRT、 PyTorch 、 ONNX 运行时、 OpenVINO 或自定义 C ++/ Python 框架的本地存储或谷歌云的托管存储在任何基于 GPU 或 CPU 的基础设施上部署经过培训的 AI 模型。

图 1 Triton 部署在 Google Kubernetes 引擎( GKE )上的推理服务器

在 GKE 集群上一键部署 NVIDIA Triton 推理服务器

Google Kubernetes Engine ( GKE )上的 Triton 为部署在 CPU 和 GPU 上的 AI 模型提供了通用推理服务平台,并结合了 Kubernetes 群集管理、负载平衡和基于需求的自动缩放计算的方便性。

使用谷歌市场上新的一键式 Triton GKE 推理服务器应用程序,可以将 Triton 无缝部署为 Google Kubernetes Engine ( GKE )管理的集群上的容器化微服务。

GKE 的 Triton 推理服务器应用程序是一个 helm chart 部署程序,可自动安装和配置 Triton ,以便在具有 NVIDIA GPU 节点池的 GKE 集群上使用,包括 NVIDIA A100 Tensor Core GPU s 和 NVIDIA T4 Tensor Core GPU s ,并利用谷歌云上的 Istio 进行流量进入和负载平衡。它还包括一个水平 pod autoscaler ( HPA ),它依赖堆栈驱动程序自定义度量适配器来监控 GPU 占空比,并根据推理查询和 SLA 要求自动缩放 GKE 集群中的 GPU 节点。

关于作者

Uttara Kumar 是 NVIDIA 的高级产品营销经理,专注于 GPU - 云计算中的人工智能加速应用。她非常关心让每个人都能获得技术的民主化,让开发者能够利用 NVIDIA 数据中心平台的力量来加快创新步伐。在 NVIDIA 之前,她领导半导体和科学计算软件公司的软件产品营销。她拥有安娜堡密歇根大学的 Eel CTR 工程硕士学位。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    10798

    浏览量

    210710
  • 服务器
    +关注

    关注

    12

    文章

    8933

    浏览量

    85049
  • 人工智能
    +关注

    关注

    1789

    文章

    46576

    浏览量

    236899
收藏 人收藏

    评论

    相关推荐

    什么是AI服务器?AI服务器的优势是什么?

    AI服务器是一种专门为人工智能应用设计的服务器,它采用异构形式的硬件架构,通常搭载GPU、FPGA、ASIC等加速芯片,利用CPU与加速芯片的组合来满足高吞吐量互联的需求,为自然语言处理、计算机视觉、机器学习等
    的头像 发表于 09-21 11:43 455次阅读

    AMD助力HyperAccel开发全新AI推理服务器

    HyperAccel 是一家成立于 2023 年 1 月的韩国初创企业,致力于开发 AI 推理专用型半导体器件和硬件,最大限度提升推理工作负载的存储带宽使用,并通过将此解决方案应用于大型语言模型来
    的头像 发表于 09-18 09:37 301次阅读
    AMD助力HyperAccel开发全新AI<b class='flag-5'>推理</b><b class='flag-5'>服务器</b>

    AI云服务器:开启智能计算新时代

    一、AI云服务器的定义与特点 AI云服务器的定义 AI云服务器是一种基于云计算技术,专为处理人工智能相关工作负载而构建的服务器。它集成了强大
    的头像 发表于 08-09 16:08 645次阅读

    FPGA在人工智能中的应用有哪些?

    FPGA(现场可编程门阵列)在人工智能领域的应用非常广泛,主要体现在以下几个方面: 一、深度学习加速 训练和推理过程加速:FPGA可以用来加速深度学习的训练和推理过程。由于其高并行性和低延迟特性
    发表于 07-29 17:05

    英伟达推出全新NVIDIA AI Foundry服务NVIDIA NIM推理服务

    NVIDIA 宣布推出全新 NVIDIA AI Foundry 服务NVIDIA NIM 推理服务
    的头像 发表于 07-25 09:48 636次阅读

    LLM大模型推理加速的关键技术

    LLM(大型语言模型)大模型推理加速是当前人工智能领域的一个研究热点,旨在提高模型在处理复杂任务时的效率和响应速度。以下是对LLM大模型推理加速关键技术的详细探讨,内容将涵盖模型压缩、解码方法优化、底层优化、分布式并行
    的头像 发表于 07-24 11:38 710次阅读

    AI服务器的特点和关键技术

    AI服务器,即人工智能服务器,是一种专门设计用于运行和加速人工智能(AI)算法与模型的硬件设备。随着人工智能技术的快速发展和普及,AI
    的头像 发表于 07-17 16:34 1147次阅读

    OpenAI草莓项目:引领人工智能向类人推理新纪元迈进

    人工智能技术的浩瀚星海中,OpenAI正以其独特的“草莓”项目,引领着一场前所未有的智能革命。据权威媒体路透社的最新揭秘,这家由微软鼎力支持的初创企业,正秘密酝酿一项旨在极大提升人工智能推理
    的头像 发表于 07-16 14:37 364次阅读

    英伟达推出AI模型推理服务NVIDIA NIM

    英伟达近日宣布推出一项革命性的AI模型推理服务——NVIDIA NIM。这项服务将极大地简化AI模型部署过程,为全球的2800万英伟达开发者
    的头像 发表于 06-04 09:15 613次阅读

    进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

    、库及优化的AI模型和应用程序,为用户提供全面的AI计算解决方案。 DGX SuperPOD - 专为人工智能设计的数据中心 NVIDIA 发布专为训练和推理万亿参数生成式AI模型而设计的数据中心
    发表于 05-13 17:16

    利用NVIDIA组件提升GPU推理的吞吐

    本实践中,唯品会 AI 平台与 NVIDIA 团队合作,结合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV(HKV)将推理的稠密网络和热
    的头像 发表于 04-20 09:39 604次阅读

    Groq LPU崛起,AI芯片主战场从训练转向推理

    人工智能推理的重要性日益凸显,高效运行端侧大模型及AI软件背后的核心技术正是推理。不久的未来,全球芯片制造商的主要市场将全面转向人工智能推理
    的头像 发表于 02-29 16:46 1051次阅读

    使用NVIDIA Triton推理服务器来加速AI预测

    这家云计算巨头的计算机视觉和数据科学服务使用 NVIDIA Triton 推理服务器来加速 AI 预测。
    的头像 发表于 02-29 14:04 529次阅读

    利用NVIDIA产品技术组合提升用户体验

    本案例通过利用NVIDIA TensorRT-LLM加速指令识别深度学习模型,并借助NVIDIA Triton推理服务器
    的头像 发表于 01-17 09:30 626次阅读

    人工智能服务器高性能计算需求

    人工智能(AI)服务器是一种专门为了运行人工智能应用和提供大数据处理能力而设计的高性能计算机。它既可以支持本地应用程序和网页,也可以为云和本地服务器提供复杂的AI模型和
    的头像 发表于 12-08 09:44 471次阅读