0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用NVIDIA Triton推理服务器简化边缘AI模型部署

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-04-18 15:40 次阅读

人工智能机器学习( ML )和深度学习( DL )正在成为解决机器人、零售、医疗保健、工业等领域各种计算问题的有效工具。对低延迟、实时响应和隐私的需求使运行 AI 应用程序处于边缘。

然而,在边缘的应用程序和服务中部署 AI 模型对基础设施和运营团队来说可能是一项挑战。不同的框架、端到端延迟要求以及缺乏标准化实施等因素可能会使 AI 部署具有挑战性。在这篇文章中,我们将探讨如何应对这些挑战,并在边缘生产中部署 AI 模型。

以下是部署推理模型的最常见挑战:

多模型框架:数据科学家和研究人员使用不同的人工智能和深度学习框架,如 TensorFlow 、 PyTorch 、 TensorRT 、 ONNX 运行时或纯 Python 来构建模型。这些框架中的每一个都需要一个执行后端来在生产环境中运行模型。同时管理多个框架后端可能成本高昂,并导致可伸缩性和维护问题。

不同的推理查询类型:边缘推理服务需要处理多个同时查询、不同类型的查询,如实时在线预测、流式数据和多个模型的复杂管道。每一项都需要特殊的推理处理。

不断发展的模型:在这个不断变化的世界中,人工智能模型不断地根据新数据和新算法进行重新训练和更新。生产中的型号必须在不重新启动设备的情况下持续更新。典型的 AI 应用程序使用许多不同的模型。它使问题的规模进一步扩大,以更新现场的模型。

NVIDIA Triton 推理服务器是一款开源推理服务软件,通过解决这些复杂性简化了推理服务。 NVIDIA Triton 提供了一个单一的标准化推理平台,可支持在多框架模型和不同部署环境(如数据中心、云、嵌入式设备、,以及虚拟化环境。它通过高级批处理和调度算法支持不同类型的推理查询,并支持实时模型更新。 NVIDIA Triton 还旨在通过并发模型执行和动态批处理最大限度地提高硬件利用率,从而提高推理性能。

我们用 2021 年 8 月发布的 Jetson JetPack 4.6 将 Triton 推理服务器引入 Jetson 。有了 NVIDIA Triton , AI 部署现在可以跨云、数据中心和边缘标准化。

主要特征

以下是 NVIDIA Triton 的一些关键功能,它们可以帮助您简化 Jetson 中的模型部署。

poYBAGJdFdOADh1nAAF6tgk9r08814.png

图 1 Jetson Jetson 上的 Triton 推理服务器架构

嵌入式应用集成

客户机应用程序和 Triton 推理服务器之间的通信支持直接 C-API 集成,但也支持 gRPC 和 HTTP / REST 。在 Jetson 上,当客户端应用程序和推理服务都在同一设备上运行时,客户端应用程序可以直接调用 Triton 推理服务器 API ,而通信开销为零。 NVIDIA Triton 是一个带有 C API 的共享库,可使完整功能直接包含在应用程序中。这最适合基于 Jetson 的嵌入式应用程序。

多框架支持

NVIDIA Triton 在本机集成了流行的框架后端,如 TensorFlow 1 。 x / 2 。 x 、 ONNX 运行时 TensorRT ,甚至自定义后端。这允许开发人员直接在 Jetson 上运行他们的模型,而无需经过转换过程。 NVIDIA Triton 还支持添加自定义后端的灵活性。开发人员有自己的选择,基础设施团队使用单个推理引擎优化部署。

DLA 支持

Jetson 上的 Triton 推理服务器可以在 GPU 和 DLA 上运行模型。 DLA 是 Jetson Xavier NX 和 Jetson AGX Xavier 上提供的深度学习加速器。

并发模型执行

Triton 推理服务器通过在 Jetson 上同时运行多个模型,最大限度地提高性能并减少端到端延迟。这些模型可以是所有相同的模型,也可以是来自不同框架的不同模型。 GPU 内存大小是对可同时运行的型号数量的唯一限制。

动态配料

批处理是一种提高推理吞吐量的技术。批处理推理请求有两种方法:客户端批处理和服务器批处理。 NVIDIA Triton 通过将单个推理请求组合在一起来实现服务器批处理,以提高推理吞吐量。它是动态的,因为它构建一个批处理,直到达到一个可配置的延迟阈值。当达到阈值时, NVIDIA Triton 安排当前批执行。调度和批处理决策对请求推断的客户机是透明的,并且根据模型进行配置。通过动态批处理, NVIDIA Triton 在满足严格延迟要求的同时最大限度地提高吞吐量。

动态批处理的一个例子是,应用程序同时运行检测和分类模型,其中分类模型的输入是从检测模型检测到的对象。在这种情况下,由于可以对任意数量的检测进行分类,因此动态批处理可以确保可以动态创建检测对象的批,并且可以将分类作为批处理请求运行,从而减少总体延迟并提高应用程序的性能。

模型组合

模型集成功能用于创建不同模型和预处理或后处理操作的管道,以处理各种工作负载。 NVIDIA Triton 集成允许用户将多个模型和预处理或后处理操作缝合到一个具有连接输入和输出的管道中。 NVIDIA Triton 只需从客户端应用程序向集成发出一个推断请求,即可轻松管理整个管道的执行。例如,尝试对车辆进行分类的应用程序可以使用 NVIDIA Triton 模型集成来运行车辆检测模型,然后在检测到的车辆上运行车辆分类模型。

定制后端

除了流行的 AI 后端, NVIDIA Triton 还支持执行定制的 C ++后端。这些工具对于创建特殊的逻辑非常有用,比如预处理和后处理,甚至是常规模型。

动态模型加载

NVIDIA Triton 有一个模型控制 API ,可用于动态加载和卸载模型。这使设备能够在应用程序需要时使用这些型号。此外,当模型使用新数据重新训练时,它可以无缝地重新部署在 NVIDIA Triton 上,而不会重新启动任何应用程序或中断服务,从而允许实时模型更新。

结论

Triton 推理服务器作为 Jetson 的共享库发布。 NVIDIA Triton 每月发布一次,增加了新功能并支持最新的框架后端。有关更多信息,请参阅 Triton 推理服务器对 Jetson 和 JetPack 的支持。

NVIDIA Triton 有助于在每个数据中心、云和嵌入式设备中实现标准化的可扩展生产 AI 。它支持多个框架,在 GPU 和 DLA 等多个计算引擎上运行模型,处理不同类型的推理查询。通过与 NVIDIA JetPack 的集成, NVIDIA Triton 可用于嵌入式应用。

关于作者

Shankar Chandrasekaran 是 NVIDIA 数据中心 GPU 团队的高级产品营销经理。他负责 GPU 软件基础架构营销,以帮助 IT 和 DevOps 轻松采用 GPU 并将其无缝集成到其基础架构中。在 NVIDIA 之前,他曾在小型和大型科技公司担任工程、运营和营销职位。他拥有商业和工程学位。

Suhas Sheshadri 是 NVIDIA 的产品经理,专注于 Jetson 软件。此前,他曾在 NVIDIA 与自主驾驶团队合作,为 NVIDIA 驱动平台优化系统软件。Mahan Salehi 是 NVIDIA 的深度学习软件产品经理,专注于 Triton 推理服务器。在 NVIDIA 之前,他是一家人工智能初创公司的联合创始人兼首席执行官,此前也曾在医疗器械行业工作。他拥有多伦多大学的工程学学位。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4935

    浏览量

    102800
  • 数据中心
    +关注

    关注

    16

    文章

    4677

    浏览量

    71949
  • 深度学习
    +关注

    关注

    73

    文章

    5492

    浏览量

    120972
收藏 人收藏

    评论

    相关推荐

    研华科技打造整体边缘AI服务器解决方案

    近年来,在AIoT数据量快速成长、硬件效能提升、绿色低碳意识抬头等趋势影响下,边缘AI应用的系统架构也出现改变。随着越来越多企业将AI模型训练由云端转移至
    的头像 发表于 11-18 15:35 134次阅读

    AI模型托管原理分析

    AI模型托管是指将训练好的AI模型部署在云端或边缘服务器
    的头像 发表于 11-07 09:33 109次阅读

    AMD助力HyperAccel开发全新AI推理服务器

    HyperAccel 是一家成立于 2023 年 1 月的韩国初创企业,致力于开发 AI 推理专用型半导体器件和硬件,最大限度提升推理工作负载的存储带宽使用,并通过将此解决方案应用于
    的头像 发表于 09-18 09:37 329次阅读
    AMD助力HyperAccel开发全新<b class='flag-5'>AI</b><b class='flag-5'>推理</b><b class='flag-5'>服务器</b>

    NVIDIA助力提供多样、灵活的模型选择

    在本案例中,Dify 以模型中立以及开源生态的优势,为广大 AI 创新者提供丰富的模型选择。其集成的 NVIDIAAPI Catalog、NVIDIA NIM和
    的头像 发表于 09-09 09:19 434次阅读

    NVIDIA携手Meta推出AI服务,为企业提供生成式AI服务

    NVIDIA近日宣布了一项重大举措,正式推出NVIDIA AI Foundry服务NVIDIA NIM(
    的头像 发表于 07-25 16:57 492次阅读

    英伟达推出全新NVIDIA AI Foundry服务NVIDIA NIM推理服务

    NVIDIA 宣布推出全新 NVIDIA AI Foundry 服务NVIDIA NIM 推理
    的头像 发表于 07-25 09:48 666次阅读

    AI服务器的特点和关键技术

    AI服务器,即人工智能服务器,是一种专门设计用于运行和加速人工智能(AI)算法与模型的硬件设备。随着人工智能技术的快速发展和普及,
    的头像 发表于 07-17 16:34 1303次阅读

    耐能推出最新的边缘AI服务器及内置耐能AI芯片的PC设备

    - 耐能的边缘 AI 服务器 KNEO 330 为中小企业带来 30-40% 的成本节省,同兼顾隐私和安全性。- 耐能的边缘 GPT AI
    的头像 发表于 06-05 10:21 575次阅读

    英伟达推出AI模型推理服务NVIDIA NIM

    英伟达近日宣布推出一项革命性的AI模型推理服务——NVIDIA NIM。这项服务将极大地
    的头像 发表于 06-04 09:15 641次阅读

    红帽发布RHEL AI开发者预览版,集成IBM Granite模型简化AI开发流程

    RHEL AI依托InstructLab开源项目,结合IBM Research的开源授权Granite大型语言模型与InstructLab模型对齐工具,采用LAB(Large-scale Alignment for chatBo
    的头像 发表于 05-08 15:01 461次阅读

    台积电:AI服务器处理预计翻番,拉动收入增长 

    台积电将 AI 服务器处理严格限定为用于 AI 训练与推理的 GPU、CPU 及 AI 加速
    的头像 发表于 04-19 15:04 328次阅读

    NVIDIA与恩智浦联手,在边缘设备上部署AI模型

    恩智浦工业及IoT边缘高级副总裁Charles Dachs表示,人工智能的创新将塑造智能互联世界的未来,融入Nvidia先进的AI培训技术以及恩智浦在工业及物联网边缘科研实力,将产生协
    的头像 发表于 03-25 16:05 828次阅读

    使用NVIDIA Triton推理服务器来加速AI预测

    这家云计算巨头的计算机视觉和数据科学服务使用 NVIDIA Triton 推理服务器来加速 AI
    的头像 发表于 02-29 14:04 544次阅读

    利用NVIDIA产品技术组合提升用户体验

    本案例通过利用NVIDIA TensorRT-LLM加速指令识别深度学习模型,并借助NVIDIA Triton推理
    的头像 发表于 01-17 09:30 652次阅读

    边缘部署模型优势多!模型量化解决边缘设备资源限制问题

    电子发烧友网报道(文/李弯弯)大模型边缘部署是将大模型部署边缘设备上,以实现更快速、更低延迟
    的头像 发表于 01-05 00:06 3348次阅读