0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA助力阿里巴巴天猫精灵大幅提升服务运行效率

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 作者:NVIDIA英伟达企业解 2022-07-14 10:05 次阅读

天猫精灵智能引擎团队、智能合成团队与 NVIDIA 团队合作,通过利用 NVIDIA TensorRT 加速流式语音合成(Text-to-Speech,以下简称 TTS)深度学习模型,并借助 NVIDIA Triton 推理服务器在 NVIDIA T4 GPU 上进行高效部署,帮助阿里巴巴天猫精灵流式 TTS 服务将吞吐提升 50%,首包延时降低 35%,大幅提升服务运行效率,提升资源利用率。

天猫精灵(Tmall Genie)是阿里巴巴消费者人工智能一级公司,于 2017 年 9 月发布第一代天猫精灵智能终端 X1。让用户以自然语言对话的交互方式,实现影音娱乐、购物、信息查询、生活服务等功能操作,成为消费者的家庭助手。目前,天猫精灵已经服务超过 3000 万中国家庭,在三方权威统计中不仅智能音箱产品出货量排名中国前列,其产品并已可连接 3 亿以上的家庭 AIoT 生态设备。

除了智能音箱终端产品外,天猫精灵推出 AliGenie 开放平台,旨在构建基于 AI 的多模态交互及服务系统,为多种云应用提供跨系统服务能力,实现端云协同、跨平台多终端快速接入。该开放平台提供高性能且高质量的语音 AI 能力,包括多种不同音色的高度拟人、高度流畅的语音合成算法等。

此外,天猫精灵基于 AliGenie 开放平台,还提供基于芯片/模组的硬件解决方案,以及通用的热门行业解决方案。专注生活多个领域,提供一站式解决方案。

本案例中负责实施的是天猫精灵智能引擎团队以及天猫精灵智能合成团队。天猫精灵智能合成团队负责语音合成等生成式算法的研究及开发;天猫精灵智能引擎团队主要支撑天猫精灵业务线各项业务的工程化落地,如语音识别、语义理解、语音合成、图像处理等 AI 核心场景。

流式 TTS 是天猫精灵工作流中最为重要的 AI 环节之一。在这一场景中,天猫精灵智能引擎团队面临着如下挑战:

首先流式 TTS 对于首包延时有着严格要求,否则用户将会因为较长的反馈迟滞而感到不适,这就要求 TTS 工作管线的每个模块的推理能够高效地执行。

另一方面,团队希望 TTS 服务的吞吐能够达到较高水平,这就需要在服务端对收到的多个流式合成请求进行 Batching 的处理。但流式 TTS 工作管线包含声学模型和声码器等多个模块,在 GPU 上进行 Batching 操作需要正确维护和切换每个合成请求所需的模型状态,因此需要特别设计工作管线和调度逻辑。

最后,如何尽可能提升 GPU 资源利用率是降本增效的关键。最直接的思路便是在一张 GPU 上部署多个模型来提升利用率。因此,如何在同一张 GPU 上对多个模型进行高效的调度和管理也成为了一个挑战。

基于以上挑战,天猫精灵智能引擎团队、智能合成团队与 NVIDIA 解决方案架构团队合作,采用NVIDIA TensorRT对模型进行推理加速,并利用NVIDIA Triton 推理服务器在 T4 GPU 上进行在线部署,形成了一套高效的流式 TTS 推理部署方案。在提升用户体验的同时,大幅降低了服务成本。

首先,该方案使用 TensorRT 对流式 TTS 工作管线中的每一个模型进行优化加速。我们将训练好的声学模型和声码器,导出为 ONNX 模型格式,再使用 TensorRT 将 ONNX 模型转换为最优化的 TensorRT Engine。使用 TensorRT 加速的 TTS 模型,能显著提升推理执行的速度,从而尽可能压缩首包延时。

另一方面,天猫精灵智能引擎团队与 NVIDIA 团队合作设计并实现了一种基于 Triton 的流式 TTS 推理部署管线。在该方案中,我们使用 Triton Custom Backend 实现串联 TTS 各个模型的调度管线。对于管线中的每一步推理处理,会调用部署在 Triton 上的 TTS TensorRT Engine。如此一来,Triton 便可将发送到服务端的 TTS 请求,有条不紊地调度到管线中的每个模块进行推理执行。并且,在该管线中,我们实现了适用于 GPU 平台的流式 TTS 高效调度机制,通过在服务端 Custom Backend 中维护每个合成请求的状态,实时地将模型输入和状态动态聚合为对 GPU 友好的 Batch,交由管线中各个模块的 TensorRT Engine 进行推理,从而大幅提升管线吞吐和 GPU 利用率,同时保证了对每个合成请求的快速响应。此外,流式 TTS 中一句话的合成请求会对应多个回包,每个回包承载一个音频块。针对这种一收多发的推理模式,我们利用 Triton 提供的 Decoupled Responses 机制,保证一个请求的多个回包能够正确高效地发送给对应的客户端,使用户能听到完整且流畅的音频。

最后,为了进一步提升 GPU 资源利用率,该方案利用了 Triton 的 Concurrent Model Execution 特性。该特性将部署在 Triton 上的模型或模块,以模型实例的方式管理:一个模型可以部署多个实例,不同模型的实例也可部署在同一GPU上。因此该方案开启了 Concurrent Model Execution 后,同一个 T4 GPU 上可部署多个 TTS 发音模型,使得多个模型实例的推理在 GPU 算力资源充足时可以达到并行执行。如此一来,GPU 算力资源可以被多个模型的并行执行充分利用起来,达到降本增效的目的。

通过使用基于 NVIDIA TensorRT 和 Triton 推理服务器的流式 TTS 推理部署方案,天猫精灵 TTS 服务的吞吐提升约 50%,首包延时降低约 35% ,帮助天猫精灵节省了业务成本,提升了用户体验。

审核编辑:汤梓红
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4929

    浏览量

    102791
  • 阿里巴巴
    +关注

    关注

    7

    文章

    1608

    浏览量

    47101
  • TTS
    TTS
    +关注

    关注

    0

    文章

    41

    浏览量

    10767
  • 天猫精灵
    +关注

    关注

    4

    文章

    95

    浏览量

    11354

原文标题:NVIDIA TensorRT 和 Triton 助力阿里巴巴天猫精灵显著提升流式语音合成服务运行效率

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    阿里巴巴国际站首推全流程AI产品

    近日,阿里巴巴国际站正式推出了其首个全流程AI产品——AI生意助手2.0。这一创新产品的问世,标志着阿里巴巴助力中小企业外贸经营方面迈出了重要一步。
    的头像 发表于 10-30 16:12 184次阅读

    阿里巴巴完成双重主要上市

    8月28日阿里巴巴在香港联交所主板主要上市,成为在港交所、纽交所双重主要上市的公司。如今,阿里巴巴完成双重主要上市。 此外,有投资机构认为阿里巴巴最快有望于9月份就纳入港股通。 截至8月28日收盘,
    的头像 发表于 08-29 16:06 344次阅读

    阿里巴巴季报出炉 阿里云二季度营收增长6%

    阿里巴巴季报出炉我们一起来围观一下,根据阿里巴巴集团发布的截至2024年6月30日的第二季度经营业绩数据显示,阿里巴巴该季度营收达到2432.4亿元,而上年同期营收2341.56亿元,同比增4%;经
    的头像 发表于 08-16 16:45 460次阅读

    阿里巴巴AI赋能海外扩张新篇章

    中国电商巨头阿里巴巴集团正积极重启并加速其海外扩张战略,以应对国内电商市场竞争加剧的挑战。此次扩张的一大亮点在于,阿里巴巴将人工智能(AI)技术深度融入其国际业务布局中,开启了海外发展的新篇章。
    的头像 发表于 07-12 17:56 945次阅读

    阿里巴巴投资逐际动力,深化智能机器人布局

    近日,阿里巴巴集团对深圳逐际动力科技有限公司(简称:逐际动力)进行战略投资,此举再次体现了阿里巴巴在智能机器人领域的坚定布局。
    的头像 发表于 05-22 11:52 755次阅读

    阿里巴巴集团2024财年稳健增长

    阿里巴巴集团近日公布了其2024财年第四季度及全年业绩报告,数据亮眼。在经历一年的主动变革后,阿里巴巴重回健康增长轨道。
    的头像 发表于 05-16 11:23 638次阅读

    阿里巴巴杭州全球总部正式启用

    近日,阿里巴巴在杭州的未来科技城正式揭开了其全球总部新园区的面纱。这座园区不仅是阿里巴巴目前规模最大的综合性办公空间,更是其绿色、科技、可持续发展理念的生动体现。
    的头像 发表于 05-13 11:15 516次阅读

    阿里巴巴减持小鹏汽车股份至9.24%

    据美东时间 3 月 20 日披露,小鹏汽车于美国证券交易委员会文件中透露,阿里巴巴旗下淘系平台淘宝中国控股有限公司(Taobao China Holding Limited)正计划出售 3300 万份小鹏汽车 ADS,市值约为 3.14 亿美元(约合人民币 22.61 亿元)。
    的头像 发表于 03-21 10:45 677次阅读

    阿里巴巴重返中国顶级电商轨道

    阿里巴巴集团董事会主席蔡崇信近日宣布,经过一系列架构重组和管理层变动后,阿里巴巴已成功重返中国顶级电商轨道。蔡崇信在讲话中强调,公司正在逐步调整战略,重新定位其在电商领域的领导地位。
    的头像 发表于 02-27 14:29 870次阅读

    阿里巴巴涨超3% 财报或超预期

    阿里巴巴涨超3% 今日港股开盘后阿里巴巴涨超3%,恒生科技表现也很亮眼。快手、比亚迪电子、联想集团等多股上涨。 阿里巴巴将于2月7日发布2024财年第三季度财报,业界分析会超预期。
    的头像 发表于 02-06 16:05 1456次阅读

    软银子公司确认减持阿里 阿里巴巴最大股东易主

    软银子公司确认减持阿里 软银集团旗下全资子公司Skybridge LLC在回应关于买卖阿里巴巴股票时表示,此前已经与金融机构签订了预付远期合约涉及5.21亿股;由于近几年已经分阶段实施并完成实物结算
    的头像 发表于 01-26 20:45 1754次阅读

    软银已完成减持阿里巴巴股份

    近日,软银集团全资子公司Skybridge LLC宣布,已完成对阿里巴巴股份的减持。这一决定是在经过深思熟虑后作出的,旨在优化公司的财务结构和未来的投资策略。
    的头像 发表于 01-26 15:58 811次阅读

    马云大幅增持阿里股票 马云取代软银成为阿里巴巴最大股东

    马云大幅增持阿里股票 马云取代软银成为阿里巴巴最大股东 有媒体报道,阿里巴巴创始人马云、蔡崇信近期大笔增持了阿里的股票,而且已经买成了最大股
    的头像 发表于 01-24 18:55 1037次阅读

    镭神智能入选阿里巴巴诸神之战2023年度智能制造赛道之星

    近日,阿里云发布《Create@阿里巴巴诸神之战2023年度新势力榜单》,镭神智能入选Create@阿里巴巴诸神之战2023年度智能制造赛道之星。据悉,2023年,Create@阿里巴巴
    的头像 发表于 01-20 08:23 405次阅读
    镭神智能入选<b class='flag-5'>阿里巴巴</b>诸神之战2023年度智能制造赛道之星

    深夜,阿里巴巴“出售”小鹏?

    对此,阿里巴巴集团相关负责人表示,“我们根据自身的资本管理目标,出售了所持的部分小鹏股份。小鹏是中国电动汽车领域的领军者之一,我们已与其建立了战略合作关系。我们相信小鹏的前景,期待与该公司的持续合作。”
    的头像 发表于 12-18 16:31 598次阅读