0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

腾讯云与NVIDIA仍持续为AI推理加速进行合作

NVIDIA英伟达 来源:NVIDIA英伟达 作者:NVIDIA英伟达 2022-08-31 09:24 次阅读

腾讯云计算加速套件 TACO Kit 包含 TACO Train 和 TACO Infer 两个 AI 组件。基于 GPU 异构计算平台针对业界 AI 训练和推理任务进行了全方位的加速优化。TACO Kit 不仅大大提升了 GPU 集群上多机多卡分布式训练的效率,对于 GPU 上的模型推理也通过集成 NVIDIA TensorRT 带来了显著加速。双方团队就 GPU 推理加速这一话题将进行持续深入的合作,推出定制化的优化方案,为业界客户带来显著的性能收益。

腾讯云计算加速套件TACO Kit(Tencent Cloud Accelerated Computing Optimization Kit)是一种异构计算加速软件服务,具备领先的 GPU 共享技术和业界唯一的 GPU 在离线混部能力,搭配腾讯自研的软硬件协同优化组件和硬件厂商特有优化方案,支持物理机、云服务器、容器等产品的计算加速、图形渲染、视频转码各个应用场景,帮助用户实现全方位全场景的降本增效。

其中,AI 加速引擎 TACO Train 和 TACO Infer 是腾讯云虚拟化团队依托云帆团队,立足于腾讯内部丰富的 AI 业务场景,深耕训练框架优化、分布式框架优化、网络通信优化、推理性能优化等关键技术,携手打造的一整套 AI 加速方案。为了更好的服务用户,腾讯云决定将内部深度优化的加速方案免费提供给公有云用户,助力广大用户提高 AI 产品迭代效率。

无论对于 AI 训练或 AI 推理,如何有效提升 AI 任务的性能,节省硬件资源成本,是业界持续追求的目标。在训练方面,随着 AI 模型规模的扩大及训练数据的增多,用户对模型的迭代效率要求也随之增长,单个 GPU 的算力已无法满足大部分业务场景,使用单机多卡或多机多卡训练已成为趋势。但用户在部署分布式训练系统时,时常面临着难以充分利用 GPU 资源、训练效率低下的问题,而分布式训练性能调优却是需要同时进行通信优化、计算优化的极其复杂的问题。

在推理方面,对多种多样的工作负载进行推理加速也是业界共同的需求。这需要考虑如何对不同框架训练的模型进行统一的高效部署;如何整合各类加速软件和技术,对接不同模型和业务场景。

在训练方面,TACO Train 推出 Tencent TensorFlow(以下简称 TTF), 针对特定业务场景的 XLA,Grappler 图优化,以及自适应编译框架解决冗余编译的问题,并对 TensorFlow 1.15 添加了对CUDA 11的支持,让用户可以使用NVIDIA A100 Tensor Core GPU来进行模型训练。另外,TACO Train 推出 LightCC 这一基于 Horovod 深度优化的分布式训练框架,在保留了原生 Horovod 的易用性上,增加了性能更好的通信方式。相比 Horovod,LightCC 能够对 2D AllReduce 充分利用通信带宽;在 GPU 上训练时提供高效的梯度融合方式;并使用 TOPK 压缩通信,降低通信量,提高传输效率。最后,腾讯云自研了用户态网络协议栈 HARP,可以通过 Plug-in 的方式集成到NVIDIA NCCL中,无需任何业务改动,加速云上分布式训练性能,从而解决了目前普遍使用的内核网络协议栈存在着一些必要的开销导致其不能很好地利用高速网络设备的问题。

在推理方面,TACO Infer 通过跨平台统一的优化接口赋能用户,让渴望加速计算的用户轻松驾驭腾讯云上丰富的异构算力。TACO Infer 针对 GPU 推理任务,集成了NVIDIA TensorRT,利用其极致的模型优化能力,使推理过程能够达到令人满意的性能。此外,TACO 也将自定义的高性能 kernel 实现与TensorRT相结合,极大地提升用户的推理效率。

TACO Kit 针对 GPU 的训练优化,为诸多业务带来了显著的性能提升。在某电商平台推荐业务Wide & Deep 模型训练任务中,TACO Train 提供的方案通过定制化高性能 GPU 算子,使延迟从 14.3ms 下降至 2.8ms;整体训练性能提升 43%,成本下降 11%;在另一电商推荐场景 MMoE 模型的训练任务中,TACO Train 提供的训练方案,在NVIDIA V100 Tensor Core GPU集群上,使计算速度性价比相比于 CPU 集群提升了 3.2 倍,收敛速度性价比相比于 CPU 集群提升了 24.3 倍。

目前,腾讯云 TACO Kit 与 NVIDIA 双方团队仍持续为 AI 推理加速进行合作。未来也将针对一些常见的业务模型,围绕TensorRT进行联合优化,将模型推理的性能推向更高的水准,为业界有推理加速需求的客户提供一站式的优化方案。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4848

    浏览量

    102703
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4673

    浏览量

    128558
  • AI
    AI
    +关注

    关注

    87

    文章

    29777

    浏览量

    268054
  • 腾讯云
    +关注

    关注

    0

    文章

    207

    浏览量

    16744

原文标题:腾讯云与 NVIDIA 深度合作,打造计算加速套件 TACO Kit 加速 GPU AI 计算全链路

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    NVIDIA助力丽蟾科技打造AI训练与推理加速解决方案

    丽蟾科技通过 Leaper 资源管理平台集成 NVIDIA AI Enterprise,企业和科研机构提供了一套高效、灵活的 AI 训练与推理
    的头像 发表于 10-27 10:03 138次阅读
    <b class='flag-5'>NVIDIA</b>助力丽蟾科技打造<b class='flag-5'>AI</b>训练与<b class='flag-5'>推理</b><b class='flag-5'>加速</b>解决方案

    NVIDIA与思科合作打造企业级生成式AI基础设施

    NVIDIA 加速计算平台、NVIDIA AI Enterprise 软件和 NVIDIA NIM
    的头像 发表于 10-10 09:35 248次阅读

    英伟达推出全新NVIDIA AI Foundry服务和NVIDIA NIM推理微服务

    NVIDIA 宣布推出全新 NVIDIA AI Foundry 服务和 NVIDIA NIM 推理微服务,与同样刚推出的 Llama 3.1
    的头像 发表于 07-25 09:48 637次阅读

    HPE 携手 NVIDIA 推出 NVIDIA AI Computing by HPE,加速生成式 AI 变革

    by HPE 包含了可持续加速计算产品组合以及全生命周期服务,将简化 AI 创造价值的过程,加速生成式 AI 的发展步伐。
    的头像 发表于 06-21 14:39 303次阅读

    NVIDIA推出NVIDIA AI Computing by HPE加速生成式 AI 变革

    作为极具开创性的一站式“交钥匙”私有人工智能(private-cloud AI)解决方案,NVIDIA AI Computing by HPE 包含了可
    的头像 发表于 06-20 17:36 660次阅读

    英伟达推出AI模型推理服务NVIDIA NIM

    英伟达近日宣布推出一项革命性的AI模型推理服务——NVIDIA NIM。这项服务将极大地简化AI模型部署过程,全球的2800万英伟达开发者
    的头像 发表于 06-04 09:15 618次阅读

    英特尔助力京东用CPU加速AI推理,以大模型构建数智化供应链

    英特尔助力京东用CPU加速AI推理,以大模型构建数智化供应链
    的头像 发表于 05-27 11:50 474次阅读
    英特尔助力京东<b class='flag-5'>云</b>用CPU<b class='flag-5'>加速</b><b class='flag-5'>AI</b><b class='flag-5'>推理</b>,以大模型构建数智化供应链

    研华与英伟达深化合作, 成为NVIDIA AI Enterprise软件全球分销商

    )的软件平台。近日发布的NVIDIA AI Enterprise 5.0将为用户提供一系列微服务,其中包括NVIDIA NIM。这是一套用于对二十多种流行的AI模型
    发表于 05-07 11:21 254次阅读
    研华与英伟达深化<b class='flag-5'>合作</b>, 成为<b class='flag-5'>NVIDIA</b> <b class='flag-5'>AI</b> Enterprise软件全球分销商

    利用NVIDIA组件提升GPU推理的吞吐

    本实践中,唯品会 AI 平台与 NVIDIA 团队合作,结合 NVIDIA TensorRT 和 NVIDIA Merlin Hierarc
    的头像 发表于 04-20 09:39 610次阅读

    NVIDIA和谷歌宣布开展一项新的合作加速AI开发

    NVIDIA 和谷歌宣布开展一项新的合作,以帮助全球初创企业加速创建生成式 AI 应用和服务。
    的头像 发表于 04-11 14:03 444次阅读

    SAP与NVIDIA携手加速生成式AI在企业应用中的普及

    SAP SE 和 NVIDIA 宣布深化合作,致力于加速企业客户在 SAP 解决方案和应用组合中利用数据和生成式 AI 的变革力量。
    的头像 发表于 03-22 10:02 552次阅读

    使用NVIDIA Triton推理服务器来加速AI预测

    这家计算巨头的计算机视觉和数据科学服务使用 NVIDIA Triton 推理服务器来加速 AI 预测。
    的头像 发表于 02-29 14:04 530次阅读

    HarmonyOS:使用MindSpore Lite引擎进行模型推理

    ); OH_AI_ContextSetThreadAffinityMode(context, 1); //设置运行设备CPU,不使用Float16推理 OH_AI_DeviceInf
    发表于 12-14 11:41

    如何使用电压加速进行器件的ELF(早期失效)测试?

    如何使用电压加速进行器件的ELF(早期失效)测试? 电压加速法是一种常用于测试电子器件早期失效(Early Life Failure,ELF)的方法。该方法通过增加电压施加在器件上,模拟器件在正常
    的头像 发表于 11-17 14:35 512次阅读

    创新企业福利:腾讯 × NVIDIA 初创加速计划

    助力生成式 AI、大模型训练与推理、自动驾驶、图像处理等场景初创企业加速成长,最高获赠 10 万元扶持基金、NVIDIA 深度学习培训中心(DLI)优惠课程,以及免费的 GPU 技术支
    的头像 发表于 11-13 20:40 539次阅读
    创新企业<b class='flag-5'>云</b>福利:<b class='flag-5'>腾讯</b><b class='flag-5'>云</b> × <b class='flag-5'>NVIDIA</b> 初创<b class='flag-5'>加速</b>计划