0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA助力腾讯AI LAB打造一体AI生态

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-04-21 10:50 次阅读

案例简介

• 本案例中通过使用NVIDIA T4 GPUTensorRT,OpenGL,CUDA, CUDA/OpenGL interoperability等GPU软件技术栈,助力腾讯AI LAB虚拟人项目在人脸生成阶段达到了超过3倍的加速。

• 本案例主要应用到 NVIDIA T4 GPU,TensorRT, OpenGL,CUDA, CUDA/OpenGL interoperability等AI加速平台。

客户简介及应用背景

腾讯AI LAB致力于打造产学研用一体的 AI 生态,主要的研究方向包括计算机视觉语音识别、自然语言处理和机器学习,结合腾讯场景与业务优势,在社交AI,游戏AI,内容AI及平台AI等领域取得了显著的成果,技术被应用于微信、QQ、天天快报和QQ音乐等上百个腾讯产品。其中围棋AI “绝艺” 多次获得世界人工智能围棋大赛的冠军。

腾讯AI LAB打造的虚拟人,具有自然,生动且饱含情绪的表情,其背后由一套腾讯 AI Lab 自研的复杂系统支撑,系统首先要从文本中提取不同信息,包括表情、情感、重音位置、和激动程度等;之后,这些信息被输入到模型中生成,再同步生成语音、口型和表情参数,最终才有了虚拟人自然生动的表现。

客户挑战

根据虚拟人物需要表达的语言和情感,生成自然生动的人脸,是打造虚拟人重要的一个阶段。需要先渲染人脸的纹理图和渲染图,并将它们输入到深度学习模型中,最终生成自然生动的人脸。在这个过程中,需要用到OpenGL、OpenCV、CUDA、TensorFlow等软件技术,腾讯原有的方案有很多CPU与GPU的数据交互,且有很多计算型的操作通过CPU来实现,效率非常低下, 无论是吞吐还是延时都不满足要求,具体体现在:

OpenGL在GPU上渲染好图像绘制到framebuffer后,需要先用glReadPixels拷贝数据到CPU,再用cudaMemcpy将数据从CPU拷回到GPU以进行深度学习模型的推理,这里有两次不必要的CPU与GPU之间的数据传输。

颜色空间转换,深度学习推理的前后处理等操作在CPU上完成,效率非常低下。

应用方案

NVIDIA 技术在虚拟人项目的渲染和推理阶段均提供了强大的支持。在渲染阶段,NVIDIA 助力提升了颜色空间转换效率,降低整体延时,主要体现在:

用NVIDIA CUDA/OpenGL interoperability 代替腾讯之前使用glReadPixels在CUDA和OpenGL之间拷贝数据的方案,大幅减少了CPU和GPU之间的数据拷贝,从而降低了整体的延时。

把原来在CPU上做的颜色空间转换的操作,迁移到NVIDIA T4 GPU上用CUDA kernel实现,利用GPU的并行优势,大大提高了颜色空间转换的效率,进一步降低了整体的延时。

将多帧的mesh组成一个batch分别绘制到framebuffer的不同区域,在提高OpenGL并行度的同时,给下一阶段的深度学习模型的推理提供了更大的输入数据的batch size,充分发挥NVIDIA T4 GPU高并发计算的优势,进一步提高GPU的利用率,从而提高整体的吞吐。

在推理阶段,NVIDIA助力提高推理整体吞吐,降低推理延时,主要体现在以下几点:用NVIDIA TensorRT替换TensorFlow对模型推理进行加速,并利用NVIDIA T4 GPU上的FP16 Tensor Core可以极大提高矩阵乘等操作速度的特性,在最终视觉效果几乎不变的情况下,进一步提升推理的吞吐,降低推理延时。

用NVIDIA TensorRT替换TensorFlow对模型推理进行加速,并利用NVIDIA T4 GPU上的FP16 Tensor Core可以极大提高矩阵乘等操作速度的特性,在最终视觉效果几乎不变的情况下,进一步提升推理的吞吐,降低推理延时。

在NVIDIA T4 GPU上利用CUDA kernel 替代原始流程中在CPU上使用OpenCV实现 Mat-to-Tensor 和 Tensor-to-Mat 等格式转换操作,并使用OpenCV-CUDA版替换OpenCV-CPU版的部分操作(如Resize等),充分发挥GPU相对于CPU更高的并发优势,在加速这些操作的同时减少GPU到CPU的数据传输通信量,提高格式转换效率,降低端到端的推理延时。

通过Pipeline的方式,使GPU和CPU上的操作进行overlap,并结合NVIDIA的MPS技术提高单卡上多个进程同时处理多个数据流的同时提高整体的吞吐。

使用效果及影响

在虚拟人项目中,NVIDIA CUDA技术大幅提升了渲染速度,NVIDIA TensorRT 方便快速地加速深度学习模型的推理,结合MPS技术,实现了单卡多路推流,使整体推理效率达到了原来的三倍!性能的大幅提升,既提升了GPU的利用率,又降低了AI技术的使用成本。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5104

    浏览量

    104370
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4828

    浏览量

    129744
  • AI
    AI
    +关注

    关注

    87

    文章

    32367

    浏览量

    271473
收藏 人收藏

    相关推荐

    软通动力昇腾AI一体助力中铁鲁班AI升级

    近期,随着DeepSeek大模型的推出,人工智能正以前所未有的速度重塑各行业的发展格局。紧随行业趋势,中铁鲁班基于软通动力昇腾AI一体机自主打造鲁班平台大模型底座-鲁小宝,并实现与DeepSeek大模型全栈应用对接,为各单位招投
    的头像 发表于 02-24 18:00 462次阅读

    智海AI教育一体机:加速人工智能教育普及

    壁仞科技携手中兴通讯、浙江大学上海高等研究院及蓦科技,共同推出了智海AI教育一体机。这款一体机产品是壁仞科技针对行业特定需求,联合多方力量共同打造
    的头像 发表于 02-11 11:47 417次阅读

    NVIDIA推出可分析视频的AI智能蓝图

    由 Metropolis 驱动的全新 NVIDIA AI Blueprint 可助力企业和个人提高生产力、增强安全性,甚至还能帮助 NVIDIA 首席执行官提升快球投球水平。
    的头像 发表于 01-09 11:10 365次阅读

    NVIDIA推出多个生成式AI模型和蓝图

    NVIDIA 宣布推出多个生成式 AI 模型和蓝图,将 NVIDIA Omniverse 一体化进步扩展至物理
    的头像 发表于 01-08 10:48 217次阅读

    NVIDIA和GeForce RTX GPU专为AI时代打造

    NVIDIA 和 GeForce RTX GPU 专为 AI 时代打造
    的头像 发表于 01-06 10:45 288次阅读

    丽台科技推出WS3008 AI一体

    随着 AI 技术的不断进步和商业应用的深入探索,AI 一体机作为企业智能化转型的重要载体,正逐步展现出其独特的价值和潜力。为适用于更多企业转型需求以及更灵活的场景化要求,丽台科技现推出 AI
    的头像 发表于 11-27 11:11 480次阅读

    赖耶科技通过NVIDIA AI Enterprise平台打造超级AI工厂

    NVIDIA 技术团队保持合作。赖耶科技通过NVIDIA AI Enterprise平台打造的超级 AI 工厂,致力于加速大模型场景应用
    的头像 发表于 11-19 14:55 583次阅读

    NVIDIA助力Amdocs打造生成式AI智能

    正在使用NVIDIA DGX Cloud 与 NVIDIA AI Enterprise软件开发和交付基于商用大语言模型(LLM)和领域适配模型的解决方案。该公司还在使用NVIDIA
    的头像 发表于 11-19 14:48 479次阅读

    使用全新NVIDIA AI Blueprint开发视觉AI智能

    为提高生产力、优化流程和创造更加安全的空间,埃森哲、戴尔科技和联想等公司正在使用全新 NVIDIA AI Blueprint 开发视觉 AI 智能
    的头像 发表于 11-06 13:58 602次阅读

    NVIDIA助力印度打造AI基础设施

    在孟买举办的 NVIDIA AI Summit 上,黄仁勋和穆克什·安巴尼(Mukesh Ambani)探讨了关于 AI 基础设施的投资,这些投资有望为各行各业带来变革。
    的头像 发表于 10-27 09:44 359次阅读

    存算一体架构创新助力国产大算力AI芯片腾飞

    在湾芯展SEMiBAY2024《AI芯片与高性能计算(HPC)应用论坛》上,亿铸科技高级副总裁徐芳发表了题为《存算一体架构创新助力国产大算力AI芯片腾飞》的演讲。
    的头像 发表于 10-23 14:48 501次阅读

    如何选择合适的边缘ai分析一体机解决方案

    的解决方案,成为企业决策者亟需解决的问题。本文将从需求分析、技术考量、生态兼容及未来可扩展性四个方面,探讨如何科学合理地选择合适的边缘AI分析一体机。、明确需求分析
    的头像 发表于 08-08 15:25 364次阅读
    如何选择合适的边缘<b class='flag-5'>ai</b>分析<b class='flag-5'>一体</b>机解决方案

    微链道爱加入元脑生态,将打造AI视觉标注训练一体

    北京2024年7月8日 /美通社/ -- 近日,北京微链道爱科技有限公司(简称"微链道爱")与浪潮信息签署元脑生态战略合作协议。双方将共同打造AI视觉标注训练一体机,支持高效的数据标注
    的头像 发表于 07-08 15:31 496次阅读

    赛轮思与NVIDIA合作,利用生成式AI打造代车内体验

    AI 驱动的移动出行创新企业与 NVIDIA 合作,打造代车内体验。
    的头像 发表于 05-23 10:12 1339次阅读

    润和软件基于华为昇腾AI打造的IntelliCore AI解决方案一体

    江苏润和软件股份有限公司(以下简称“润和软件”)基于华为昇腾AI打造的IntelliCore AI解决方案一体机,提供全方位的AI与数据服
    的头像 发表于 05-09 09:18 1320次阅读
    润和软件基于华为昇腾<b class='flag-5'>AI</b>所<b class='flag-5'>打造</b>的IntelliCore <b class='flag-5'>AI</b>解决方案<b class='flag-5'>一体</b>机