0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA加速虚拟人项目渲染与推理效率

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 作者:NVIDIA英伟达企业解 2021-10-22 09:12 次阅读

腾讯AI LAB致力于打造产学研用一体的 AI 生态,主要的研究方向包括计算机视觉语音识别、自然语言处理和机器学习,结合腾讯场景与业务优势,在社交AI、游戏AI、内容AI及平台AI等领域取得了显著的成果,技术被应用于微信、QQ、天天快报和QQ音乐等上百个腾讯产品。其中围棋AI “绝艺” 多次获得世界人工智能围棋大赛的冠军。

腾讯AI LAB打造的虚拟人,具有自然、生动且饱含情绪的表情,其背后由一套腾讯 AI LAB 自研的复杂系统支撑,系统首先要从文本中提取不同信息,包括表情、情感、重音位置、和激动程度等;提取之后,这些信息被输入到模型中生成,再同步生成语音、口型和表情参数,最终才有了虚拟人自然生动的表现。

虚拟人物打造需要更高效平台

根据虚拟人物需要表达的语言和情感,生成自然生动的人脸,是打造虚拟人重要的一个阶段。需要先渲染人脸的纹理图和渲染图,并将它们输入到深度学习模型中,最终生成自然生动的人脸。在这个过程中,需要用到OpenGL、OpenCV、CUDA、TensorFlow等软件技术,腾讯原有的方案有很多CPUGPU的数据交互,且有很多计算型的操作通过CPU来实现,效率非常低下, 无论是吞吐还是延时都不满足要求,具体体现在:

OpenGL在GPU上渲染好图像绘制到framebuffer后,需要先用glReadPixels拷贝数据到CPU,再用cudaMemcpy将数据从CPU拷回到GPU以进行深度学习模型的推理,这里有两次不必要的CPU与GPU之间的数据传输。

颜色空间转换方面,深度学习推理的前后处理等操作在CPU上完成,效率非常低下。

NVIDIA 加速虚拟人项目渲染与推理效率

NVIDIA 技术在虚拟人项目的渲染和推理阶段均提供了强大的支持。在渲染阶段,NVIDIA 助力提升了颜色空间转换效率,降低整体延时,主要体现在:

1. 用NVIDIA CUDA/OpenGL interoperability 代替腾讯之前使用glReadPixels在CUDA和OpenGL之间拷贝数据的方案,大幅减少了CPU和GPU之间的数据拷贝,从而降低了整体的延时。

2. 把原来在CPU上做的颜色空间转换的操作,迁移到NVIDIA T4 GPU上用CUDA kernel实现,利用GPU的并行优势,大大提高了颜色空间转换的效率,进一步降低了整体的延时。

3. 将多帧的mesh组成一个batch分别绘制到framebuffer的不同区域,在提高OpenGL并行度的同时,给下一阶段的深度学习模型的推理提供了更大的输入数据的batch size,充分发挥NVIDIA T4 GPU高并发计算的优势,进一步提高GPU的利用率,从而提高整体的吞吐。

在推理阶段,NVIDIA助力提高推理整体吞吐,降低推理延时,主要体现在以下几点:

1. 用NVIDIA TensorRT替换TensorFlow对模型推理进行加速,并利用NVIDIA T4 GPU上的FP16 Tensor Core可以极大提高矩阵乘等操作速度的特性,在最终视觉效果几乎不变的情况下,进一步提升推理的吞吐,降低推理延时。

2. 在NVIDIA T4 GPU上利用CUDA kernel 替代原始流程中在CPU上使用OpenCV实现 Mat-to-Tensor 和 Tensor-to-Mat 等格式转换操作,并使用OpenCV-CUDA版替换OpenCV-CPU版的部分操作(如Resize等),充分发挥GPU相对于CPU更高的并发优势,在加速这些操作的同时减少GPU到CPU的数据传输通信量,提高格式转换效率,降低端到端的推理延时。

3. 通过Pipeline的方式,使GPU和CPU上的操作进行overlap,并结合NVIDIA的MPS技术提高单卡上多个进程同时处理多个数据流的同时提高整体的吞吐。

在虚拟人项目中,NVIDIA CUDA技术大幅提升了渲染速度,NVIDIA TensorRT 方便快速地加速深度学习模型的推理,结合MPS技术,实现了单卡多路推流,使整体推理效率达到了原来的三倍!性能的大幅提升,既提升了GPU的利用率,又降低了AI技术的使用成本。责任编辑:haq

腾讯AI LAB致力于打造产学研用一体的 AI 生态,主要的研究方向包括计算机视觉、语音识别、自然语言处理和机器学习,结合腾讯场景与业务优势,在社交AI、游戏AI、内容AI及平台AI等领域取得了显著的成果,技术被应用于微信、QQ、天天快报和QQ音乐等上百个腾讯产品。其中围棋AI “绝艺” 多次获得世界人工智能围棋大赛的冠军。 腾讯AI LAB打造的虚拟人,具有自然、生动且饱含情绪的表情,其背后由一套腾讯 AI LAB 自研的复杂系统支撑,系统首先要从文本中提取不同信息,包括表情、情感、重音位置、和激动程度等;提取之后,这些信息被输入到模型中生成,再同步生成语音、口型和表情参数,最终才有了虚拟人自然生动的表现。

虚拟人物打造需要更高效平台

根据虚拟人物需要表达的语言和情感,生成自然生动的人脸,是打造虚拟人重要的一个阶段。需要先渲染人脸的纹理图和渲染图,并将它们输入到深度学习模型中,最终生成自然生动的人脸。在这个过程中,需要用到OpenGL、OpenCV、CUDA、TensorFlow等软件技术,腾讯原有的方案有很多CPU与GPU的数据交互,且有很多计算型的操作通过CPU来实现,效率非常低下, 无论是吞吐还是延时都不满足要求,具体体现在:

OpenGL在GPU上渲染好图像绘制到framebuffer后,需要先用glReadPixels拷贝数据到CPU,再用cudaMemcpy将数据从CPU拷回到GPU以进行深度学习模型的推理,这里有两次不必要的CPU与GPU之间的数据传输。

颜色空间转换方面,深度学习推理的前后处理等操作在CPU上完成,效率非常低下。

NVIDIA加速虚拟人项目渲染与推理效率

NVIDIA 技术在虚拟人项目的渲染和推理阶段均提供了强大的支持。在渲染阶段,NVIDIA 助力提升了颜色空间转换效率,降低整体延时,主要体现在: 1. 用NVIDIA CUDA/OpenGL interoperability 代替腾讯之前使用glReadPixels在CUDA和OpenGL之间拷贝数据的方案,大幅减少了CPU和GPU之间的数据拷贝,从而降低了整体的延时。 2. 把原来在CPU上做的颜色空间转换的操作,迁移到NVIDIA T4 GPU上用CUDA kernel实现,利用GPU的并行优势,大大提高了颜色空间转换的效率,进一步降低了整体的延时。 3. 将多帧的mesh组成一个batch分别绘制到framebuffer的不同区域,在提高OpenGL并行度的同时,给下一阶段的深度学习模型的推理提供了更大的输入数据的batch size,充分发挥NVIDIA T4 GPU高并发计算的优势,进一步提高GPU的利用率,从而提高整体的吞吐。

在推理阶段,NVIDIA助力提高推理整体吞吐,降低推理延时,主要体现在以下几点:
1. 用NVIDIA TensorRT替换TensorFlow对模型推理进行加速,并利用NVIDIA T4 GPU上的FP16 Tensor Core可以极大提高矩阵乘等操作速度的特性,在最终视觉效果几乎不变的情况下,进一步提升推理的吞吐,降低推理延时。
2. 在NVIDIA T4 GPU上利用CUDA kernel 替代原始流程中在CPU上使用OpenCV实现 Mat-to-Tensor 和 Tensor-to-Mat 等格式转换操作,并使用OpenCV-CUDA版替换OpenCV-CPU版的部分操作(如Resize等),充分发挥GPU相对于CPU更高的并发优势,在加速这些操作的同时减少GPU到CPU的数据传输通信量,提高格式转换效率,降低端到端的推理延时。
3. 通过Pipeline的方式,使GPU和CPU上的操作进行overlap,并结合NVIDIA的MPS技术提高单卡上多个进程同时处理多个数据流的同时提高整体的吞吐。 在虚拟人项目中,NVIDIA CUDA技术大幅提升了渲染速度,NVIDIA TensorRT 方便快速地加速深度学习模型的推理,结合MPS技术,实现了单卡多路推流,使整体推理效率达到了原来的三倍!性能的大幅提升,既提升了GPU的利用率,又降低了AI技术的使用成本。 责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    10824

    浏览量

    211109
  • NVIDIA
    +关注

    关注

    14

    文章

    4930

    浏览量

    102794
  • AI
    AI
    +关注

    关注

    87

    文章

    30095

    浏览量

    268357
  • 深度学习
    +关注

    关注

    73

    文章

    5492

    浏览量

    120961

原文标题:NVIDIA TensorRT和GPU软件栈助力腾讯AI LAB打造生动的虚拟人

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    NVIDIA助力丽蟾科技打造AI训练与推理加速解决方案

    丽蟾科技通过 Leaper 资源管理平台集成 NVIDIA AI Enterprise,为企业和科研机构提供了一套高效、灵活的 AI 训练与推理加速解决方案。无论是在复杂的 AI 开发任务中,还是在高并发
    的头像 发表于 10-27 10:03 160次阅读
    <b class='flag-5'>NVIDIA</b>助力丽蟾科技打造AI训练与<b class='flag-5'>推理</b><b class='flag-5'>加速</b>解决方案

    数字王国与AWS达成合作,推动自主虚拟人技术云端发展

    近日,数字王国与Amazon Web Services(AWS)达成了一项重要合作,双方将携手推动自主虚拟人及其技术向云端迁移。
    的头像 发表于 10-09 16:38 342次阅读

    微软Azure AI语音服务革新:引入虚拟人形象,文本一键转生动视频

    微软于8月23日宣布,在其领先的Azure AI语音服务中融入了一项革命性创新——虚拟人形象功能,此功能彻底颠覆了传统交互方式,让文本转视频的过程变得前所未有的直观与生动。
    的头像 发表于 08-23 16:25 663次阅读

    魔搭社区借助NVIDIA TensorRT-LLM提升LLM推理效率

    “魔搭社区是中国最具影响力的模型开源社区,致力给开发者提供模型即服务的体验。魔搭社区利用NVIDIA TensorRT-LLM,大大提高了大语言模型的推理性能,方便了模型应用部署,提高了大模型产业应用效率,更大规模地释放大模型的
    的头像 发表于 08-23 15:48 381次阅读

    英伟达推出全新NVIDIA AI Foundry服务和NVIDIA NIM推理微服务

    NVIDIA 宣布推出全新 NVIDIA AI Foundry 服务和 NVIDIA NIM 推理微服务,与同样刚推出的 Llama 3.1 系列开源模型一起,为全球企业的生成式 AI
    的头像 发表于 07-25 09:48 665次阅读

    LLM大模型推理加速的关键技术

    LLM(大型语言模型)大模型推理加速是当前人工智能领域的一个研究热点,旨在提高模型在处理复杂任务时的效率和响应速度。以下是对LLM大模型推理加速
    的头像 发表于 07-24 11:38 766次阅读

    NVIDIA加速微软最新的Phi-3 Mini开源语言模型

    NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微软最新的 Phi-3 Mini 开源语言模型。TensorRT-LLM 是一个开源库,用于优化从 PC 到云端的 NVID
    的头像 发表于 04-28 10:36 480次阅读

    利用NVIDIA组件提升GPU推理的吞吐

    本实践中,唯品会 AI 平台与 NVIDIA 团队合作,结合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV(HKV)将推理的稠密网络和热
    的头像 发表于 04-20 09:39 637次阅读

    抖音严打不当虚拟人物AI生成行为,优化平台生态环境

    据悉,去年8月抖音发布了《人工智能生成内容的平台规范及行业倡议》,强调禁止利用AI技术制作虚拟人物进行低质量创作。今年3月27日,抖音安全中心又发布公告表示,发现少数账号依然存在使用AI技术生成虚拟人物的违规行为。
    的头像 发表于 03-27 14:54 592次阅读

    使用NVIDIA Triton推理服务器来加速AI预测

    这家云计算巨头的计算机视觉和数据科学服务使用 NVIDIA Triton 推理服务器来加速 AI 预测。
    的头像 发表于 02-29 14:04 543次阅读

    抢滩赛道先机走出科创新路,布局AI+虚拟人驱动微美全息(WIMI.US)快速抢占市场新空间

    自从,随着元宇宙概念的火热,市场对于虚拟人的需求日益高涨。同时,随着AI大模型的突破,虚拟人被赋予多种角色,如AI虚拟人主播、AI虚拟人员工等,各行各业都在经历一场由
    的头像 发表于 02-02 11:06 335次阅读
    抢滩赛道先机走出科创新路,布局AI+<b class='flag-5'>虚拟人</b>驱动微美全息(WIMI.US)快速抢占市场新空间

    AI克隆技术可用于创建虚拟人物形象!它的技术原理和发展趋势

    电子发烧友网报道(文/李弯弯)AI克隆技术主要指的是人工智能技术用于复制或克隆人类的行为、声音、形象等方面的技术。这种技术可以用于生成虚拟人物、虚拟角色、虚拟明星等,以及为其创建独特的语音、外观
    的头像 发表于 01-08 08:28 2571次阅读
    AI克隆技术可用于创建<b class='flag-5'>虚拟人</b>物形象!它的技术原理和发展趋势

    子曰教育大模型加速落地应用:推出虚拟人AI产品,新增口语定级等功能

    最新推出的 Hi Echo 2.0 版本进行了四大能力创新升级——新增口语难度分级;更丰富的虚拟人形象;更多元的对话场景及更具个性化的对话评价报告。即便是零基础的英语学习者,也可以毫无压力地开口说英文,在不同语境中快速提升口语能力,实现真正的英语对话自由。
    的头像 发表于 12-21 16:57 994次阅读

    虚拟人产业链及市场前景报告

    电子发烧友网站提供《虚拟人产业链及市场前景报告.pdf》资料免费下载
    发表于 12-08 10:47 20次下载
    <b class='flag-5'>虚拟人</b>产业链及市场前景报告

    NVIDIA 初创加速计划 Omniverse 加速

    的重要力量。基于 NVIDIA 全栈式 AI 计算平台和 Omniverse TM 平台上的生成式 AI 创作实践,让企业、开发者能够了解可落地的生成式 AI 内容创作技术及其技术趋势与当前边界。 NVIDIA 初创加速计划 是
    的头像 发表于 12-04 20:35 618次阅读
    <b class='flag-5'>NVIDIA</b> 初创<b class='flag-5'>加速</b>计划 Omniverse <b class='flag-5'>加速</b>营