0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

图灵设计NVENC单元的性能和质量

星星科技指导员 来源:NVIDIA 作者:Roman Arzumanyan 2022-04-28 15:43 次阅读

从开普勒开始的所有 NVIDIA GPUs 都支持完全加速的硬件视频编码; GPUs 从费米开始支持完全加速的硬件视频解码。最近发布的图灵硬件提供了张量核心和更好的机器学习性能,但新的 GPU 还加入了新的多媒体功能,如改进的 NVENC 单元,以在视频编解码器中提供更好的压缩和图像质量。

让我们更仔细地看一看图灵设计的新的 NVENC 单元的性能和质量。

NVENC 性能测试设置

H.264 出现于 15 年前,已经成为一种无处不在的视频编码标准。它已经成为业界最重要和最广泛的编解码器。这些测试展示了 Tesla T4 与著名的开源编码器 libx264 在两种情况下的性能:

高质量模式,代表最常见的编码方案与 VBR 控制和 B 帧启用。

低延迟快速模式,适用于对延迟敏感的应用程序,如远程游戏或视频会议。

为此,测试计算机的配置如表 1 所示:

poYBAGJqRkWAMOQBAABkGfjAF4w897.png

我们使用了各种输入视频进行 RD 估计,如 basketball _ drive 、 bq _ terrace 、仙人掌、 crowd _ run 、 ducks _ take _ off 、 jokey 、和服,以及更多分辨率为 1280 × 720 、 1920 × 1080 和 3840 × 2160 的视频。

绩效和质量结果

平衡序列

图 1 到图 4 显示, Tesla T4 在高质量模式下为 libx264 提供相同或稍好的视觉质量,如 Kimono、 BQ Terrace 和 Park Scene 。

poYBAGJqReqAeGu1AADRnbCAPGs298.png

pYYBAGJqRfOAJWLxAADBfsd4PzE341.png

与 libx264 相比, T4 显示了更好的预测和过滤。

红皮艇和仙人掌序列分别包含显著的混沌运动和圆周运动。与 libx264 相比, NVENC 在这些包含复杂内部预测的场景中显示出明显的优势。

Tesla T4 NVENC 在低延迟模式下的性能很容易超过 libx264 。请注意 Tesla T4 如何在高分辨率下更有效,在相同的比特率下提供 1db 更好的视觉质量。

poYBAGJqRieAaoeBAADFobyJrNk315.png

图灵 GPUs 配备了功能强大的 NVENC 视频编码单元,与 libx264 等复杂的软件编码器相比,它提供了更高的视频压缩效率,因为它结合了更高的性能和更低的能耗。理想的代码转换解决方案需要具有成本效益(美元/流)和节能(瓦/流)。让我们看看在多个测试序列中平均的性能和功耗结果,如图 13 和 14 所示。

poYBAGJqRbWAWNgLAAAr-zX6VSQ870.png

图 13 。在高质量模式下以每秒 30 帧同时编码的流数

poYBAGJqRbeAFAGrAAAsdAzr5H8030.png

图 14 。在低延迟模式下以每秒 30 帧同时编码的流数。

T4 以高质量模式同时编码 22 个 720p 流。 GPU 还可以平均处理 10 个 1080p 的流和 2 到 3 个超高清( 2160p )分辨率的流。这相当于在相同的视觉质量级别上几乎是 libx264 的两倍。

在低延迟模式下运行显示出 T4 更大的优势。它可以编码 37 个 720p 分辨率的流, 17-18 个 1080p , 4-5 个超高清,性能比 libx264 高 2-2.7 倍,具有更高的视觉质量。您可以在图 15 和图 16 中看到每个流的瓦特数。

pYYBAGJqRb6AMc3bAAAvq-wAxCA408.png

图 15 。高质量模式下平均每流功耗瓦特

poYBAGJqRcGAZk8xAAAvASLNIxE444.png

图 16 。低延迟模式下平均每流功耗瓦特

Tesla 还显示出很高的功率效率,在高质量模式下优于 libx264 2-4x ,在低延迟模式下高达 5 倍,同时保持低负载。

结论

与前几代相比, NVIDIA 的 Tesla T4 的编码能力有了很大的提高。与 libx264 这样的软件编码器相比,它在高质量模式下显示出相同或更好的视觉质量,而在低延迟模式下则优于它们。这相当于在功耗降低 2-5 倍时性能提高了一倍。

关于作者

Roman Arzumanyan拥有俄罗斯南部罗曼大学( Rostov-on-Don , 2012 )和罗曼大学应用数学硕士学位。之后,他在俄罗斯三星研发院( 2012-2015 )、英特尔公司( 2015-2017 )工作。目前,他在莫斯科担任开发技术工程师。他的研究兴趣包括视频编码、高性能和 GPGPU 。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4952

    浏览量

    102854
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4707

    浏览量

    128772
收藏 人收藏

    评论

    相关推荐

    小鹏汽车:未来AI汽车将搭载至少3颗图灵芯片

    近日,在2024小鹏AI科技日上,小鹏汽车宣布了其自主研发的图灵AI芯片取得了重要进展。这款芯片拥有40核处理器,能够本地运行高达30B参数的大模型,并集成了2个NPU以及面向神经网络的特定领域架构,性能卓越。
    的头像 发表于 11-12 18:05 474次阅读

    小鹏汽车图灵芯片及L4自动驾驶新进展

    小鹏汽车CEO何小鹏近日介绍了公司自主研发的图灵芯片。这款专为AI而生的芯片,配备了强大的40核处理器,能够本地运行高达30B参数的大模型。此外,图灵芯片还集成了2个NPU,并采用了面向神经网络
    的头像 发表于 11-08 11:01 905次阅读

    小鹏汽车2024 AI科技日:图灵AI芯片进展公布,预计AI汽车市场将迎来巨变

    在11月6日下午的2024小鹏AI科技日上,小鹏汽车揭晓了其图灵AI芯片的最新研发成果。小鹏汽车强调,这款图灵芯片是专为AI应用而生,配备了40核处理器,能够本地运行参数高达30B的大模型,同时集成了2个NPU以及针对神经网络优化的特定领域架构。
    的头像 发表于 11-07 14:56 760次阅读

    小鹏汽车发布自主研发的“图灵”AI智能驾驶辅助系统

    模型构建、AI算法优化到AI芯片设计的全过程。这一全面自主的研发模式,确保了“图灵”系统能够在各个层面实现最佳的协同与性能发挥。 小鹏汽车首席执行官何小鹏透露,预计到2025年,小鹏汽车的云端计算能力将达到惊人的10Eflops,
    的头像 发表于 11-07 10:55 578次阅读

    图灵测试的内容是什么_图灵测试的作用

    图灵测试(Turing Test)是由英国数学家和计算机科学家艾伦·麦席森·图灵(Alan Turing)在1950年提出的一种测试方法,用以判断机器是否具有人类智能。图灵测试的核心内容可以归纳为以下几点:
    的头像 发表于 09-16 16:11 1451次阅读

    图灵测试什么意思_图灵测试是干嘛的

    图灵测试是由英国数学家、密码专家和数字计算机的奠基人艾伦·麦席森·图灵提出的一种检验某个对象(通常是机器或人工智能系统)是否具有智能的测试方法。其核心思想在于,如果一台机器在与人类的对话过程中,能够使得测试者无法区分其是人还是机器,那么就可以认为这台机器具备了智能。
    的头像 发表于 09-16 16:09 1069次阅读

    小鹏自研图灵芯片震撼登场:流片成功性能超越行业旗舰

    8月27日最新资讯,小鹏汽车在昨日举办的“小鹏10年热爱之夜暨小鹏MONA M03上市发布会”上,由董事长何小鹏宣布了一项重要里程碑:小鹏自研的图灵芯片已于8月23日成功完成流片测试。这款专为L4级
    的头像 发表于 08-28 16:49 1461次阅读

    IBM助力图灵新智算构建全能AI平台

    近日,图灵新智算(广州)科技有限公司(以下简称为“图灵新智算”)宣布采用 IBM 新一代 AI 与数据平台 watsonx 的三大功能组件 watsonx.data、watsonx.ai
    的头像 发表于 08-02 14:53 539次阅读

    国芯科技与图灵量子签署战略合作协议

    近日,苏州国芯科技股份有限公司(以下简称“ 国芯科技 ”,股票代码 688262.SH )与上海图灵智算量子科技有限公司(以下简称“ 图灵量子 ”)签署战略合作协议,双方达成业务合作共识,共同研究基于 量子技术的信创和信息安全产品迭代方案 。
    的头像 发表于 06-15 17:22 1422次阅读

    国芯科技与图灵量子达成战略合作,共研量子技术新篇章

    近日,苏州国芯科技股份有限公司(简称“国芯科技”)与上海图灵智算量子科技有限公司(简称“图灵量子”)宣布达成战略合作,并签署了具有里程碑意义的合作协议。这一合作标志着两家公司在量子技术领域迈出了坚实的合作步伐,共同致力于信创和信息安全产品的迭代创新。
    的头像 发表于 06-14 15:42 736次阅读

    柔性制造单元包括哪几个要素

    具有高度的灵活性和适应性,能够实现多品种、小批量、快速换型的生产模式。本文将详细介绍柔性制造单元的组成要素,包括硬件设备、软件系统、工艺流程、生产管理、质量控制、设备维护等方面。 一、硬件设备 机床:柔性制造单元的核心设备是机床
    的头像 发表于 06-11 09:56 728次阅读

    柔性制造单元及柔性的定义

    具有高度的灵活性和适应性,能够满足现代制造业对生产效率、产品质量和生产成本的严格要求。 一、柔性制造单元的定义 柔性制造单元是一种集成了计算机技术、自动化技术、信息技术等多种技术的先进生产系统。它由多个自动化设备、机器人、输送系
    的头像 发表于 06-11 09:42 1215次阅读

    STM32F4用来作为计算单元的时候,如何评估算法或应用的时间性能

    STM32F4用来作为计算单元的时候,如何评估算法或应用的时间性能?能不能通过配置使之具备计时功能?精度达到us级别就足够了。 关于计时,在debug状态下,通过states的计数值可以计算时间性能,但必须是debug设置断点
    发表于 05-16 06:37

    开关量继电器信号采集 安科瑞ARTU-KJ8 遥信遥控组合单元

    ARTU四遥单元是高性能配电智能化元件,应用于智能配电、工业自动化等领域。产品包括:遥控单元、 遥信单元
    的头像 发表于 02-21 15:35 334次阅读
    开关量继电器信号采集 安科瑞ARTU-KJ8 遥信遥控组合<b class='flag-5'>单元</b>

    图灵机模型的组成部分及作用

    图灵机是图灵提出的一种抽象的计算模型,被认为是计算机科学的基础。在图灵机模型中,包含了以下几个组成部分:输入带、读写头、状态集合、转移函数以及输出。 首先,输入带是图灵机的数据存储器,
    的头像 发表于 12-20 17:23 3500次阅读