0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

手淘H265编解码算法与工程优化

LiveVideoStack 来源:未知 作者:工程师李察 2018-11-03 10:26 次阅读

手淘的产品目前已经拓展到直播、短视频等领域,业务中存在着大量的图片和视频;自2015年起,图片和视频的数量呈指数级别高速增长;并且随着网络技术的发展与消费升级,用户对图片和视频清晰度的要求也不断提升,从最早的360P到现在的4k甚至8k,这些都带来了宽带成本与存储成本的大规模提升,这也就是为什么我们希望借助H265技术支持音视频业务的良性发展。

2、H.265介绍

2.1 成本效益

借助H265技术我们可以实现大规模并发场景下音视频业务的有效成本控制。带宽与存储成本不容小觑,与H264相比,以典型4K场景中使用H265技术为例,可在保持画质不变的同时节省达50%的带宽,而以720P直播为例使用H265则可节省30%流量。现在的流量有90%以上都来自移动端(手机)而非传统意义的PC、服务器、Pad等;而对手机端尤其是Android设备而言,碎片化带来的计算能力受限、性能层次不齐等问题使得H265上的很多优化与功能受到限制。如果我们直接将H265应用于手机端则会在解码时出现发热大、能耗高、实时编码无法正常进行等现象;与此同时,也缺少快速、高效且成熟的端上编码方案,这些都是亟待我们解决的问题。

2.2 编码框架

接下来介绍下H265的编码框架。H265编码框架由四个模块组成:输入一段视频的连续多帧,首先需要经过的是包含帧内预测、帧间预测两个操作的预测模块;随后进行变换量化模块也就是针对原始图像块与预测图像块的差值进行DCT和量化;接下来解码模块会将图像解码以便用于下一帧的预测;最后的熵编码模块将针对预测信息和残差系数进行算数编码从而进一步消除编码冗余。

2.3 技术亮点

H265主要有哪些技术亮点?首先H265具有灵活的编码结构,拥有CUPUN、CTUN等多个细分编码单元;其次H265的块大小也非常灵活,包括4×4、8×8等更多块划分方式;除此之外,H265的Sample Adaptive Offset(SAO)技术相对于Deblock和ALF具有更高性价比;最后在整个H265中包含了并行化设计,使得H265的优势更加明显。

除了以上技术亮点,H265相比于H264 在插值、MV预测、帧内预测、变换、去块滤波等方面进行了大量改进与优化。上图右侧表展示的是H.265相对于H.264在多方面带来提升的量化数据。

2.4 改进代价

H.265为音视频带来了技术提升,与此同时也带来了不容忽视的改进代价。码流的节省意味着计算复杂度的提升,从上图右侧的统计表中我们可以看出,相对于H264,H265的编码复杂程度增加了约3到4倍,解码复杂程度也增加了近50%。这就意味着传统的针对H.264的软硬件解决方案处理H.265会明显感到力不从心,我们需要妥善解决因方案升级带来的诸多技术挑战。

3、H.265高效编解码器的实现

即便如此,H.265的优势也不容忽视。上图展示的是我们在2017年开展的一项调研,以当时比较成熟的金山HEVC解码器为例,对比标准H.265解码器,无论是在解码速度还是解码质量上金山的HEVC解码器都有很大优势,这项调研结果也让我们对H.265的未来发展更加充满信心。

3.1 RDO优化

手淘在H.265编解码领域作出了哪些探索?我们的优化探索主要分为两部分:算法优化与工程优化,而算法优化主要集中在RDO方向。由于HEVC支持不同的CTU/CU/PU/TU组合模式,可选编码模式激增;搜寻最优编码模式时,随着编码模式数量的增加,率失真计算会成为编码过程的计算瓶颈,这主要是由于传统H.264中基于SATD的率失真优化不可在H.265中使用,需要精度更高的失真代价计算。为了优化RDO以实现更高效的处理效果,我们进行了以下7项改进:

高效预判CU层次。

采用基于纹理信息等内容的CU遍历提前终止策略。

基于卷积神经网络解决图像分块的非线性问题。

提前预判残差AZB块,从而减少D与R的计算。

使用量化误差D和残差比特数R的快速计算模型。

采用基于单调性的ME快速计算模型。

在35中模式中快速选择合适的帧内预测模式。

1)模式划分CTU/CU/PU/TU

以PU为例,H.264有7种划分模式,而H.265则有24种划分模式。

如果统计H.265中一个图像可以选择的所有划分模式,一个块有高达384种可选择的划分模式。只有计算完成所有选择后才能确定最佳划分方案,如何缩短计算如此多选择所需要的时间?

2)RDO优化

快速模式决策——深度预估

首先,由于每块的划分层级与划分深度和当前块的参考帧块之间有很强的相关性,利用时间和空间的相关性,我们可从参考块的深度预估本块的深度范围并得到Min-depth与Max-depth;其次,即使本块与上一块或参考块有相关关系,本块也有一些自己独有的信息可被利用,我们可通过结合本块的运动与纹理信息界定深度的精度范围,确定具体划分深度的精度范围。

快速模式决策——纹理Corner检测

通过对图像纹理的检测我们可快速选择最优的划分模式。迅速识别平坦或对比度较强的纹理,提升划分效率。

快速模式决策——CNN分类

应对带Corner的纹理时,可通过按照强度判决是否继续划分来实现快速选择,这对线性变化的处理效果较好,而在实际应用中我们需要面对很多非线性变化的应用场景,此时就需要CNN卷积神经网络+深度学习的模型对非线性变化进行纹理分类与快速模式选择,这里的线性分析与非线性分析是分开进行的。

快速模式决策——AZB决策

AZB(All Zero Block)是量化后系数为全0的块,通过AZB提前判别决策可对块进行快速归类,从而减少D与R的计算。

Distortion&Bits估计

纵览整个劣势帧的计算过程 ,计算Dp需原图到重建图像间的SSE,也就是完成编码模式P的预测、变换、量化、反量化、反变换、重建等。为避免这样冗长而复杂的计算过程,我们可以在变换与量化后在频域计算残差能量;而码率统计 则是通过一次熵编码实现,为了提高计算效率我们可以对残差数据的码率统计建立线性估计模型并根据NxN变换矩阵量化后的特征估计其码率,可减少近50%的计算量。

FME最优搜索位置估计

这里我们主要进行的优化是,通过整像素点及1/2像素点的SAD值和其坐标来估算出最优1/4像素点,从而加速整个搜索过程。

快速帧率预测方法

我们采用了基于贝叶斯模型开发的一套帧内预测快速决策方法,可为帧内预测速度带来一倍的提升并将损失降低到0.01dB。

3)码率控制优化

我们使用以下策略对码率控制与Lookahead进行优化,首先是基于CuTree的信息传递来调整CUQP,其次是基于rates和复杂度的IBP FrameQP,最后是·基于参考强度的Slice Type Decision,这一部分内容我会在LiveVideoStackCon 2018上作出更加详细描述 。

4)参考帧优化——长期参考帧

我们知道,参考帧大都在一个GOP范围内,往往有更好的编码质量,参考帧有助于提高被参考帧的质量,而长期参考帧可能源于多个GOP。这就使得对于背景很少发生变化的直播场景,长期参考帧可有效减少信息经过多帧传递带来的损失,引用长期参考帧可将平均EV提高大概0.25dB,

上图展示的是各模块计算量占比,以上就是我们围绕RDO领域进行的多项探索。

3.2 工程化优化方法

基于工程方面我们也进行了多项优化,首先是针对一些特殊函数的汇编计算优化,我们通过采用NEON指令集优化,为典型计算性能带来2~4倍的提升,如RDO(SSE、SAD)模块、运动搜索模块、帧内预测模块等均提升两倍以上;其次,针对现在移动端广泛使用的多核处理器,我们优化多核并行计算并适应现代处理器的架构;除此之外,我们也优化bottleneck的指令和访存,从而进一步提升整体性能。

3.3 优化成果

1)软件编码

经过算法与工程两个层次上的优化,我们为HEVC编解码带来了明显的性能提升。就编码速度而言,手淘比X.265 17年初的版本提升3倍以上并可在iPhone6上实现720P&30帧的实时编码;若想实现相同的编码质量,手淘的编码码率相对于X.265降低了至少15%,上图展示的便是具体的测试结果。

2)软件解码

软解优化更多集中在工程方面也就是NEON指令集部分,较少在算法层面进行调整。通过对NEON指令集的优化与一些逻辑上的改写,手淘可实现相对于FFmpeg提升150%以上的视频解码速度,例如将1Mbps 720P H.265的测试用例用于小米5手机进行解码测试,其解码速度可达两百帧以上,而CPU的占用率也控制在20%以下;在处理图片方面,例如对H.265的标准I帧处理上我们也做出了不少优化和改进,APG的图片解码速度相对于FFmpeg提升70%以上。

4、总结与未来展望

这里我们对视频编码标准的未来进行简单的展望。过去10年大家都是按照H.264、H.265的标准;而在流媒体渐成趋势的未来,Google提出的VP8、VP9、VP10,还有H.266、AV1等标准将推动音视频行业向更光明的未来发展。技术的进步为我们实现更多更新潮的效果打下基础,助力消费升级与用户体验的日渐完善。

如果简单对比H.266与AV1我们可以看到,因为H.266引入了更多的四叉树二叉树结构(QTBT),整体的BD-Rate提升近4%;但H.266对比H.265,在保持画质不变的情况下码流降低了近1倍而整体编码时间却增加了2倍左右,整体解码时间则增加近1倍。基于之前的调研我们发现,AV1的时间复杂度是X.265的2000~3000倍,这说明AV1未来的改进与优化任重而道远。

Q&A

Q:VP9在将来会大面积普及吗?

A:我认为VP9当前存在最大的妨碍其普遍推行的问题是兼容性,因为现在很多设备都采用向下兼容的策略,而VP9在诸多设备上的普及率不高;如果大家在直播等领域使用VP9进行编码则必须经过转码之后才能通过CDN分享,随后重新转成H.264或H.265再播放,这样势必会带来很多麻烦。

Q:能否在客户端实现硬编?

A:现在的一些高端手机已经可以实现性能稳定的硬编H.265,例如对iOS而言,iPhone7以上的机型都可稳定实现。但在较为碎片化的安卓机型上,由于安卓机型解码时对多种协议的支持力度不统一,加上不同档次的手机性能差距过大,编码性能受到很大影响。手淘上主播的机型主要是ios,所以在淘宝上我们主要采用硬编方案;而对于直播环境,因为需要CDN进行内容分发,而CDN重点支持的链路基本属于H.264,编码方式受限于整个直播的链路环境。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 解码
    +关注

    关注

    0

    文章

    180

    浏览量

    27347
  • 工程
    +关注

    关注

    0

    文章

    165

    浏览量

    27811
  • H265
    +关注

    关注

    0

    文章

    5

    浏览量

    16851

原文标题:手淘H265编解码算法与工程优化

文章出处:【微信号:livevideostack,微信公众号:LiveVideoStack】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    在米尔电子MPSOC实现12G SDI视频采集H.265压缩SGMII万兆以太网推流

    的ZU4EV MPSoC平台,接入真4k 60UHD-SDI视频源后,使用VCU进行高效H.265编解码,再通过SGMII万兆以太网实现网络推流,以确保高质量4K视频的流畅传输。2. 视频质量下降的原因与优化
    发表于 11-01 16:56

    在米尔电子MPSOC实现12G SDI视频采集H.265压缩SGMII万兆以太网推流

    米尔电子的ZU4EV MPSoC平台,接入真4k 60UHD-SDI视频源后,使用VCU进行高效H.265编解码,再通过SGMII万兆以太网实现网络推流,以确保高质量4K视频的流畅传输。 2.视频质量
    发表于 10-14 17:42

    【技术分享】H.264 与H.265的区别,二者应该如何选择?

    启明智显的国产工业级HMI芯片Model4集成图形、视频显示和编解码相关的硬件模块,支持H.264视频解码器,能够为高清视频播放提供强大的硬件基础。H.264兼容性广,也能节省空间和带
    的头像 发表于 07-30 16:41 1048次阅读
    【技术分享】<b class='flag-5'>H</b>.264 与<b class='flag-5'>H.265</b>的区别,二者应该如何选择?

    教您在79元ARM平台实现H.265视频解码

    本帖最后由 Tronlong创龙科技 于 2024-7-19 17:01 编辑 什么是H.265视频编解码? (1)什么是H.265 H.265,也被称为HEVC(HighEff
    发表于 07-17 10:46

    全志T527芯片详解【二】:高清图像编解码

    ) ...... 在硬件加速模块加持下,T527可以轻松实现4K视频的录制和播放,并支持H.264\\\\H.265\\\\VP9等多种主流的编解码格式,同时支持多路编解码的场景。
    发表于 05-24 14:14

    【RTC程序设计:实时音视频权威指南】音视频的编解码压缩技术

    至关重要的作用,编解码器的主要目标是通过去除冗余信息和压缩视频数据来减少文件的大小,同时还要保持高质量的视频图像编码器负责压缩解码器则负责还原,编解码器都是基于一些特定的算法和标准运行
    发表于 04-28 21:04

    瑞芯微工业处理器8K视频编解码+8K显示案例测试

    本案例使用GStreamer API通过ARM从本地导入8K视频文件(H.264编码格式或H.265编码格式),然后进行H.264或H.265(NV12)
    发表于 04-28 14:28 695次阅读
    瑞芯微工业处理器8K视频<b class='flag-5'>编解码</b>+8K显示案例测试

    嵌入式操作教程_数字信号处理_音频编解码:3-6 AAC音频解码实验

    、有损音乐压缩格式、有损语音压缩格式和合成算法。本实验中使用的AAC格式属于有损音乐压缩格式。音频编解码的目的是减少传输的信息量和减少储存的信息。 音频的编解码的格式分类 无压缩的格式(PCM,WAV
    发表于 04-11 09:22

    STM32H7系列目前有没有支持h264编解码?fps大概为多少?

    STM32H7系列目前有没有支持h264编解码,fps大概为多少?
    发表于 04-07 06:06

    编解码一体机相对于传统的编解码设备有哪些优势?

    编解码一体机相对于传统的编解码设备具有多个优势。以下是编解码一体机的几个主要优势: 高效实时的视频处理能力:编解码一体机采用先进的编解码
    的头像 发表于 01-31 14:56 1238次阅读
    <b class='flag-5'>编解码</b>一体机相对于传统的<b class='flag-5'>编解码</b>设备有哪些优势?

    深入了解编解码一体机:工作原理及应用

    、电视机、DVD等视频源。 视频编码:采集到的原始视频信号需要进行压缩编码,以减少存储空间和传输带宽的需求。编解码一体机采用先进的视频编解码算法,如H.264、
    的头像 发表于 01-31 14:52 500次阅读
    深入了解<b class='flag-5'>编解码</b>一体机:工作原理及应用

    编解码一体机:技术、应用与挑战

    了先进的编解码算法,能够实现高效、实时的视频处理。这种技术大大提高了视频解码的效率,有效降低了延迟,从而确保了音视频传输的实时性和流畅性。此外,编解码一体机还支持多平台和多终端访问,使
    的头像 发表于 01-31 14:48 451次阅读
    <b class='flag-5'>编解码</b>一体机:技术、应用与挑战

    音频处理的新选择:编解码一体机

    编解码一体机采用了先进的音频编解码算法,能够实现高质量的音频压缩和解压缩。与传统音频处理设备相比,编解码一体机具有更高的处理速度和更低的延迟,能够满足实时音频传输的需求。此外,
    的头像 发表于 01-31 14:46 496次阅读
    音频处理的新选择:<b class='flag-5'>编解码</b>一体机

    什么是编解码一体机?

    编解码一体机是一种集视频编解码、音频编码以及数据传输功能于一体的多媒体设备。这种设备通常基于云计算技术和先进的编解码算法,能够高效地处理视频流,提供低延迟、高稳定性的音视频传输服务。此
    的头像 发表于 01-31 14:19 558次阅读
    什么是<b class='flag-5'>编解码</b>一体机?

    教您在79元ARM平台实现H.265视频解码

    什么是H.265视频编解码? (1)什么是H.265 H.265,也被称为HEVC(HighEfficiency Video Coding),作为H
    的头像 发表于 01-11 15:55 671次阅读
    教您在79元ARM平台实现<b class='flag-5'>H.265</b>视频<b class='flag-5'>解码</b>