图1:典型的I、P和B帧序列。
视频压缩标准某些时候限制运动矢量的水平和垂直分量,这样在运动估计时每个宏块和所选择的16x16像素区域之间最大可能的距离会远小于帧的宽度或高度。这种限制轻微地减少了对运动矢量进行编码所需要的数据位数,也减少了执行运动估计所需要的运算量。包含在允许的运动矢量中的所有可能的16x16像素区域的基准帧部分被称为“搜寻区域”。
此外,先进的视频压缩标准允许运动矢量具有非整数的值。即,编码器可能估计针对某个指定宏块当前帧与基准帧之间的运动距离不是整数个像素。运动矢量的分辨率为半个或四分之一个像素很常见。因此,为预测当前宏块中的像素,必须对基准帧中的对应区域进行插值处理来估算出在非整数像素位置的像素值。按上面介绍的方法对预测与实际像素值之间的差值进行计算并编码。
运动估计是图像压缩应用中运算量非常大的任务,需要视频编码器80%的处理能力。最简单彻底的运动估计方法是在搜寻区域中评估每一个可能的16x16像素区域,选择最匹配的。通常,利用“绝对差异值之和”(SAD)或“平方差异值之和”(SSD)运算来确定一个16x16像素区域与一个宏块到底有多匹配。通常只对亮度层进行SAD和SSD运算,但是也可以包括色度层。例如,一个48x24像素的相对较小搜寻区域可能包括分辨率为?像素的1024个16x16 区域。仅对这样一个区域的亮度层进行SAD运算需要做256次减法、256次绝对值运算以及255次加法运算。因此,还不包括非整数运动矢量所要求的插值处理,要进行最佳的匹配,这样的搜寻区域进行彻底的扫描所需要的运算单个宏块需要785,408次算术运算,这相当于在CIF分辨率(352x288像素),帧率为每秒15帧下,每秒4.6亿次算术运算。
由于这种高运算量,运动估计的实际实现并不适用彻底搜寻。相反,运动估计算法使用各种方法来选择有限数量的备选运动矢量(大多数情况下大约10到100个矢量),只对与这些备选矢量对应的16x16像素区域进行评估。一种方法是在几个阶段来选择备选运动矢量。例如,可能选择5个初始备选矢量,并进行评估。结果用来清除搜寻区域中不可能的部分,对搜寻区域中最有可能的部分进行处理。选择5个新的矢量,并重复这种处理。通过几次这样的过程,就可以得到最佳的运动矢量。
在视频序列中的当前帧和前一帧中针对周边宏块所选择的运动矢量的另一种分析方法是试图预测当前宏块中的运动。根据这种分析来选择一些备选的运动矢量,并只对这些矢量进行评估。
通过选择一个较少的被选矢量而不是对搜寻区域的彻底扫描,运动估计的运算需求可以大大地减少,某些时候超过两个数量级。值得注意的是,在图像质量/压缩率和运算量之间具有一种折衷关系:使用更多的运动矢量允许编码器在基准帧内找到一个16x16像素的区域,这些区域能更好地匹配每一个宏块,这样减少预测误差。因此,增加被选矢量允许预测误差以更少的数据位或者更高的精度进行编码,而代价就是执行更多地SAD(或者)SSD运算。
除了上面描述的两种方法外,还有很多其他选择适当备选运动矢量的方法,包括各种的专有解决方案。大多数视频压缩标准仅仅规定了压缩视频码流的格式以及解码步骤,而对编码过程无定义,因此编码器可以采用各种方法来进行运动估计。
运动估计方法是那些符合相同标准的视频编码器实现之间的最大差异。运动估计方法的选择大大地影响了运算要求和视频质量,因此市场上提供的编码器内的运动估计方法细节常常是严格保守的商业秘密。
很多针对多媒体应用的处理器都提供了加速SAD运算的专门指令,或者专用的SAD协处理器来从CPU转移这种需要大量运算的任务。
值得注意的是,为了执行这种运动估计,除了当前帧以外,编码器必须在存储器中保留一个或两个基准帧。所需要的帧缓存通常都比片上可提供的存储器大很多,在很多应用中都需要额外的存储器芯片。将基准帧存储在片外存储器中导致要求编码器非常高的外部存储器带宽,尽管大的片上缓存有助于大大减少所要求的带宽。
某些视频压缩标准允许每个宏块被分割成两个或四个部分,每个部分有一个独立的运动矢量。与一个运动矢量相比,这种选择需要更多的数据位来对两个或四个部分进行编码。然而,如果增加的运动矢量能更好地预测宏块像素,则对每个预测进行编码所需要的数据位更少,这又是很有益的。
运动补偿
在视频编码器中,运动补偿利用在视频码流中被编码的运动矢量来预测每个宏块中的像素。如果运动矢量的水平和垂直分量都是整数值的话,预测的宏块就仅仅是基准帧中16x16像素区域的一个拷贝。如果运动矢量的任意个分量具有非整数值,则需要用到插值来估计非整数像素位置的图像。然后,对预测误差进行编码,并加入到预测宏块中以重构实际的宏块像素。
与运动估计相比,运动补偿的运算需求小很多。尽管运动估计必须对每个宏块的若干16x16像素区域执行SAD或SSD运算,运动补偿仅对这样的区域进行拷贝或插值处理。由于这样的重要差别,视频解码的运算量比视频编码少很多。而且,在视频解码器中,运动补偿可以依然占用达40%的处理器性能,尽管这个数字对于不同的视频序列、视频压缩标准和解码器的实现来说会有很大的差别。例如,对于很少使用插值的帧的运动补偿工作载荷可能只占解码器的处理性能的5%。
与运动估计相似,运动补偿需要视频解码器在存储器中保存一个或两个基准帧,通常需要外部存储器芯片来实现这个目的。然而,运动补偿比运动估计更少地访问基准帧缓存。因此,存储器带宽要求没有运动估计那么严格,尽管为了在运动补偿功能中获得更佳的处理器性能,依然希望有高的存储器带宽。
减少视频瑕疵
马赛克与环状瑕疵
理想情况是,有损耗的图像和视频压缩算法仅仅丢弃那些视觉并不重要的信息,因此人眼重构的图像和视频序列和原来未压缩的图像或视频是相同的。然而实际上,依然可能出现某些视觉上可见的瑕疵。由于编码器的设计并不完美而出现这种问题,视频内容的编码尤其具有挑战性,或者针对视频序列分辨率和帧率所选择码率太低。后面的这种情况尤其常见,因此很多应用必须权衡视频质量与减少存储和带宽要求之间的矛盾。
视频压缩中“马赛克”和“环状”瑕疵最为常见。马赛克是由于压缩算法将每个帧分割成8像素x8像素的块造成。每个块在重构时都在邻近边缘有一些误差,使得块边缘可见。环状瑕疵是由于编码器在量化高频DCT系数时丢弃太多的信息所致。环状瑕疵的表现为在图像特征的边缘出现失真。
解决马赛克和环状瑕疵的图像滤波器
视频压缩应用通常在解压缩之后采用滤波器来减少上述的瑕疵。这些滤波步骤被称为去马赛克和去环处理。它们都利用了低通FIR(有限脉冲响应)滤波器来隐藏这些可见的瑕疵。去马赛克滤波器应用到图像块的边缘,将每个块的边缘与其相邻的块的边缘进行混合,以此来隐藏这些马赛克瑕疵。去环处理通常使用一个自适应滤波器,该滤波器首先检测到图像特征的边缘。然后对邻近检测边缘的区域进行低通滤波,从而消除环状瑕疵,但是边缘像素本身并没有被滤除,或者很少地被滤除,以避免出现模糊。
这两种滤波器都需要很大的运算量。这些滤波器结合使用会比视频解码器本身占用更多的处理器处理性能。例如,针对ARM9E通用处理器内核进行过优化的一个MPEG-4简单规格、第一级(176x144像素,15fps)解码器在对一个中等复杂度的视频流进行解码时,需要处理器的指令周期运行速率为14MHz。如果增加去马赛克处理,处理器必须运行在33MHz。如果同时要求两种处理,则处理器必须运行在 39MHz条件下—几乎是单独视频解压缩算法的时钟速率要求的三倍。
后处理与在线实现的比较
这两种滤波器可以作为一个独立于视频解压缩的单独后续处理步骤用在视频帧上。这种方法为系统设计者提供了针对他们的应用选择最佳的去马赛克和/或去环滤波器的灵活性,或者完全放弃这两种滤波器以降低运算需求。在这种方法中,视频解码器利用每个未滤波的重构帧作为对未来的视频帧进行解码的基准帧,最后的滤波视频输出还需要一个额外的帧缓存。
另外一种方法是将去马赛克和/或去环状瑕疵功能整合到视频解压缩算法中。这种方法某些时候称为“环形滤波”,利用滤波后的重构帧作为基准帧来解码未来的视频帧。这种方法要求视频解码器像编码器那样执行相同的去马赛克和/或去环状瑕疵滤波,以使每个用于编码的基准帧与用于解码的一样。需要在编码器中进行滤波处理增加了对处理器的性能要求,但是可以提高图像质量,特别是当码率很低的时候。此外,当去马赛克和/或去环状瑕疵功能作为一个独立的后续处理步骤实现时需要的额外帧缓存,而整合到压缩算法中则不需要。
色彩空间转换
正如前面所述,视频压缩算法通常利用亮度和色度层来展现彩色图像。不同的是,摄像机和显示器通常将红色、蓝色和绿色光混合来展现不同的颜色。因此,摄像机捕捉到的红、绿、蓝像素必须转换成亮度和色度值以进行视频编码,视频编码器的亮度和色度像素输出必须转换成特定的红、绿、蓝电平进行显示。这种转换方程每个图像像素需要12个算术运算,还不包括用于补偿在视频压缩算法的输入和输出中色度层比亮度层具有更低的分辨率所需要插值运算。对于每秒15帧CIF(352x288 像素)的图像分辨率来说,转换(没有任何插值运算)需要每秒1,800万次运算。这种运算量相当大;如果用软件来实现,色彩转换大约需要视频解码器所需要的处理器周期的三分之一或三分之二。
趋势与结论
视频压缩算法采用了多种技术,例如运动估计、转换和可变长度编码。尽管大多数当前的视频压缩算法共享这些的基本任务,在算法和实现方法上存在大量的变化。例如,在不同的编码器中,甚至即使符合相同的压缩标准,执行运动估计的算术方法和实现方法都可能不同。此外,对于某个信号处理任务来说,最有效的实现方法对于不同的处理器来说也可能有很大的差别,即使每个处理器使用一种相似的算法。最后,某些任务的运算量,如运动补偿,根据不同的视频节目内容变化很大。因此,在某个特定的处理器上,视频编码器或解码器的运算负担很难以预测。
尽管有这些可变性,依然可以很容易地发现几个趋势:
# 运动估计是视频压缩处理中运算需求最大的任务,通常使编码器的运算负担为解码器的几倍。
# 解码器的运算负担通常决定于可变长解码、逆转换和运动补偿功能。
# 运动估计、运动补偿、转换和量化/去量化任务的运算负担通常与每个帧的像素数量和帧率成正比。不同的是,可变长解码功能的运算量与压缩视频码流的码率成正比。
# 在解码后的视频流中应用的后处理步骤,即去马赛克、去环状瑕疵以及色彩空间转换都大大地增加了视频解码应用的运算负担。这些功能的运算负担会很容易地超过视频压缩步骤,与每个帧的像素数量以及帧率成正比。
相比于运算量的预测,视频压缩应用的存储器要求的预测容易得多:在视频压缩应用中,存储器主要取决于用于存储当前和基准帧的大容量缓存。如果压缩方案支持I-和P-帧,只需要两个帧缓存;如果还支持B-帧的话,则需要三个缓存。像去马赛克、去环状瑕疵、色彩空间转换的后处理步骤可能需要另外的输出缓存。这些缓存的大小与每个帧的像素数量成正比。
与像程序存储器、查找表以及中间数据等因素相结合,组成通常视频应用的存储器需求的重要部分,尽管这个部分通常只有帧缓存存储器的几分之一。
实现高度优化的视频编码和解码软件需要彻底地理解本文介绍的目标处理器的信号处理概念。大多数的视频压缩标准不会规定运动估计的方法。尽管基准编码器适合于大多数的标准,深入了解视频压缩算法通常允许设计师利用更多成熟的运动估计方法,并获得更好的结果。此外,全面理解信号处理原理,实现信号处理功能,以及了解目标处理器的细节知识对于有效地将视频压缩算法中的各种任务对应到处理器的结构资源来说是非常重要的。
来源:Berkeley设计技术公司
评论
查看更多