视频基础
视频系统术语
目前,国内外各个视频会议生产厂家都陆续推出了自己的各种高清或超清产品,都在不遗余力的宣传图像分辨率。但是,要达到高清/超清的视频会议,单单有720p或者1080p的图像分辨率是不够的。视频会议作为多媒体的一种应用,整个系统涉及到前端视频采集、图像的编码能力、高质量的网络传输、高清晰的视频显示设备。另外,如果我们在观看高清晰视频图像的时候,不能得到一个更清晰、连续的音频效果,那么这个过程实际上就没有任何意义,所以高质量音频的重要性完全不亚于视频。所以在高清或者超清的视频会议中有几个关键的知识点需要了解:高清的视频分辨率、高清视频显示设备的接口、高质量的音频传输接口、高质量的音频。技术的发展都是循序渐进的过程,在本文档中不但列出了高清视频的相关术语,还把非高清视频系统中的相关术语也一并列出,这样会有一个很直观的比较过程。
1 视频接口
我们经常在家里的电视机、各种播放器上,视频会议产品和监控产品的编解码器的视频输入/输出接口上看到很多视频接口,这些视频接口哪些是模拟接口、哪些是数字接口,哪些接口可以传输高清图像等,下面就做一个详细的介绍。
目前最基本的视频接口是复合视频接口、S-vidio接口;另外常见的还有色差接口、VGA接口、DVI接口、HDMI接口、SDI接口。
1.1 复合视频接口
1.1.1 接口图
1.1.2 说明
复合视频接口也叫AV接口或者Video接口,是目前最普遍的一种视频接口,几乎所有的电视机、影碟机类产品都有这个接口。
它是音频、视频分离的视频接口,一般由三个独立的RCA插头(又叫梅花接口、RCA接口)组成的,其中的V接口连接混合视频信号,为黄色插口;L接口连接左声道声音信号,为白色插口;R接口连接右声道声音信号,为红色插口。
1.1.3 评价
它是一种混合视频信号,没有经过RF射频信号调制、放大、检波、解调等过程,信号保真度相对较好。图像品质影响受使用的线材影响大,分辨率一般可达350-450线,不过由于它是模拟接口,用于数字显示设备时,需要一个模拟信号转数字信号的过程,会损失不少信噪比,所以一般数字显示设备不建议使用。
1.2 S-Video接口
1.2.1 接口图
1.2.2 说明
S接口也是非常常见的接口,其全称是Separate Video,也称为SUPER VIDEO。S-Video连接规格是由日本人开发的一种规格,S指的是“SEPARATE(分离)”,它将亮度和色度分离输出,避免了混合视讯讯号输出时亮度和色度的相互干扰。S接口实际上是一种五芯接口,由两路视亮度信号、两路视频色度信号和一路公共屏蔽地线共五条芯线组成。
1.2.3 评价
同AV 接口相比,由于它不再进行Y/C混合传输,因此也就无需再进行亮色分离和解码工作,而且使用各自独立的传输通道在很大程度上避免了视频设备内信号串扰而产生的图像失真,极大地提高了图像的清晰度。但S-Video 仍要将两路色差信号(Cr Cb)混合为一路色度信号C,进行传输然后再在显示设备内解码为Cb和Cr进行处理,这样多少仍会带来一定信号损失而产生失真(这种失真很小但在严格的广播级视频设备下进行测试时仍能发现) 。而且由于Cr Cb的混合导致色度信号的带宽也有一定的限制,所以S-Video虽然已经比较优秀,但离完美还相去甚远。S-Video虽不是最好的,但考虑到目前的市场状况和综合成本等其它因素,它还是应用最普遍的视频接口之一。
1.3 YPbPr /YCbCr色差接口
1.3.1 接口图
1.3.2 说明
色差接口是在S接口的基础上,把色度(C)信号里的蓝色差(b)、红色差(r)分开发送,其分辨率可达到600线以上。它通常采用YPbPr 和YCbCr两种标识,前者表示逐行扫描色差输出,后者表示隔行扫描色差输出。现在很多电视类产品都是靠色差输入来提高输入讯号品质,而且透过色差接口,可以输入多种等级讯号,从最基本的480i到倍频扫描的480p,甚至720p、1080i等等,都是要通过色差输入才有办法将信号传送到电视当中。
1.3.3 评价
由电视信号关系可知,我们只需知道Y、Cr、Cb的值就能够得到G(绿色)的值,所以在视频输出和颜色处理过程中就统一忽略绿色差Cg而只保留Y Cr Cb,这便是色差输出的基本定义。作为S-Video的进阶产品,色差输出将S-Video传输的色度信号C分解为色差Cr和Cb,这样就避免了两路色差混合译码并再次分离的过程,也保持了色度信道的最大带宽,只需要经过反矩阵译码电路就可以还原为RGB三原色信号而成像,这就最大限度地缩短了视频源到显示器成像之间的视频信号信道,避免了因繁琐的传输过程所带来的影像失真,所以色差输出的接口方式是目前最好模拟视频输出接口之一。
1.4 VGA接口
1.4.1 接口图
1.4.2 说明
VGA接口也叫D-Sub接口。VGA接口是一种D型接口,上面共有15针,分成三排,每排五个。VGA接口是显卡上应用最为广泛的接口类型,绝大多数的显卡都带有此种接口。迷你音响或者家庭影院拥有VGA接口就可以方便的和计算机的显示器连接,用计算机的显示器显示图像。
1.4.3 评价
VGA接口传输的仍然是模拟信号,对于以数字方式生成的显示图像信息,通过数字/模拟转换器转变为R、G、B三原色信号和行、场同步信号,信号通过电缆传输到显示设备中。对于模拟显示设备,如模拟CRT显示器,信号被直接送到相应的处理电路,驱动控制显像管生成图像。而对于LCD、DLP等数字显示设备,显示设备中需配置相应的A/D(模拟/数字)转换器,将模拟信号转变为数字信号。在经过D/A和A/D二次转换后,不可避免地造成了一些图像细节的损失。VGA接口应用于CRT显示器无可厚非,但用于数字电视之类的显示设备,则转换过程的图像损失会使显示效果略微下降。
1.5 DVI接口
1.5.1 接口图
目前的DVI接口分为两种:
一个是DVI-D接口,只能接收数字信号,接口上只有3排8列共24个针脚,其中右上角的一个针脚为空。不兼容模拟信号。
另外一种则是DVI-I接口,可同时兼容模拟和数字信号。兼容模拟幸好并不意味着模拟信号的接口D-Sub接口可以连接在DVI-I接口上,而是必须通过一个转换接头才能使用,一般采用这种接口的显卡都会带有相关的转换接头。
1.5.2 说明
DVI全称为Digital Visual Interface,它是1999年由Silicon Image、Intel(英特尔)、Compaq(康柏)、IBM、HP(惠普)、NEC、Fujitsu(富士通)等公司共同组成DDWG(Digital Display Working Group,数字显示工作组)推出的接口标准。它是以Silicon Image公司的PanalLink接口技术为基础,基于TMDS(Transition Minimized Differential Signaling,最小化传输差分信号)电子协议作为基本电气连接。TMDS是一种微分信号机制,可以将象素数据编码,并通过串行连接传递。显卡产生的数字信号由发送器按照TMDS协议编码后通过TMDS通道发送给接收器,经过解码送给数字显示设备。一个DVI显示系统包括一个传送器和一个接收器。传送器是信号的来源,可以内建在显卡芯片中,也可以以附加芯片的形式出现在显卡PCB上;而接收器则是显示器上的一块电路,它可以接受数字信号,将其解码并传递到数字显示电路中,通过这两者,显卡发出的信号成为显示器上的图象。
1.5.3 评价
显示设备采用DVI接口具有主要有以下两大优点:
1、速度快
DVI传输的是数字信号,数字图像信息不需经过任何转换,就会直接被传送到显示设备上,因此减少了数字→模拟→数字繁琐的转换过程,大大节省了时间,因此它的速度更快,有效消除拖影现象,而且使用DVI进行数据传输,信号没有衰减,色彩更纯净,更逼真。
2、画面清晰
计算机内部传输的是二进制的数字信号,使用VGA接口连接液晶显示器的话就需要先把信号通过显卡中的D/A(数字/模拟)转换器转变为R、G、B三原色信号和行、场同步信号,这些信号通过模拟信号线传输到液晶内部还需要相应的A/D(模拟/数字)转换器将模拟信号再一次转变成数字信号才能在液晶上显示出图像来。在上述的D/A、A/D转换和信号传输过程中不可避免会出现信号的损失和受到干扰,导致图像出现失真甚至显示错误,而DVI接口无需进行这些转换,避免了信号的损失,使图像的清晰度和细节表现力都得到了大大提高。
1.6 SDI接口
1.6.1 接口图
1.6.2 说明
SDI接口是“数字分量串行接口”。
串行接口是把数据的各个比特以及相应的数据通过单一通道顺序传送的接口。由于串行数字信号的数据率很高,在传送前必须经过处理。用扰码的不归零倒置(NRZI)来代替早期的分组编码,其标准为SMPTE-259M和EBU-Tech-3267,标准包括了含数字音频在内的数字复合和数字分量信号。在传送前,对原始数据流进行扰频,并变换为NRZI码,确保在接收端可靠地恢复原始数据。这样在概念上可以将数字串行接口理解为一种基带信号调制。SDI接口能通过270Mb/s的串行数字分量信号,对于16:9格式图像,应能传送360Mb/s的信号。
1.6.3 评价
SDI接口不能直接传送压缩数字信号,数字录像机、硬盘等设备记录的压缩信号重放后,必须经解压并经SDI接口输出才能进入SDI系统。如果反复解压和压缩,必将引起图像质量下降和延时增加,为此各种不同格式的数字录像机和非线性编辑系统,规定了自己的用于直接传输压缩数字信号的接口。(a)索尼公司的串行数字数据接口SDDI(SerialDigital Data Interface),用于Betacam-SX非线性编辑或数字新闻传输系统,通过这种接口,可以4倍速从磁带上载到磁盘。 (b)索尼公司的4倍速串行数字接口QSDI(QuarterSerial Digital Interface),在DVCAM录像机编辑系统中,通过该接口以4倍速从磁带上载到磁盘、从磁盘下载到磁带或在盘与盘之间进行数据拷贝。 (c)松下公司的压缩串行数字接口CSDI(CompressionSerial Digital Interface),用于DVCPRO和Digital-S数字录像机、非线性编辑系统中,由带基到盘基或盘基之间可以4倍速传输数据。
以上三种接口互不兼容,但都与SDI接口兼容。在270Mb/s的SDI系统中,可进行高速传输。这三种接口是为建立数字音视频网络而设计的,这类网络不象计算机网络那样使用握手协议,而使用同步网络技术,不会因路径不同而出现延时。
人们常在SDI信号中嵌入数字音频信号,也就是将数字音频信号插入到视频信号的行、场同步脉冲(行、场消隐)期间与数字分量视频信号同时传输。
1.7 HDMI接口
1.7.1 接口图
1.7.2 说明
HDMI的英文全称是“High Definition Multimedia”,中文的意思是高清晰度多媒体接口。HDMI接口可以提供高达5Gbps的数据传输带宽,可以传送无压缩的音频信号及高分辨率视频信号。同时无需在信号传送前进行数/模或者模/数转换,可以保证最高质量的影音信号传送。应用HDMI的好处是:只需要一条HDMI线,便可以同时传送影音信号,而不像现在需要多条线材来连接;同时,由于无线进行数/模或者模/数转换,能取得更高的音频和视频传输质量。对消费者而言,HDMI技术不仅能提供清晰的画质,而且由于音频/视频采用同一电缆 ,大大简化了家庭影院系统的安装。
1.7.3 评价
2002年的4月,日立、松下、飞利浦、Silicon Image、索尼、汤姆逊、东芝共7家公司成立了HDMI组织开始制定新的专用于数字视频/音频传输标准。2002年岁末,高清晰数字多媒体接口(High-definition Digital Multimedia Interface)HDMI 1.0标准颁布。与DVI相比,HDMI可以传输数字音频信号,并增加了对HDCP的支持,同时提供了更好的DDC可选功能。HDMI支持5Gbps的数据传输率,最远可传输15米,足以应付一个1080p的视频和一个8声道的音频信号。而因为一个1080p的视频和一个8声道的音频信号需求少于4GB/s,因此HDMI还有很大余量。这允许它可以用一个电缆分别连接DVD播放器,接收器和PRR。此外HDMI支持EDID、DDC2B,因此具有HDMI的设备具有“即插即用”的特点,信号源和显示设备之间会自动进行“协商”,自动选择最合适的视频/音频格式。
HDMI在针脚上和DVI兼容,只是采用了不同的封装:
HDMI to DVI-D转接头:
HDMI to DVI-D转接线:
1.8 IEEE1394接口
1.8.1 接口图
1.8.2 说明
IEEE 1394也称为火线或iLink,它能够传输数字视频和音频及机器控制信号,具有较高的带宽,且十分稳定。通常它主要用来连接数码摄像机、DVD录像机等设备。IEEE 1394接口有两种类型:6针的六角形接口和4针的小型四角形接口。6针的六角形接口可向所连接的设备供电,而4针的四角形接口则不能。
1.8.3 评价
它的设计初衷是成为电子设备(包括便携式摄像机、个人电脑、数字电视机、音/视频接收器、DVD播放机、打印机等)之间的一个通用连接接口。1394电缆可以传输不同类型的数字信号,包括视频、音频、数码音响、设备控制命令和计算机数据。IEEE 1394主要的性能特点如下:
数字接口:数据能够以数字形式传输,不需要模数转换,从而降低了设备的复杂性,保证了信号的质量。
热插拔:即系统在全速工作时,IEEE 1394设备也可以插入或拆除,用户会发现,增添一个1394器件,就像将电源线插入其电气插座中一样容易。
1.9 BNC接口
1.9.1 接口图
1.9.2 说明
BNC接口是指同轴电缆接口,BNC接口用于75欧同轴电缆连接用,提供收(RX)、发(TX)两个通道,它用于非平衡信号的连接。
1.9.3 评价
BNC(同轴电缆卡环形接口)接口主要用于连接高端家庭影院产品以及专业视频设备。BNC电缆有5个连接头,分别接收红、绿、蓝、水平同步和垂直同步信号。BNC接头可以让视频信号互相间干扰减少,可达到最佳信号响应效果。此外,由于BNC接口的特殊设计,连接非常紧,不必担心接口松动而产生接触不良。
2 音频接口
除了高清视频带来的视觉上的冲击,音频方面质量也有很大提高,能给大家带来更逼真的现场效果。对于目前经常提到的音频接口做一个说明。
2.1 RCA模拟音频
RCA接头就是常说的莲花头,利用RCA线缆传输模拟信号是目前最普遍的音频连接方式。每一根RCA线缆负责传输一个声道的音频信号,所以立体声信号,需要使用一对线缆。对于多声道系统,就要根据实际的声道数量配以相同数量的线缆。立体声RCA音频接口,一般将右声道用红色标注,左声道则用蓝色或者白色标注。
2.2 平衡模拟音频
大三芯插头
XLR接口
与RCA模拟音频线缆直接传输声音的方式完全不同,平衡模拟音频(Balanced Analog Audio)接口使用两个通道分别传送信号相同而相位相反的信号。接收端设备将这两组信号相减,干扰信号就被抵消掉,从而获得高质量的模拟信号。平衡模拟音频通常采用XLR接口和大三芯接口。XLR俗称卡侬头,有三针插头和锁定装置组成。由于采用了锁定装置,XLR连接相当牢靠。大三芯接口则采用直径为6.35毫米的插头,其优点是耐磨损,适合反复插拔。平衡模拟音频连接主要出现在高级模拟音响器材或专业音频设备上。
2.3 S/PDIF
S/PDIF(Sony/Philips Digital Interface,索尼和飞利浦数字接口)是由SONY公司与PHILIPS公司联合制定的一种数字音频输出接口。该接口广泛应用在CD播放机、声卡及家用电器等设备上,能改善CD的音质,给我们更纯正的听觉效果。该接口传输的是数字信号,所以不会像模拟信号那样受到干扰而降低音频质量。需要注意的是,S/PDIF接口是一种标准,同轴数字接口和光线接口都属于S/PDIF接口的范畴。
2.4 数字同轴
数字同轴(Digital Coaxial)是利用S/PDIF接口输出数字音频的接口。同轴线缆有两个同心导体,导体和屏蔽层共用同一轴心。同轴线缆是由绝缘材料隔离的铜线导体,阻抗为75欧姆,在里层绝缘材料的外部是另一层环形导体及其绝缘体,整个电缆由聚氯乙烯或特氟纶材料的护套包住。同轴电缆的优点是阻抗稳定,传输带宽高,保证了音频的质量。虽然同轴数字线缆的标准接头为BNC接头,但市面上的同轴数字线材多采用RCA接头。
2.5 光纤
光纤(Optical)以光脉冲的形式来传输数字信号,其材质以玻璃或有机玻璃为主。光纤同样采用S/PDIF接口输出,其是带宽高,信号衰减小,常常用于连接DVD播放器和AV功放,支持PCM数字音频信号、Dolby以及DTS音频信号。
2.6 凤凰头
凤凰头也经常被用来作为音频的输入和输出端口。
3 视频分辨率
3.1 CIF
CIF是常用的标准化图像格式(Common Intermediate Format)。在H.323协议簇中,规定了视频采集设备的标准采集分辨率。CIF = 352×288像素。
CIF格式具有如下特性:
(1) 电视图像的空间分辨率为家用录像系统(Video Home System,VHS)的分辨率,即352×288。
(2) 使用非隔行扫描。
(3) 使用NTSC帧速率,30幅/秒。
(4) 使用1/2的PAL水平分辨率,即288线。
(5) 对亮度和两个色差信号(Y、Cb和Cr)分量分别进行编码,它们的取值范围同ITU-R BT.601。即黑色=16,白色=235,色差的最大值等于240,最小值等于16。
下面为5种CIF 图像格式的参数说明。
sub-QCIF 128×96
QCIF 176×144
CIF 352×288
4CIF 704×576
9CIF 1056×864
16CIF 1408×1152
目前在视频会议行业中使用CIF、4CIF,而在监控行业中使用CIF、HALF D1、D1等几种分辨率。
3.2 DCIF
在视频监控中,经过研究发现一种更为有效的监控视频编码分辨率(DCIF),其像素为528×384。DCIF分辨率的是视频图像来历是将奇、偶两个HALF D1,经反隔行变换,组成一个D1(720*576),D1作边界处理,变成4CIF(704×576),4CIF经水平3/4缩小、垂直2/3缩小,转换成528×384。528×384的像素数正好是CIF像素数的两倍,为了与常说的2CIF(704*288)区分,我们称之为DOUBLE CIF,简称DCIF。显然,DCIF在水平和垂直两个方向上,比Half D1更加均衡。
3.3 Dx系列/720p/1080p
Dx系列是数字电视系统显示格式的标准,共分为如下五种规格。我们经常说的高清视频、超高清视频的720p和1080p也是数字电视系统的显示格式。
D1:480i格式(525i):720×480(水平480线,隔行扫描),和NTSC模拟电视清晰度相同,行频为15.25kHz,相当于我们所说的4CIF(720×576)。
D2:480p格式(525p):720×480(水平480线,逐行扫描),较D1隔行扫描要清晰不少,和逐行扫描DVD规格相同,行频为31.5kHz。
D3:1080i格式(1125i):1920×1080(水平1080线,隔行扫描),高清采用最多的一种分辨率,分辨率为1920×1080i/60HZ,行频为33.75kHz。
D4:720p格式(750p):1280×720(水平720线,逐行扫描),虽然分辨率较D3要低,但是因为逐行扫描,市面上更多人感觉相对于1080i(实际逐次540线)视觉效果更加清晰。在最大分辨率达到1920×1080的情况下,D3要比D4感觉更加清晰,尤其是文字表现力上,分辨率为1280×720p/60HZ,行频为45kHz。
D5:1080p格式(1125p):1920×1080(水平1080线,逐行扫描),目前民用高清视频的最高标准,分辨率为1920×1080p/60HZ,行频为67.5KHZ。
其中D1 和D2标准是我们一般模拟电视的最高标准,并不能称的上高清晰,D3的1080i标准是高清晰电视的基本标准,它可以兼容720p格式,而D5的1080p只是专业上的标准,并不是民用级别的,上面所给出的60HZ只是理想状态下的场频,而它的行频为67.5KHZ,目前还没有如此高行频的电视问世,实际在专业领域里1080p的场频只有24HZ,25HZ和30HZ。
需要指出的一点是,DVI接口是日本独有的特殊接口,国内电视几乎没有带这种接口的,最多的是色差接口,而色差接口最多支持到D4,理论上肯定没有HDMI(纯数字信号,支持到1080p)的最高清晰度高,但在1920×1080以下分辨率的电视机上,一般也没有很大差别。
4 音频技术
视频通讯过程是视频和音频的实时双向完整通讯过程。在这个过程中我们为了获得高清晰视频图像,有时却忽略了另外一个重要的过程——音频通讯过程。如果我们在观看高清晰视频图像的时候,不能得到一个更清晰、连续的音频效果。那么这个过程实际上就没有任何意义,所以其重要性甚至超过视频。在传统的视频会议系统中音频技术发展极其缓慢,原因在于目前应用于视频通讯的音频编解码压缩标准都是为了保持传输时的低带宽占用和较高的编解码效率,从而将音频信号的采样频率、采样精度和采样范围指标做了极大的降低,使得所能提供的音频清晰度和还原性都有很大程度上的衰减。与用于存储和回放非实时压缩协议的标准(如OGG、MP3等)相比,音频的保真度非常低。这样就在某种程度上对现场声音的还原达不到要求。目前传统视频通讯过程中主要采用的是G.711、G.722、G.722.1、G.728等音频标准,音频宽度仅有50Hz-7KHz单声道,而人耳所能感知的自然界的频响能力可以达到20Hz-20KHz,因此,在对现场环境音的还原过程中过多的音频信息的丢失造成了无法真实表现现场情况。所以在高清晰视频通讯过程中我们势必要有一种相辅助的音频处理方式解决此问题。使整个高清晰通讯过程更去近于完美。
目前国际上对音频处理技术上标准较多,在对下一代实时交互音频处理上可以采用MPEG-1 Layer 2或AAC系列音频,对选用标准的原则是,音频频响范围要达到22KHz,这样就几乎可以覆盖了人耳听觉的全部范围,甚至在高频方面还有所超越,能够使现场音频得到真实自然的还原,并且在还原时可以采用双声道立体声回放,使整个视频通讯的声音有更强的临近感,达到CD级音质。同时在对链路带宽的适应和编解码效率上达到最佳。下面是各种音频编码标准的说明:
4.1 G.711
类型:Audio
制定者:ITU-T
所需频宽:64Kbps
特性:算法复杂度小,音质一般
优点:算法复杂度低,压缩比小(CD音质>400kbps),编解码延时最短(相对其它技术)
缺点:占用的带宽较高
备注:70年代CCITT公布的G.711 64kb/s脉冲编码调制PCM。
4.2 G.721
制定者:ITU-T
所需带宽:32Kbps
音频频宽:3.4KHZ
特性:相对于PCMA和PCMU,其压缩比较高,可以提供2:1的压缩比。
优点:压缩比大
缺点:声音质量一般
备注:子带ADPCM(SB-ADPCM)技术。G.721标准是一个代码转换系统。它使用ADPCM转换技术,实现64 kb/s A律或μ律PCM速率和32 kb/s速率之间的相互转换。
4.3 G.722
制定者:ITU-T
所需带宽:64Kbps
音频宽度:7KHZ
特性:G722能提供高保真的语音质量
优点:音质好
缺点:带宽要求高
备注:子带ADPCM(SB-ADPCM)技术
4.4 G.722.1
制定者:ITU-T
所需带宽:32Kbps/24Kbps
音频宽度:7KHZ
特性:可实现比G.722 编解码器更低的比特率以及更大的压缩。目标是以大约一半的比特率实现 G.722 大致相当的质量。
优点:音质好
缺点:带宽要求高
备注:目前大多用于电视会议系统。
4.5 G.722.1附录C
制定者:ITU-T
所需带宽:48Kbps/32Kbps/4Kbps
音频宽度:14KHZ
特性:采用自Polycom 的Siren™14 专利算法,与早先的宽频带音频技术相比具有突破性的优势,提供了低时延的14 kHz 超宽频带音频,而码率不到MPEG4 AAC-LD 替代编解码器的一半,同时要求的运算能力仅为十分之一到二十分之一,这样就留出了更多的处理器周期来提高视频质量或者运行因特网应用程序,并且移动设备上的电池续航时间也可延长。
优点:音质更为清晰,几乎可与CD 音质媲美,在视频会议等应用中可以降低听者的疲劳程度。
缺点:是Polycom的专利技术。
备注:目前大多用于电视会议系统
4.6 G.723(低码率语音编码算法)
制定者:ITU-T
所需带宽:5.3Kbps/6.3Kbps
音频宽度:3.4KHZ
特性:语音质量接近良,带宽要求低,高效实现,便于多路扩展,可利用C5402片内16kRAM实现53coder。达到ITU-TG723要求的语音质量,性能稳定。可用于IP电话语音信源编码或高效语音压缩存储。
优点:码率低,带宽要求较小。并达到ITU-TG723要求的语音质量,性能稳定。
缺点:声音质量一般
备注:G.723语音编码器是一种用于多媒体通信,编码速率为5.3kbits/s和6.3kbit/s的双码率编码方案。G.723标准是国际电信联盟(ITU)制定的多媒体通信标准中的一个组成部分,可以应用于IP电话等系统中。其中,5.3kbits/s码率编码器采用多脉冲最大似然量化技术(MP-MLQ),6.3kbits/s码率编码器采用代数码激励线性预测技术。
4.7 G.723.1(双速率语音编码算法)
制定者:ITU-T
所需带宽:5.3Kbps(22.9)
音频宽度:3.4KHZ
特性:能够对音乐和其他音频信号进行压缩和解压缩,但它对语音信号来说是最优的。G.723.1采用了执行不连续传输的静音压缩,这就意味着在静音期间的比特流中加入了人为的噪声。除了预留带宽之外,这种技术使发信机的调制解调器保持连续工作,并且避免了载波信号的时通时断。
优点:码率低,带宽要求较小。并达到ITU-TG723要求的语音质量,性能稳定,避免了载波信号的时通时断。
缺点:语音质量一般
备注:G.723.1算法是ITU-T建议的应用于低速率多媒体服务中语音或其它音频信号的压缩算法,其目标应用系统包括H.323、H.324等多媒体通信系统 。目前该算法已成为IP电话系统中的必选算法之一。
4.8 G.728
制定者:ITU-T
所需带宽:16Kbps/8Kbps
音频宽度:3.4KHZ
特性:用于IP电话、卫星通信、语音存储等多个领域。G.728是一种低时延编码器,但它比其它的编码器都复杂,这是因为在编码器中必须重复做50阶LPC分析。G.728还采用了自适应后置滤波器来提高其性能。
优点:后向自适应,采用自适应后置滤波器来提高其性能
缺点:比其它的编码器都复杂
备注:G.728 16kb/s短延时码本激励线性预测编码(LD-CELP)。1996年ITU公布了G.728 8kb/s的CS-ACELP算法,可以用于IP电话、卫星通信、语音存储等多个领域。16 kbps G.728低时延码激励线性预测。
G.728是低比特线性预测合成分析编码器(G.729和G.723.1)和后向ADPCM编码器的混合体。G.728是LD-CELP编码器,它一次只处理5个样点。对于低速率(56~128 kbps)的综合业务数字网(ISDN)可视电话,G.728是一种建议采用的语音编码器。由于其后向自适应特性,因此G.728是一种低时延编码器,但它比其它的编码器都复杂,这是因为在编码器中必须重复做50阶LPC分析。G.728还采用了自适应后置滤波器来提高其性能。
4.9 G.729
制定者:ITU-T
所需带宽:8Kbps
音频宽度:3.4KHZ
特性:在良好的信道条件下要达到长话质量,在有随机比特误码、发生帧丢失和多次转接等情况下要有很好的稳健性等。这种语音压缩算法可以应用在很广泛的领域中,包括IP电话、无线通信、数字卫星系统和数字专用线路。
G.729算法采用“共轭结构代数码本激励线性预测编码方案”(CS-ACELP)算法。这种算法综合了波形编码和参数编码的优点,以自适应预测编码技术为基础,采用了矢量量化、合成分析和感觉加权等技术。
G.729编码器是为低时延应用设计的,它的帧长只有10ms,处理时延也是10ms,再加上5ms的前视,这就使得G.729产生的点到点的时延为25ms,比特率为8 kbps。
优点:语音质量良,应用领域很广泛,采用了矢量量化、合成分析和感觉加权,提供了对帧丢失和分组丢失的隐藏处理机制。
缺点:在处理随机比特错误方面性能不好。
备注:国际电信联盟(ITU-T)于1995年11月正式通过了G.729。ITU-T建议G.729也被称作“共轭结构代数码本激励线性预测编码方案”(CS-ACELP),它是当前较新的一种语音压缩标准。G.729是由美国、法国、日本和加拿大的几家著名国际电信实体联合开发的。
4.10G.729A
制定者:ITU-T
所需带宽:8Kbps(34.4)
音频宽度:3.4KHZ
特性:复杂性较G.729低,性能较G.729差。
优点:语音质量良,降低了计算的复杂度以便于实时实现,提供了对帧丢失和分组丢失的隐藏处理机制
缺点:性能较G.729差
备注:96年ITU-T又制定了G.729的简化方案G.729A,主要降低了计算的复杂度以便于实时实现,因此目前使用的都是G.729A。
4.11MPEG-1 audio layer 1
制定者:MPEG
所需带宽:384kbps(压缩4倍)
音频宽度:
特性:编码简单,用于数字盒式录音磁带,2声道,VCD中使用的音频压缩方案就是MPEG-1层Ⅰ。
优点:压缩方式相对时域压缩技术而言要复杂得多,同时编码效率、声音质量也大幅提高,编码延时相应增加。可以达到“完全透明”的声音质量(EBU音质标准)
缺点:频宽要求较高
备注:MPEG-1声音压缩编码是国际上第一个高保真声音数据压缩的国际标准,它分为三个层次:
--层1(Layer 1):编码简单,用于数字盒式录音磁带
--层2(Layer 2):算法复杂度中等,用于数字音频广播(DAB)和VCD等
--层3(Layer 3):编码复杂,用于互联网上的高质量声音的传输,如MP3音乐压缩10倍
4.12MPEG-1 audio layer 2,即MP2
制定者:MPEG
所需带宽:256~192kbps(压缩6~8倍)
音频宽度:
特性:算法复杂度中等,用于数字音频广播(DAB)和VCD等,2声道,而MUSICAM由于其适当的复杂程度和优秀的声音质量,在数字演播室、DAB、DVB等数字节目的制作、交换、存储、传送中得到广泛应用。
优点:压缩方式相对时域压缩技术而言要复杂得多,同时编码效率、声音质量也大幅提高,编码延时相应增加。可以达到“完全透明”的声音质量(EBU音质标准)
缺点:
备注:同MPEG-1 audio layer 1
4.13MPEG-1 audio layer 3(MP3)
制定者:MPEG
所需带宽:128~112kbps(压缩10~12倍)
音频宽度:
特性:编码复杂,用于互联网上的高质量声音的传输,如MP3音乐压缩10倍,2声道。MP3是在综合MUSICAM和ASPEC的优点的基础上提出的混合压缩技术,在当时的技术条件下,MP3的复杂度显得相对较高,编码不利于实时,但由于MP3在低码率条件下高水准的声音质量,使得它成为软解压及网络广播的宠儿。
优点:压缩比高,适合用于互联网上的传播
缺点:MP3在128KBitrate及以下时,会出现明显的高频丢失
备注:同MPEG-1 audio layer 1
4.14MPEG-2 audio layer
制定者:MPEG
所需带宽:与MPEG-1层1,层2,层3相同
音频宽度:
特性:MPEG-2的声音压缩编码采用与MPEG-1声音相同的编译码器,层1, 层2和层3的结构也相同,但它能支持5.1声道和7.1声道的环绕立体声。
优点:支持5.1声道和7.1声道的环绕立体声
缺点:
备注:MPEG-2的声音压缩编码采用与MPEG-1声音相同的编译码器,层1, 层2和层3的结构也相同,但它能支持5.1声道和7.1声道的环绕立体声。
4.15AAC-LD (dvanced Audio Coding,先进音频编码)
制定者:MPEG
所需带宽:48-64 kbps
音频宽度:22KHZ
特性:提供高质量的低延时的音频编码标准,以其20ms的算法延时提供更高的比特率和各种声音信号的高质量音频。
缺点:
备注:超宽带编解码器技术支持高达48KHz采样率的语音传输,与传统的窄带与宽带语音编解码器相比大幅提高了音质。该技术可提供接近CD音质的音频,数据速率高达48–64kbps,不仅提高了IP语音与视频应用的清晰度,而且支持电话音乐传输功能。高清语音通道支持更高的采样率,配合音频编解码器的高保真音效,显著丰富并扩展了频谱两端的音质范围,有效改善了语音回响性能,提高了清晰度。
评论
查看更多