音频解码标准Word格式文档下载.docx
《音频解码标准Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《音频解码标准Word格式文档下载.docx(20页珍藏版)》请在冰点文库上搜索。
32Kbps
ADPCM(adaptivedifferencepulsecodemodulation)综合了APCM的自适应特性和DPCM系统的差分特性,是一种性能比较好的波形编码。
它的核心想法是:
①利用自适应的思想改变量化阶的大小,即使用小的量化阶(step-size)去编码小的差值,使用大的量化阶去编码大的差值;
②使用过去的样本值估算下一个输入样本的预测值,使实际样本值和预测值之间的差值总是最小。
算法复杂度低,压缩比小(CD音质>
400kbps),编解码延时最短(相对其它技术)
声音质量一般
ADPCM(ADPCMAdaptiveDifferentialPulseCodeModulation),是一种针对16bit(或者更高?
)声音波形数据的一种有损压缩算法,它将声音流中每次采样的16bit数据以4bit存储,所以压缩比1:
4.而压缩/解压缩算法非常的简单,所以是一种低空间消耗,高质量声音获得的好途径。
LPC(LinearPredictiveCoding,线性预测编码)
2Kbps-4.8Kbps
压缩比大,计算量大,音质不高,廉价
压缩比大,廉价
计算量大,语音质量不是很好,自然度较低
参数编码又称为声源编码,是将信源信号在频率域或其它正交变换域提取特征参数,并将其变换成数字代码进行传输。
译码为其反过程,将收到的数字序列经变换恢复特征参量,再根据特征参量重建语音信号。
具体说,参数编码是通过对语音信号特征参数的提取和编码,力图使重建语音信号具有尽可能高的准确性,但重建信号的波形同原语音信号的波形可能会有相当大的差别。
如:
线性预测编码(LPC)及其它各种改进型都属于参数编码。
该编码比特率可压缩到2Kbit/s-4.8Kbit/s,甚至更低,但语音质量只能达到中等,特别是自然度较低。
CELP(CodeExcitedLinearPrediction,码激励线性预测编码)
欧洲通信标准协会(ETSI)
4~16Kbps的速率
改善语音的质量:
①对误差信号进行感觉加权,利用人类听觉的掩蔽特性来提高语音的主观质量;
②用分数延迟改进基音预测,使浊音的表达更为准确,尤其改善了女性语音的质量;
③使用修正的MSPE准则来寻找“最佳”的延迟,使得基音周期延迟的外形更为平滑;
④根据长时预测的效率,调整随机激励矢量的大小,提高语音的主观质量;
⑤使用基于信道错误率估计的自适应平滑器,在信道误码率较高的情况下也能合成自然度较高的语音。
结论:
①CELP算法在低速率编码环境下可以得到令人满意的压缩效果;
②使用快速算法,可以有效地降低CELP算法的复杂度,使它完全可以实时地实现;
③CELP可以成功地对各种不同类型的语音信号进行编码,这种适应性对于真实环境,尤其是背景噪声存在时更为重要。
用很低的带宽提供了较清晰的语音
1999年欧洲通信标准协会(ETSI)推出了基于码激励线性预测编码(CELP)的第三代移动通信语音编码标准自适应多速率语音编码器(AMR),其中最低速率为4.75kb/s,达到通信质量。
CELP码激励线性预测编码是CodeExcitedLinearPrediction的缩写。
CELP是近10年来最成功的语音编码算法。
CELP语音编码算法用线性预测提取声道参数,用一个包含许多典型的激励矢量的码本作为激励参数,每次编码时都在这个码本中搜索一个最佳的激励矢量,这个激励矢量的编码值就是这个序列的码本中的序号。
CELP已经被许多语音编码标准所采用,美国联邦标准FS1016就是采用CELP的编码方法,主要用于高质量的窄带语音保密通信。
CELP(Code-ExcitedLinearPrediction)这是一个简化的LPC算法,以其低比特率著称(4800-9600Kbps),具有很清晰的语音品质和很高的背景噪音免疫性。
CELP是一种在中低速率上广泛使用的语音压缩编码方案。
G.711
64Kbps
算法复杂度小,音质一般
备注:
70年代CCITT公布的G.71164kb/s脉冲编码调制PCM。
G.721
相对于PCMA和PCMU,其压缩比较高,可以提供2:
1的压缩比。
压缩比大
子带ADPCM(SB-ADPCM)技术。
G.721标准是一个代码转换系统。
它使用ADPCM转换技术,实现64kb/sA律或μ律PCM速率和32kb/s速率之间的相互转换。
G.722
G722能提供高保真的语音质量
音质好
带宽要求高
子带ADPCM(SB-ADPCM)技术
G.723(低码率语音编码算法)
5.3Kbps/6.3Kbps
语音质量接近良,带宽要求低,高效实现,便于多路扩展,可利用C5402片内16kRAM实现53coder。
达到ITU-TG723要求的语音质量,性能稳定。
可用于IP电话语音信源编码或高效语音压缩存储。
码率低,带宽要求较小。
并达到ITU-TG723要求的语音质量,性能稳定。
G.723语音编码器是一种用于多媒体通信,编码速率为5.3kbits/s和6.3kbit/s的双码率编码方案。
G.723标准是国际电信联盟(ITU)制定的多媒体通信标准中的一个组成部分,可以应用于IP电话等系统中。
其中,5.3kbits/s码率编码器采用多脉冲最大似然量化技术(MP-MLQ),6.3kbits/s码率编码器采用代数码激励线性预测技术。
G.723.1(双速率语音编码算法)
5.3Kbps(22.9)
特性:
能够对音乐和其他音频信号进行压缩和解压缩,但它对语音信号来说是最优的。
G.723.1采用了执行不连续传输的静音压缩,这就意味着在静音期间的比特流中加入了人为的噪声。
除了预留带宽之外,这种技术使发信机的调制解调器保持连续工作,并且避免了载波信号的时通时断。
并达到ITU-TG723要求的语音质量,性能稳定,避免了载波信号的时通时断。
语音质量一般
G.723.1算法是ITU-T建议的应用于低速率多媒体服务中语音或其它音频信号的压缩算法,其目标应用系统包括H.323、H.324等多媒体通信系统。
目前该算法已成为IP电话系统中的必选算法之一。
G.728
16Kbps/8Kbps
用于IP电话、卫星通信、语音存储等多个领域。
G.728是一种低时延编码器,但它比其它的编码器都复杂,这是因为在编码器中必须重复做50阶LPC分析。
G.728还采用了自适应后置滤波器来提高其性能。
后向自适应,采用自适应后置滤波器来提高其性能
比其它的编码器都复杂
G.72816kb/s短延时码本激励线性预测编码(LD-CELP)。
1996年ITU公布了G.7288kb/s的CS-ACELP算法,可以用于IP电话、卫星通信、语音存储等多个领域。
16kbpsG.728低时延码激励线性预测。
G.728是低比特线性预测合成分析编码器(G.729和G.723.1)和后向ADPCM编码器的混合体。
G.728是LD-CELP编码器,它一次只处理5个样点。
对于低速率(56~128kbps)的综合业务数字网(ISDN)可视电话,G.728是一种建议采用的语音编码器。
由于其后向自适应特性,因此G.728是一种低时延编码器,但它比其它的编码器都复杂,这是因为在编码器中必须重复做50阶LPC分析。
G.729
8Kbps
在良好的信道条件下要达到长话质量,在有随机比特误码、发生帧丢失和多次转接等情况下要有很好的稳健性等。
这种语音压缩算法可以应用在很广泛的领域中,包括IP电话、无线通信、数字卫星系统和数字专用线路。
G.729算法采用“共轭结构代数码本激励线性预测编码方案”(CS-ACELP)算法。
这种算法综合了波形编码和参数编码的优点,以自适应预测编码技术为基础,采用了矢量量化、合成分析和感觉加权等技术。
G.729编码器是为低时延应用设计的,它的帧长只有10ms,处理时延也是10ms,再加上5ms的前视,这就使得G.729产生的点到点的时延为25ms,比特率为8kbps。
语音质量良,应用领域很广泛,采用了矢量量化、合成分析和感觉加权,提供了对帧丢失和分组丢失的隐藏处理机制
在处理随机比特错误方面性能不好。
国际电信联盟(ITU-T)于1995年11月正式通过了G.729。
ITU-T建议G.729也被称作“共轭结构代数码本激励线性预测编码方案”(CS-ACELP),它是当前较新的一种语音压缩标准。
G.729是由美国、法国、日本和加拿大的几家著名国际电信实体联合开发的。
G.729A
8Kbps(34.4)
复杂性较G.729低,性能较G.729差。
语音质量良,降低了计算的复杂度以便于实时实现,提供了对帧丢失和分组丢失的隐藏处理机制
性能较G.729差
96年ITU-T又制定了G.729的简化方案G.729A,主要降低了计算的复杂度以便于实时实现,因此目前使用的都是G.729A。
GIPS
瑞典GlobalIPSound公司
GIPS技术可根据带宽状况自动调节编码码率,提供低码率高质量的音频。
GIPS的核心技术(网络自适应算法,丢包补偿算法和回声消除算法)可很好地解决语音延迟与回声问题,带来完美音质,提供比电话还清晰的语音通话效果。
很好地解决语音延迟与回声问题,带来完美音质,提供比电话还清晰的语音通话效果
不是Free
每年支付一笔使用权费用
GIPS音频技术是由来自瑞典的全球顶尖的语音处理高科技公司--"
GLOBALIPSOUND"
提供的专用于互联网的语音压缩引擎系统。
GIPS的核心技术(网络自适应算法,丢包补偿算法和回声消除算法)可很好地解决语音延迟与回声问题,带来完美音质,提供比电话还清晰的语音通话效果。
Apt-X
AudioProcessingTechnology公司
10Hzto22.5kHz,56kbit/sto576kbit/s(16bit7.5kHzmonoto24-bit,22.5kHzstereo)
主要用于专业音频领域,提供高品质的音频。
其特点是:
①采用4:
1:
4的压缩与放大方案;
②硬件低复杂度;
③极低的编码延迟;
④由单芯片实现;
⑤单声道或立体声编解码;
⑥只需单设备即可实现22.5kHz的双通道立体声;
⑦高达48kHz的采样频率;
⑧容错性好;
⑨完整的AUTOSYNC™编解码同步方案;
⑩低功率消耗
高品质的音频,硬件复杂度低,设备要求低
不是Free
一次性付费
NICAM(NearInstantaneousCompandedAudioMultiplex准瞬时压扩音频复用)
英国BBC广播公司
728Kbps
应用范围及其广泛,可用它进行立体声或双语广播
应用范围及其广泛,信噪比高,动态范围宽、音质同CD相媲美,故名丽音,因此NICAM又称为丽音
不是Free,频宽要求高
NICAM也称丽音,它是英文Near-InstantaneouslyCompandedAudioMultiplex的缩写,其含义为准瞬时压扩音频复用,是由英国BBC广播公司开发研究成功的。
通俗地说NICAM技术实际上就是双声道数字声技术,其应用范围及其广泛,最典型的应用便是电视广播附加双声道数字声技术,利用它进行立体声或双语广播,以充分利用电视频道的频谱资源。
这是在常规电视广播的基础上无需增加许多投资就可以实现的。
在进行立体声广播时,它提高了音频的信号质量,使其接近CD的质量。
而且还可以利用NICAM技术进行高速数据广播及其他数据传输的增殖服务,这在当今的信息化社会中似乎就显得尤为重要了!
MPEG-1audiolayer1
MPEG
384kbps(压缩4倍)
编码简单,用于数字盒式录音磁带,2声道,VCD中使用的音频压缩方案就是MPEG-1层Ⅰ。
压缩方式相对时域压缩技术而言要复杂得多,同时编码效率、声音质量也大幅提高,编码延时相应增加。
可以达到“完全透明”的声音质量(EBU音质标准)
频宽要求较高
MPEG-1声音压缩编码是国际上第一个高保真声音数据压缩的国际标准,它分为三个层次:
--层1(Layer1):
编码简单,用于数字盒式录音磁带
--层2(Layer2):
算法复杂度中等,用于数字音频广播(DAB)和VCD等
--层3(Layer3):
编码复杂,用于互联网上的高质量声音的传输,如MP3音乐压缩10倍
MUSICAM(MPEG-1audiolayer2,即MP2)
256~192kbps(压缩6~8倍)
算法复杂度中等,用于数字音频广播(DAB)和VCD等,2声道,而MUSICAM由于其适当的复杂程度和优秀的声音质量,在数字演播室、DAB、DVB等数字节目的制作、交换、存储、传送中得到广泛应用。
同MPEG-1audiolayer1
MP3(MPEG-1audiolayer3)
128~112kbps(压缩10~12倍)
编码复杂,用于互联网上的高质量声音的传输,如MP3音乐压缩10倍,2声道。
MP3是在综合MUSICAM和ASPEC的优点的基础上提出的混合压缩技术,在当时的技术条件下,MP3的复杂度显得相对较高,编码不利于实时,但由于MP3在低码率条件下高水准的声音质量,使得它成为软解压及网络广播的宠儿。
压缩比高,适合用于互联网上的传播
MP3在128KBitrate及以下时,会出现明显的高频丢失
MPEG-2audiolayer
与MPEG-1层1,层2,层3相同
MPEG-2的声音压缩编码采用与MPEG-1声音相同的编译码器,层1,层2和层3的结构也相同,但它能支持5.1声道和7.1声道的环绕立体声。
支持5.1声道和7.1声道的环绕立体声
按个收取
AAC(AdvancedAudioCoding,先进音频编码)
96-128kbps
AAC可以支持1到48路之间任意数目的音频声道组合、包括15路低频效果声道、配音/多语音声道,以及15路数据。
它可同时传送16套节目,每套节目的音频及数据结构可任意规定。
AAC主要可能的应用范围集中在因特网网络传播、数字音频广播,包括卫星直播和数字AM、以及数字电视及影院系统等方面。
AAC使用了一种非常灵活的熵编码核心去传输编码频谱数据。
具有48个主要音频通道,16个低频增强通道,16个集成数据流,16个配音,16种编排。
支持多种音频声道组合,提供优质的音质
一次性收费
AAC于1997年形成国际标准ISO13818-7。
先进音频编码(AdvancedAudioCoding--AAC)开发成功,成为继MPEG-2音频标准(ISO/IEC13818-3)之后的新一代音频压缩标准。
在MPEG-2制订的早期,本来是想将其音频编码部分保持与MPEG-1兼容的。
但后来为了适应演播电视的要求而将其定义成为一个可以获得更高质量的多声道音频标准。
理所当然地,这个标准是不兼容MPEG-1的,因此被称为MPEG-2AAC。
换句话说,从表面上看,要制作和播放AAC,都需要使用与MP3完全不同的工具。
DolbyAC-3
美国杜比公司
64kbps
提供的环绕立体声系统由5个全频带声道加一个超低音声道组成,6个声道的信息在制作和还原过程中全部数字化,信息损失很少,细节丰富,具有真正的立体声效果,在数字电视、DVD和家庭影院中广泛使用。
环绕立体声,信息损失很少,细节丰富,具有真正的立体声效果
杜比数字AC-3(DolbyDigitalAC-3):
美国杜比公司开发的多声道全频带声音编码系统,它提供的环绕立体声系统由5个全频带声道加一个超低音声道组成,6个声道的信息在制作和还原过程中全部数字化,信息损失很少,细节丰富,具有真正的立体声效果,在数字电视、DVD和家庭影院中广泛使用。
ASPEC(AudioSpectralPerceptualEntropyCoding)
AT&
T
64kps
音频质量获得显著改善,不过计算复杂度也大大提高,而且在回响、低码率时声音质量严重下降。
音频质量获得显著改善
计算复杂度的提高。
块边界影响、预计算复杂度的提高。
回响、低码率时声音质量严重下降
变换压缩技术
PAC(PerceptualAudioCoder)
音频质量获得显著改善,不过在回响、低码率时声音质量严重下降。
块边界影响、预回响、低码率时声音质量严重下降
HR
飞利浦
以增加GSM网络容量为目的,但是会损害语音质量;
由于现在网络频率紧缺,一些大的运营商已经在大城市密集地带开通此方式以增加容量。
系统容量大
语音质量差
GSM
按个收费
HF半速率,是一种GSM语音编码方式。
FR
飞利浦
13Kbps
是一般的GSM手机的通信编码方式,可以获得达到4.1左右Qos的语音通信质量(国际电联规定语音通信质量Qos满分为5)
语音质量得到了提高
系统容量降低
FR全速率,是一种GSM语音编码方式。
EFR
用于GSM手机基于全速率13Kbps的语音编码和发送,可以获得更好更清晰的语音质量(接近Qos4.7),需要网络服务商开通此项网络功能,手机才能配合实现。
需要网络服务商开通此项网络功能,且系统容量降低
应用领域