语音编码分类及编解码标准.docx

资源描述

语音编码分类及编解码标准.docx

《语音编码分类及编解码标准.docx》由会员分享，可在线阅读，更多相关《语音编码分类及编解码标准.docx（17页珍藏版）》请在冰点文库上搜索。

语音编码分类及编解码标准.docx

语音编码分类及编解码标准

将音频或视频信号在模拟格式和数字格式之间转换的硬件（编码器/解码器）；压缩和解压缩音频或视频数据的硬件或软件（压缩/解压缩）；或是编码器/解码器和压缩/解压缩的组合。

通常，编码解码器能够压缩未压缩的数字数据，以减少内存使用量。

编解码器（codec）指的是一个能够对一个信号或者一个数据流进行变换的设备或者程序。

这里指的变换既包括将信号或者数据流进行编码（通常是为了传输、存储或者加密）或者提取得到一个编码流的操作，也包括为了观察或者处理从这个编码流中恢复适合观察或操作的形式的操作。

编解码器经常用在视频会议和流媒体等应用中，通常主要还是用在广电行业，作前端应用。

G.711类型：

Audio

　　制定者：

ITU-T

　　所需频宽：

64Kbps

　　特性：

算法复杂度小，音质一般

　　优点：

算法复杂度低，压缩比小（CD音质>400kbps），编解码延时最短（相对其它技术）

　　缺点：

占用的带宽较高

　　应用领域：

voip

　　版税方式：

Free

　　备注：

70年代CCITT公布的G.71164kb/s脉冲编码调制PCM。

G.721类型：

Audio

　　制定者：

ITU-T

　　所需频宽：

32Kbps

　　特性：

相对于PCMA和PCMU，其压缩比较高，可以提供2：

1的压缩比。

　　优点：

压缩比大

　　缺点：

声音质量一般

　　应用领域：

voip

　　版税方式：

Free

　　备注：

子带ADPCM（SB-ADPCM）技术。

G.721标准是一个代码转换系统。

它使用ADPCM转换技术，实现64kb/sA律或μ律PCM速率和32kb/s速率之间的相互转换。

G.722类型：

Audio

　　制定者：

ITU-T

　　所需频宽：

64Kbps

　　特性：

G722能提供高保真的语音质量

　　优点：

音质好

　　缺点：

带宽要求高

　　应用领域：

voip

　　版税方式：

Free

　　备注：

子带ADPCM（SB-ADPCM）技术

G.723（低码率语音编码算法）类型：

Audio

　　制定者：

ITU-T

　　所需频宽：

5.3Kbps/6.3Kbps

　　特性：

语音质量接近良，带宽要求低，高效实现，便于多路扩展，可利用C5402片内16kRAM实现53coder。

达到ITU-TG723要求的语音质量，性能稳定。

可用于IP电话语音信源编码或高效语音压缩存储。

　　优点：

码率低，带宽要求较小。

并达到ITU-TG723要求的语音质量，性能稳定。

　　缺点：

声音质量一般

　　应用领域：

voip

　　版税方式：

Free

　　备注：

G.723语音编码器是一种用于多媒体通信，编码速率为5.3kbits/s和6.3kbit/s的双码率编码方案。

G.723标准是国际电信联盟（ITU）制定的多媒体通信标准中的一个组成部分，可以应用于IP电话等系统中。

其中，5.3kbits/s码率编码器采用多脉冲最大似然量化技术（MP－MLQ），6.3kbits/s码率编码器采用代数码激励线性预测技术。

G.723.1（双速率语音编码算法）类型：

Audio

　　制定者：

ITU-T

　　所需频宽：

5.3Kbps（22.9）

　　特性：

能够对音乐和其他音频信号进行压缩和解压缩，但它对语音信号来说是最优的。

G.723.1采用了执行不连续传输的静音压缩，这就意味着在静音期间的比特流中加入了人为的噪声。

除了预留带宽之外，这种技术使发信机的调制解调器保持连续工作，并且避免了载波信号的时通时断。

　　优点：

码率低，带宽要求较小。

并达到ITU-TG723要求的语音质量，性能稳定,避免了载波信号的时通时断。

　　缺点：

语音质量一般

　　应用领域：

voip

　　版税方式：

Free

　　备注：

G.723.1算法是 ITU-T建议的应用于低速率多媒体服务中语音或其它音频信号的压缩算法，其目标应用系统包括H.323、H.324等多媒体通信系统。

目前该算法已成为IP电话系统中的必选算法之一。

G.728类型：

Audio

　　制定者：

ITU-T

　　所需频宽：

16Kbps/8Kbps

　　特性：

用于IP电话、卫星通信、语音存储等多个领域。

G.728是一种低时延编码器，但它比其它的编码器都复杂，这是因为在编码器中必须重复做50阶LPC分析。

G.728还采用了自适应后置滤波器来提高其性能。

　　优点：

后向自适应，采用自适应后置滤波器来提高其性能

　　缺点：

比其它的编码器都复杂

　　应用领域：

voip

　　版税方式：

Free

　　备注：

G.72816kb/s短延时码本激励线性预测编码（LD-CELP）。

1996年ITU公布了G.7288kb/s的CS－ACELP算法，可以用于IP电话、卫星通信、语音存储等多个领域。

16kbpsG.728低时延码激励线性预测。

　　G.728是低比特线性预测合成分析编码器（G.729和G.723.1）和后向ADPCM编码器的混合体。

G.728是LD-CELP编码器，它一次只处理5个样点。

对于低速率（56~128kbps）的综合业务数字网（ISDN）可视电话，G.728是一种建议采用的语音编码器。

由于其后向自适应特性，因此G.728是一种低时延编码器，但它比其它的编码器都复杂，这是因为在编码器中必须重复做50阶LPC分析。

G.728还采用了自适应后置滤波器来提高其性能。

G.729类型：

Audio

　　制定者：

ITU-T

　　所需频宽：

8Kbps

　　特性：

在良好的信道条件下要达到长话质量，在有随机比特误码、发生帧丢失和多次转接等情况下要有很好的稳健性等。

这种语音压缩算法可以应用在很广泛的领域中，包括ＩＰ电话、无线通信、数字卫星系统和数字专用线路。

　　G.729算法采用“共轭结构代数码本激励线性预测编码方案”（CS-ACELP）算法。

这种算法综合了波形编码和参数编码的优点，以自适应预测编码技术为基础，采用了矢量量化、合成分析和感觉加权等技术。

　　G.729编码器是为低时延应用设计的，它的帧长只有10ms，处理时延也是10ms，再加上5ms的前视，这就使得G.729产生的点到点的时延为25ms，比特率为8kbps。

　　优点：

语音质量良，应用领域很广泛，采用了矢量量化、合成分析和感觉加权，提供了对帧丢失和分组丢失的隐藏处理机制

　　缺点：

在处理随机比特错误方面性能不好。

　　应用领域：

voip

　　版税方式：

Free

　　备注：

国际电信联盟（ITU-T）于1995年11月正式通过了G.729。

ITU-T建议G.729也被称作“共轭结构代数码本激励线性预测编码方案”（CS-ACELP），它是当前较新的一种语音压缩标准。

G.729是由美国、法国、日本和加拿大的几家著名国际电信实体联合开发的。

G.729A类型：

Audio

　　制定者：

ITU-T

　　所需频宽：

8Kbps（34.4）

　　特性：

复杂性较G.729低，性能较G.729差。

　　优点：

语音质量良，降低了计算的复杂度以便于实时实现，提供了对帧丢失和分组丢失的隐藏处理机制

　　缺点：

性能较G.729差

　　应用领域：

voip

　　版税方式：

Free

　　备注：

96年ITU-T又制定了G.729的简化方案G.729A，主要降低了计算的复杂度以便于实时实现，因此目前使用的都是G.729A。

GIPS

　　类型：

Audio

　　制定者：

瑞典GlobalIPSound公司

　　所需频宽：

　　特性：

GIPS技术可根据带宽状况自动调节编码码率，提供低码率高质量的音频。

GIPS的核心技术（网络自适应算法，丢包补偿算法和回声消除算法）可很好地解决语音延迟与回声问题，带来完美音质，提供比电话还清晰的语音通话效果。

　　优点：

很好地解决语音延迟与回声问题，带来完美音质，提供比电话还清晰的语音通话效果

　　缺点：

不是Free

　　应用领域：

voip

　　版税方式：

每年支付一笔使用权费用

　　备注：

GIPS音频技术是由来自瑞典的全球顶尖的语音处理高科技公司--"GLOBALIPSOUND"提供的专用于互联网的语音压缩引擎系统。

GIPS技术可根据带宽状况自动调节编码码率，提供低码率高质量的音频。

Apt-X

　　类型：

Audio

　　制定者：

AudioProcessingTechnology 公司

　　所需频宽：

10Hzto22.5kHz，56kbit/sto576kbit/s（16bit7.5kHzmonoto24-bit,22.5kHzstereo）

　　特性：

主要用于专业音频领域，提供高品质的音频。

其特点是：

　　①采用4:

4的压缩与放大方案；

　　②硬件低复杂度；

　　③极低的编码延迟；

　　④由单芯片实现；

　　⑤单声道或立体声编解码；

　　⑥只需单设备即可实现22.5kHz的双通道立体声；

　　⑦高达48kHz的采样频率；

　　⑧容错性好；

　　⑨完整的AUTOSYNC™编解码同步方案；

　　⑩低功率消耗

　　优点：

高品质的音频，硬件复杂度低，设备要求低

　　缺点：

不是Free

　　应用领域：

voip

　　版税方式：

一次性付费

　　备注：

子带ADPCM（SB-ADPCM）技术

NICAM

　　NICAM（NearInstantaneousCompandedAudioMultiplex 准瞬时压扩音频复用）

　　类型：

Audio

　　制定者：

英国BBC广播公司

　　所需频宽：

728Kbps

　　特性：

应用范围及其广泛，可用它进行立体声或双语广播

　　优点：

应用范围及其广泛，信噪比高，动态范围宽、音质同CD相媲美，故名丽音，因此NICAM又称为丽音

　　缺点：

不是Free，频宽要求高

　　应用领域：

voip

　　版税方式：

一次性付费

　　备注：

NICAM也称丽音，它是英文Near-InstantaneouslyCompandedAudioMultiplex的缩写，其含义为准瞬时压扩音频复用，是由英国BBC广播公司开发研究成功的。

　　通俗地说NICAM技术实际上就是双声道数字声技术，其应用范围及其广泛，最典型的应用便是电视广播附加双声道数字声技术，利用它进行立体声或双语广播，以充分利用电视频道的频谱资源。

这是在常规电视广播的基础上无需增加许多投资就可以实现的。

在进行立体声广播时，它提高了音频的信号质量，使其接近CD的质量。

而且还可以利用NICAM技术进行高速数据广播及其他数据传输的增殖服务，这在当今的信息化社会中似乎就显得尤为重要了！

MPEG-1audiolayer1

　　类型：

Audio

　　制定者：

MPEG

　　所需频宽：

384kbps（压缩4倍）

　　特性：

编码简单，用于数字盒式录音磁带，2声道，VCD中使用的音频压缩方案就是MPEG-1层Ⅰ。

　　优点：

压缩方式相对时域压缩技术而言要复杂得多，同时编码效率、声音质量也大幅提高，编码延时相应增加。

可以达到“完全透明”的声音质量（EBU音质标准）

　　缺点：

频宽要求较高

　　应用领域：

voip

　　版税方式：

Free

　　备注：

MPEG-1声音压缩编码是国际上第一个高保真声音数据压缩的国际标准，它分为三个层次：

　　--层1（Layer1）：

编码简单，用于数字盒式录音磁带

　　--层2（Layer2）：

算法复杂度中等，用于数字音频广播（DAB）和VCD等

　　--层3（Layer3）：

编码复杂，用于互联网上的高质量声音的传输，如MP3音乐压缩10倍

MUSICAM（MPEG-1audiolayer2,即MP2）

　　类型：

Audio

　　制定者：

MPEG

　　所需频宽：

256～192kbps（压缩6～8倍）

　　特性：

算法复杂度中等，用于数字音频广播（DAB）和VCD等，2声道，而MUSICAM由于其适当的复杂程度和优秀的声音质量，在数字演播室、DAB、DVB等数字节目的制作、交换、存储、传送中得到广泛应用。

　　优点：

压缩方式相对时域压缩技术而言要复杂得多，同时编码效率、声音质量也大幅提高，编码延时相应增加。

可以达到“完全透明”的声音质量（EBU音质标准）

　　缺点：

　　应用领域：

voip

　　版税方式：

Free

　　备注：

同MPEG-1audiolayer1

MP3（MPEG-1audiolayer3）

　　类型：

Audio

　　制定者：

MPEG

　　所需频宽：

128～112kbps（压缩10～12倍）

　　特性：

编码复杂，用于互联网上的高质量声音的传输，如MP3音乐压缩10倍，2声道。

MP3是在综合MUSICAM和ASPEC的优点的基础上提出的混合压缩技术，在当时的技术条件下，MP3的复杂度显得相对较高，编码不利于实时，但由于MP3在低码率条件下高水准的声音质量，使得它成为软解压及网络广播的宠儿。

　　优点：

压缩比高，适合用于互联网上的传播

　　缺点：

MP3在128KBitrate及以下时，会出现明显的高频丢失

　　应用领域：

voip

　　版税方式：

Free

　　备注：

同MPEG-1audiolayer1

MPEG-2audiolayer

　　类型：

Audio

　　制定者：

MPEG

　　所需频宽：

与MPEG-1层1，层2，层3相同

　　特性：

MPEG-2的声音压缩编码采用与MPEG-1声音相同的编译码器，层1, 层2和层3的结构也相同，但它能支持5.1声道和7.1声道的环绕立体声。

　　优点：

支持5.1声道和7.1声道的环绕立体声

　　缺点：

　　应用领域：

voip

　　版税方式：

按个收取

　　备注：

MPEG-2的声音压缩编码采用与MPEG-1声音相同的编译码器，层1, 层2和层3的结构也相同，但它能支持5.1声道和7.1声道的环绕立体声。

AAC（AdvancedAudioCoding，先进音频编码）

　　类型：

Audio

　　制定者：

MPEG

　　所需频宽：

96-128kbps

　　特性：

AAC可以支持1到48路之间任意数目的音频声道组合、包括15路低频效果声道、配音/多语音声道，以及15路数据。

它可同时传送16套节目，每套节目的音频及数据结构可任意规定。

　　AAC主要可能的应用范围集中在因特网网络传播、数字音频广播，包括卫星直播和数字AM、以及数字电视及影院系统等方面。

AAC使用了一种非常灵活的熵编码核心去传输编码频谱数据。

具有48 个主要音频通道，16 个低频增强通道，16 个集成数据流,16 个配音，16 种编排。

　　优点：

支持多种音频声道组合，提供优质的音质

　　缺点：

　　应用领域：

voip

　　版税方式：

一次性收费

　　备注：

AAC于1997年形成国际标准ISO13818-7。

先进音频编码（AdvancedAudioCoding--AAC）开发成功，成为继MPEG-2音频标准（ISO/IEC13818-3）之后的新一代音频压缩标准。

　　在MPEG-2制订的早期，本来是想将其音频编码部分保持与MPEG-1兼容的。

但后来为了适应演播电视的要求而将其定义成为一个可以获得更高质量的多声道音频标准。

理所当然地，这个标准是不兼容MPEG-1的，因此被称为MPEG-2AAC。

换句话说，从表面上看，要制作和播放AAC，都需要使用与MP3完全不同的工具。

DolbyAC-3

　　类型：

Audio

　　制定者：

美国杜比公司

　　所需频宽：

64kbps

　　特性：

提供的环绕立体声系统由5个全频带声道加一个超低音声道组成，6个声道的信息在制作和还原过程中全部数字化，信息损失很少，细节丰富，具有真正的立体声效果，在数字电视、DVD和家庭影院中广泛使用。

　　优点：

环绕立体声，信息损失很少，细节丰富，具有真正的立体声效果

　　缺点：

　　应用领域：

voip

　　版税方式：

按个收取

　　备注：

杜比数字AC-3（DolbyDigitalAC-3）：

美国杜比公司开发的多声道全频带声音编码系统，它提供的环绕立体声系统由5个全频带声道加一个超低音声道组成，6个声道的信息在制作和还原过程中全部数字化，信息损失很少，细节丰富，具有真正的立体声效果，在数字电视、DVD和家庭影院中广泛使用。

PCM编码（原始数字音频信号流）

　　类型：

Audio

　　制定者：

ITU-T

　　所需频宽：

1411.2Kbps

　　特性：

音源信息完整，但冗余度过大

　　优点：

音源信息保存完整,音质好

　　缺点：

信息量大，体积大，冗余度过大

　　应用领域：

voip

　　版税方式：

Free

　　备注：

在计算机应用中，能够达到最高保真水平的就是PCM编码，被广泛用于素材保存及音乐欣赏，CD、DVD以及我们常见的WAV文件中均有应用。

因此，PCM约定俗成了无损编码，因为PCM代表了数字音频中最佳的保真水准，并不意味着PCM就能够确保信号绝对保真，PCM也只能做到最大程度的无限接近。

要算一个PCM音频流的码率是一件很轻松的事情，采样率值×采样大小值×声道数bps。

一个采样率为44.1KHz，采样大小为16bit，双声道的PCM编码的WAV文件，它的数据速率则为 44.1K×16×2=1411.2Kbps。

我们常见的AudioCD就采用了PCM编码，一张光盘的容量只能容纳72分钟的音乐信息。

WMA（WindowsMediaAudio）

　　类型：

Audio

　　制定者：

微软公司

　　所需频宽：

320～112kbps（压缩10～12倍）

　　特性：

当Bitrate小于128K时，WMA几乎在同级别的所有有损编码格式中表现得最出色，但似乎128k是WMA一个槛，当Bitrate再往上提升时，不会有太多的音质改变。

　　优点：

当Bitrate小于128K时，WMA最为出色且编码后得到的音频文件很小。

　　缺点：

当Bitrate大于128K时，WMA音质损失过大。

WMA标准不开放，由微软掌握。

　　应用领域：

voip

　　版税方式：

按个收取

　　备注：

WMA的全称是WindowsMediaAudio，它是微软公司推出的与MP3格式齐名的一种新的音频格式。

由于WMA在压缩比和音质方面都超过了MP3，更是远胜于RA（RealAudio），即使在较低的采样频率下也能产生较好的音质，再加上WMA有微软的WindowsMediaPlayer做其强大的后盾，所以一经推出就赢得一片喝彩。

PCMU（G.711U）

　　类型：

Audio

　　制定者：

ITU-T

　　所需频宽：

64Kbps（90.4）

　　特性：

PCMU和PCMA都能提供较好的语音质量，但是它们占用的带宽较高，需要64kbps。

　　优点：

语音质量优

　　缺点：

占用的带宽较高

　　应用领域：

voip

　　版税方式：

Free

　　备注：

PCMUandPCMA都能够达到CD音质，但是它们消耗的带宽也最多（64kbps）。

如果网络带宽比较低，可以选用低比特速率的编码方法，如G.723或G.729，这两种编码的方法也能达到传统长途电话的音质，但是需要很少的带宽（G723需要5.3/6.3kbps，G729需要8kbps）。

如果带宽足够并且需要更好的语音质量，就使用PCMU 和 PCMA，甚至可以使用宽带的编码方法G722（64kbps），这可以提供有高保真度的音质。

PCMA（G.711A）

　　类型：

Audio

　　制定者：

ITU-T

　　所需频宽：

64Kbps（90.4）

　　特性：

PCMU和PCMA都能提供较好的语音质量，但是它们占用的带宽较高，需要64kbps。

　　优点：

语音质量优

　　缺点：

占用的带宽较高

　　应用领域：

voip

　　版税方式：

Free

　　备注：

PCMUandPCMA都能够达到CD音质，但是它们消耗的带宽也最多（64kbps）。

如果带宽足够并且需要更好的语音质量，就使用PCMU 和 PCMA，甚至可以使用宽带的编码方法G722（64kbps），这可以提供有高保真度的音质。

ADPCM（自适应差分PCM）

Adpcm是自适应差分脉冲编码调制的简称，最早使用于数字通信系统中。

该算法利用了语音信号样点间的相关性，并针对语音信号的非平稳特点，使用了自适应预测和自适应量化，在32kbps◎8khz速率上能够给出网络等级话音质量。

现在我们使用的是IMAADPCM算法，该算法中对量化步长的调整使用了简单的查表方法，对于一个输入的PCM值X（n），将其与前一时刻的X（n-1）预测值做差值得到d（n），然后根据当前的量化步长对d（n）进行编码，再用此sample点的编码值调整量化步长，同时还要得到当前sample点的预测值供下一sample点编码使用。

通过此算法可将样点编码成4bit的码流，一个符号位和三个幅度位。

该算法较简单，通过查表简化了运算。

对于编码后的数据我们采用了wav文件格式，该格式对编码后的数据流进行了包装，由文件头和数据码流组成，文件头中指出了音频数据所采用格式、采样率、比特率、块长度、比特数及声道数等信息。

数据码流以块为单位，块头指出了该块起始的预测值和index值，码流中每byte的高四位和低四位分别对应一个PCM。

当前该算法以其简单实用的特点广泛应用到数字音乐盒和数字录音笔中。

　　类型：

Audio

　　制定者：

ITU-T

　　所需频宽：

32Kbps

　　特性：

ADPCM（adaptivedifferencepulsecodemodulation）综合了APCM的自适应特性和DPCM系统的差分特性，是一种性能比较好的波形编码。

它的核心想法是：

　　①利用自适应的思想改变量化阶的大小，即使用小的量化阶（step-size）去编码小的差值，使用大的量化阶去编码大的差值；

　　②使用过去的样本值估算下一个输入样本的预测值，使实际样本值和预测值之间的差值总是最小。

　　优点：

算法复杂度低，压缩比小（CD音质>400kbps），编解码延时最短（相对其它技术）

　　缺点：

声音质量一般

　　应用领域：

voip

　　版税方式：

Free

　　备注：

ADPCM（ADPCMAdaptiveDifferentialPulseCodeModulation）, 是一种针对16bit（或者更高?

）声音波形数据的一种有损压缩算法, 它将声音流中每次采样的 16bit 数据以 4bit 存储, 所以压缩比1:

4. 而压缩/解压缩算法非常的简单, 所以是一种低空间消耗,高质量声音获得的好途径。

LPC

　　LPC（LinearPredictiveCoding，线性预测编码）

　　类型：

Audio

　　制定者：

　　所需频宽：

2Kbps-4.8Kbps

　　特性：

压缩比大，计算量大，音质不高，廉价

　　优点：

压缩比大,廉价

　　缺点：

计算量大，语音质量不是很好，自然度较低

　　应用领域：

voip

　　版税方式：

Free

　　备注：

参数编码又称为声源编码，是将信源信号在频率域或其它正交变换域提取特征参数，并将其变换成数字代码进行传输。

译码为其反过程，将收到的数字序列经变换恢复特征参量，再根据特征参量重建语音信号。

具体说，参数编码是通过对语音信号特征参数的提取和编码，力图使重建语音信号具有尽可能高的准确性，但重建信号的波形同原语音信号的波形可能会有相当大的差别。

如

展开阅读全文