语音识别文献综述Word文档格式.doc-资源下载

语音识别文献综述Word文档格式.doc

1、系统的自适应技术等方面取得了一些关键性的进展，此时，语音识别技术进一步成熟，并走向实用。许多发达国家，如美国、日本、韩国，已经IBM、Microsoft、Apple、AT&T、Nrr等著名公司都为语音识别系统的实用化开发研究投以巨资。当今，基于HMM和ANN相结合的方法得到了广泛的重视。而一些模式识别、机器学习方面的新技术也被应用到语音识别过程中，如支持向量机（supportvector machine，SVM）技术、进化算法（evolutionary computation）技术等。2.2国内语音识别的发展状况20世纪50年代我国就有人尝试用电子管电路进行元音识别，到70年代才由中科院声学所

2、开始进行计算机语音识别的研究80年代开始，很多学者和单位参与到语音识别的研究中来，也开展了从最初的特定人、小词汇量孤立词识别，到非特定人、大词汇量连续语音识别的研究工作80年代末，以汉语全音节识别作为主攻方向的研究已经取得了相当大的进展，一些汉语语音输入系统已经向实用化迈进。90年代j四达技术开发中心和哈尔滨工业大学合作推出了具有自然语言理解能力的新产品在国家“863”计划的支持下，清华大学和中科院自动化所等单位在汉语听写机原理样机的研制方面开展了卓有成效的研究经过60多年的发展，语音识别技术已经得到了很大发展，对于语音识别的研究也达到了相当高的水平，并在实验室环境下能达到很好的识别效果。但是

3、，在实际应用中，噪声以及各种因素的影响，使语音识别系统的性能大幅度下降，很难达到让人满意的效果。因此，对噪声环境下的语音识别的研究有着异常重要的理论价值和现实意义2.3语音识别的分类语音识别存在不同的分类方法：（1）按词汇量大小分。每个语音识别系统都有一个词汇表，系统能识别词汇表中所包含的词条。通常按词汇量可分为小词汇量、中词汇量和大词汇量，一般小词汇量包括10100个词；中词汇量大约包括100500个词条；大词汇量则至少包含500个以上的词条。（2）按发音方式分。语音识别可以分为孤立词识别、连续词识别、连续语音识别以及关键词检出等。孤立词识别，是机器只识别一个个孤立的音节、词或者短语等；连续

4、语音识别，是机器识别连续自然的书面朗读形式的语音；在连续词识别中，发音方式介于孤立词和连续语音之间，它表面上看起来象连续语音发音，但能明显感受到音与音之间的停顿；关键词检出，通常用于说话人以类似自由交谈方式的发音，在这种发音方式下，只需要进行其中的关键词识别（3）按说话人分可分为特定说话人和非特定说话人两种。前者只能识别固定某个人的声音，而后者是机器能识别出任意人的发音。（4）从语音识别的方法分有模式匹配法、随机模型法和概率语法分析法。模式匹配法是将测试语音与参考模板的参数一一进行比较和匹配，判决的依据是失真测度最小准则；随机模型法是一种使用隐马尔可夫模型来对似然函数进行估计和判决，从而得到

5、相应的识别结果的方法；概率语法分析法适用于大范围的连续语音识别，它可以利用连续语音中的语法约束知识来对似然函数进行估计和判决 2.4噪声对语音识别的影响随着科技的发展，人们对语音识别的研究越来越深入，在理论上达到了很成熟的阶段，也开始步入实用化阶段。以mM的ViaVoice为代表，其对连续语的识别率可以达到95以上但是所有识别系统对噪声都是极为敏感的，在噪声环境下，识别性能会大幅度下降州例如，在一个典型的孤立词识别系统中，用纯净语音训练，识别效果会达到100，但在以100公里每小时的速度行驶的小车上，其识别率将下降70左右；一个用纯净语音训练的识别系统，误识率不到l，但是在自助餐厅里，其误识率

6、竟然上升近50：一个与说话者无关的语音识别系统，在实验室环境下其误识率不到l，但是如果用来识别一个通过长距离电话线并且信噪比为15dB的语音，其错误率将高达44。在噪声环境下，识别系统的识别率大幅度下降，是现在语音识别产品无法广泛走入实用的主要障碍。在噪声环境下语音识别系统的识别率大幅度下降的根本原因就是录入环境和识别环境的不匹配。在实验室环境下，训练环境相对安静，基本上是对纯净语音迸行训练，模板库的特征矢量。是通过提取纯净语音的特征参数得到的。但是在实际应用中，噪声是不可避免的，同一语音在噪声的影响下特征参数发生了变化，从而影响了识别语音和模板库中的语音的相似度，导致识别系统的识别率大幅度下

7、降。为解决噪声环境下，识别语音的特征参数和模叛库中的特征不匹配的问题我们必须想办法消除噪声对语音特征参数的影响，根据语音识别过程可知，有以下三种方法：（1）假定语音模板和背景噪声无关，即无论是清晰语音还是带噪语音，都用同一套模板来识别在这种情况下，重点在识别阶段，从带噪语音中提取出抗噪的特征参数或者采取抗噪声的失真测度（2）在语音的识别阶段，语音识别系统加一个前端处理，从带噪语音中提取出纯净语音，然后再提取语音的特征参数这种方法被称为语音增强。（3）在语音识别阶段，根据识别现场的环境噪声对语音模板进行变换，使之接近根据现场带噪语音训练而成的语音模板这种方法称为语音模板的噪声补偿无论使用哪种方法

8、消除噪声，我们首先要了解噪声。根据噪声对语音频谱的干扰方式不同可以把噪声分为加性噪声和乘性噪声两类（1）如性噪声噪声和语音信号是相互独立的，而所采集到的信号是真实的语音信号和噪声的和，这种噪声就是所谓的加性噪声。语音信号在实际环境中受到的背景噪声、办公室里的打印机的工作声、计算机中的磁盘驱动器和风扇等设备的声音以及周围说话人的声音等都是加性噪声（2）乘性噪声乘性噪声也叫卷积噪声，是指噪声和语音在频谱是相乘的关系，在时域上则是卷积关系的噪声。乘性噪声可以转换为加性噪声由于实际环境中的背景噪声多数是加性噪声，因此致使系统识别率的大幅度下降的“元凶”就是加性噪音。我们在后面讲到的去噪，也是指去除加性

9、噪声。2.5语音增强方法由于噪声的种类很多,特性并不完全相同,因此针对各类噪声必须采取不同的语音增强方法。一直以来,人们都在加性噪声的模型上进行研究,提出了各种语音增强算法,总的来说可分为三类:第一类是时域方法,例如基于参数和模型的方法 34 、子空间的方法 56 等;第二类是频域方法,例如减谱法 79 、自适应滤波法 11 ,以及基于马尔可夫模型滤波方法 12 等;第三类是其它方法,例如小波变换法、听觉掩蔽法等。2.6时域方法1. 基于参数和模型的方法。基于参数和模型的方法通常有两大类 10 :分析合成法和利用滤波器进行滤波处理的方法。前者是把声道模型看作一个全极点滤波器,采用线性预测分析得

10、到滤波器的参数。通过从带噪语音中准确估计模型的参数来合成干净的语音,这种方法关键在于如何从带噪语音中准确地估计语音模型的参数（包括激励参数和声道参数）。后者则是考虑到激励参数难以准确估计,采用只利用声道参数构造滤波器进行滤波处理。而在低信噪比下,很难对模型参数进行准确估计,并且此类方法往往因需要迭代而增加算法的复杂度。在实际应用中有时也会把两者合并在一起相互补充。具体来说主要有以下几种方法。（1）最大后验概率估计法最大后验概率估计法是把语音看作一个全极点的模型,首先依据最大后验概率准则估计LPC线性预测参数,然后根据LPC参数的功率谱来构造一个非因果的维纳滤波器对带噪语音信号进行滤波,通过多

11、次迭代直到满足预先设定的阈值为止。此种算法适用于高斯白噪声。它在一定程度上能消除噪声,提高信噪比。但是由于维纳滤波器只能在平稳条件下才能保证最小均方误差意义下的最优估计,而语音和背景噪音的非平稳性,会导致最优估计的误差。而且采用维纳滤波也没有完全利用语音的生成模型,增强后的语音带有不悦耳的声音。（2）卡尔曼滤波法 1, 3 卡尔曼滤波在一定程度上可以弥补维纳滤波引起的误差。因为它是基于语音生成模型的,且在非平稳条件下也可以保证最小均方误差意义下的最优,适用于非平稳噪声干扰下的语音增强。卡尔曼滤波通过引入卡尔曼信息,将要解决的滤波与预测的混合问题转化为纯滤波和纯预测两个独立的问题来考虑进行语音增

12、强。卡尔曼滤波的优点是噪声在平稳和非平稳情况下都能使用,能在不同程度上消除噪声,提高信噪比,其缺点是计算量大,需要假设LPC生成模型的激励源为白噪声源并且只在清音段才成立,主观试听发现该方法对语音造成了一定的损伤。（3）梳状滤波器法 1 语音信号浊音段有明显周期性的特点,可采用梳状滤波器来提取语音分量,抑制噪声。梳状滤波器的输出信号是输入信号的延时加权和的平均值,当延时与信号的基音周期一致时,这个平均过程使周期性分量加强,而非周期分量或周期不同于信号的其他周期分量被抑制或消除。这种方法的关键是要准确估计出语音信号的基音周期。在基音变化的过渡段和强噪声背景干扰下无法精确估计时,方法的应用受到限制

13、。这种方法一般也只适用于平稳的非白噪声。2.7子空间的方法在子空间法中,大量实验表明,语音矢量的协方差阵有很多零特征值,这说明干净语音信号矢量的能量只分布在它对应空间的某个子集中。而噪声的方差通常都假设已知且严格正定,这说明噪声矢量存在于整个带噪语音信号张成的空间中。因此,带噪语音信号的矢量空间可以认为由一个信号与加噪声的子空间和一个纯噪声子空间构成。子空间法就是将带噪声语音信号分解为正交的信号加噪声子空间和噪声子空间,对纯净语音信号的估计可以将噪声子空间中的信号舍弃,只保留信号子空间中的信号,来预测干净的语音以达到降噪的目的。子空间法的优点是有效地去除带噪语音中的背景噪声,使语音的质量和可懂

14、度都有较大的提高,但是计算量较大,因此在快速计算中该方法需要进一步研究。2.8频域方法语音信号的短时谱具有较强的相关性,而噪声的前后相关性很弱,因此可以利用短时谱估计的方法从带噪语音中估计原始语音。同时人耳对语音相位感受不敏感,可将估计的对象放在短时谱的幅度上。典型的方法有谱减法 7 、维纳滤波法 8 、短时谱幅度的MMSE估计 9 、自适应滤波法等。1. 谱减法谱减法是在假定加性噪声与短时平稳的语音信号相互独立的条件下,从带噪语音的功率谱中减去噪声功率谱,从而得到较为“纯净”的语音频谱。它的优点是运算量小,容易实时实现,增强效果也较好。但是也存在一定的缺陷,谱减法是一种最大似然估计,没有对语

15、音频谱的分布进行假设,而语音频谱分量的幅度对人耳的听觉是最重要的。因此谱减法进行增强处理后,会带来音乐噪声,不仅使听者在听觉效果上产生一定的干扰影响,还影响后续处理,如语音编码等。谱减法通常包括有线性谱减法、非线性谱减法和概率谱减法。2.维纳滤波法维纳滤波法是在最小均方准则下实现对语音信号估计的一种滤波器。对于带噪语音信号,确定滤波器的冲击响应,使得带噪语音信号经过该滤波器后得到最接近于“纯净”的语音信号。采用维纳滤波的好处是增强后的残留噪声类似于白噪声,而不是有节奏起伏的音乐噪声。维纳滤波是平稳条件下时域波形的最小均方误差准则估计。由于没有考虑到语音频谱分量的幅度对人的听觉最重要,因此采用维

16、纳滤波来增强语音存在一定的缺陷。3.短时谱幅度的最小均方误差（MMSE）估计法针对特定的失真准则和后验概率不敏感的特性,利用已知的噪声功率谱信息,从带噪语音短时谱中估计出“纯净”语音短时谱,达到语音增强的目的。对于语音短时谱幅度的分布,通常通过两种途径解决:一是假设一个合理的概率分布模型;另一个则是通过实际统计的方法去获得。为此,假设语音频谱分布为高斯分布,并在此假设下推导MMSE估计公式,然后讨论实际分布情况。另外,可以利用相邻帧间频率点信息的相关性,对当前帧频率点的频谱幅度值进行估计,这就是基于帧间频谱分布约束的MMSE估计方法。又因为人耳对声音强度的感受是与谱幅度的对数成正比的,因此在处

17、理语音谱幅度时,采用对数失真准则更为适合一些,将上述MMSE估计式进行推广,得到频域分布约束下的短时对数谱的MMSE估计。短时谱幅度的MMSE估计在降噪和提高语音可懂度方面进行了折衷,适用信噪比的范围较广,但是计算量较大,而且语音频谱的先验分布获得在很大程度上要取决于统计结果的代表性、重现性等。4. 自适应滤波法以均方误差或方差最小为准则,对噪声信号进行最优估计,然后从带噪语音中减去噪声达到降噪,提高信噪比,增强语音的目的。当输入信号的统计特性未知,或者输入信号的统计特性变化时,自适应滤波器能够自动地迭代调节自身的滤波器参数,以满足某种准则的要求,从而实现最优滤波。因此,自适应滤波器具有“自我

18、调节”和“跟踪”能力。此方法的关键是如何得到带噪语音中的噪声。在多声道采集系统中,两个话筒间要有一定的距离,因而实时采集的两路信号的噪声不同,而且还受到回声及其他可变衰减特性的影响。在用单声道系统来采集带噪语音时,必须在语音间歇期间利用采集到的噪声进行估值,如果噪声是非平稳的,会严重影响语音的增强效果,另一个缺点是增强后的语音中含有明显的“音乐噪声”。5.隐马尔可夫模型法可以采用基于状态空间的变换方法,对不同类别的语音和噪声信号建立不同的模型。HMM的各个状态可以对带噪信号、噪声信号所有不同的区域进行充分的建模,将带噪信号中的噪声信号部分去除就可得到语音的增强,甚至于在只有带噪信号的情况下,利

19、用HMM对状态转移概率进行建模,将可能为噪声的信号部分滤除就可以做到语音增强。但是这种方法,在只有带噪信号的情况下要正确分类,准确估计噪声会有一定的误差。2.9其它方法随着信号处理的理论和技术不断发展完善,涌现出许多的新方法,如小波变换 1314 、神经网络 15 、听觉掩蔽 16 、分形理论 17 等。1.小波变换利用具体问题的先验知识,根据信号和噪声的小波系数在不同尺度上具有不同性质的机理,构造相应规则,在小波域采用其他数学方法对带噪信号的小波系数进行处理。处理的实质在于减小甚至完全剔除由噪声产生的系数,同时最大限度地保留真实信号的系数,最后由经过处理的小波系数重构原信号,得到真实信号的最

20、优估计。“最优”的精确定义依赖于应用要求。小波变换进行信号去噪时,能够在去除噪声的同时,很好地保留信号的突变部分。但是在使用这种方法时,还应考虑抑制噪声与保留信号细节之间的折衷问题,以及分解尺度的选取、阈值的选取。2. 神经网络语音增强在一定意义上也是一种说话人区分问题,只不过所区分的是在背景中的噪声,因此可以利用人工神经网络来实现语音的增强。假设测试语音和噪声环境的分布保持不变且与训练时相同,利用带噪语音和干净的目标语音分别进行训练,得到合适的预测神经元模型,构造可以对语音和噪声进行分类的分类器,对当前语音信号进行最佳匹配,来实现语音增强。3.听觉掩蔽听觉掩蔽法是利用人耳听觉特性的一种增强算

21、法。人耳能够掩蔽语音信号中能量较小的噪声信号,使得这部分噪声不为人所感知。听觉掩蔽模型常与语音增强算法结合实现去噪,其实现过程为:首先基于一种语音增强方法对语音信号进行粗估计,再由语音信号粗估计计算出听觉的掩蔽阈值,根据听觉掩蔽阈值和噪声参数的估值,结合相应的增强算法计算出增益,并依此估计出纯净语音。这种方法在消噪的同时可以减少不必要的语音失真。但由于噪声掩蔽阈值是在纯净语音基础上得到的,在实际应用中常只能用带噪语音来估计掩蔽阈值,这样估计的结果误差较大。4.分形理论语音与噪声具有不同的混沌和分形特性,因此可将分形维数用于语音增强。根据分形结构的语音信号在一定的尺度范围内具有等价标度不变性,导

22、出带噪语音信号的真实分形维数的计算方法,利用分形维数内插方法计算出信号的维数。根据它们之间的差值进行对重构的阈值和位置自适应控制,实现语音信号与噪声的分离。既抑制了噪声,又减少了语音段的信息的损失,提高了信噪比。3. 结束语以上讨论了一些语音增强算法,它们各有优缺点,分别适用于不同的场合。在实际应用时,要根据具体的噪声情况和特定环境,选用不同的语音增强方法或语音增强方法的组合,来达到消除噪声或提高语音清晰度的目的。如有的情况下,只要求消除带噪语音中的噪声,可以采用一些传统的语音增强方法:如谱减法、自适应滤波法等,达到提高信噪比,增强语音的效果;如有时为了减小对语音的听觉失真,提高语音的清晰度,

23、权衡考虑增强后的语音失真和去噪效果,可以采用听觉掩蔽效应和其它方法相结合,如基于听觉掩蔽效应的改进谱减算法 18 或基于AR -HMM模型的谱减算法 19 等方法,更多的时候,不同的语音增强方法之间进行互补,达到更高的增强效果,如基于HMM模型的方法也可以和扩展的卡尔曼滤波器联合使用,小波阈值算法中关键是阈值的选取可采用MMSE准则来自适应寻找等等。随着信号处理技术不断完善和发展,语音增强算法的新方法必将层出不穷,有待于进一步的研究。参考文献: 1 杨行峻,迟惠生,等. 语音信号数字处理M . 北京:电子工业出版社, 1995. 2 赵力. 语音信号处理M . 北京: 机械工业出版社,2003

24、. 3 Gannot S, Burshtein D, Weinstein E. Iterative and se2quential Kalman filter2based speech enhancement algo2rithms J . IEEE Trans Speech and Audio Process, 1998, 6（4） : 3732385. 4 Kin J B, Lee K Y , Lee CW. On the app lications of theinteracting multip le model algorithm for enhancing noisyspeech

25、J . IEEE Trans Speech and Audio Process, 2000,8 （3） : 3492352. 5 Y Ephraim, H L V Trees. A signal subspace app roach forspeech enhancement J . IEEE Trans. Speech and AudioProcessing, 1995, 3 （7） : 2512266. 6 F Jabloun, B Champagne. A multi - microphone signalsubspace app roach for speech enhancement

26、A . In Proc.IEEE ICASSP01 C . 2001. 2052208 . 7 Boll S. Supp ression of acoustic noise in speech using spec2tral subtraction J . IEEE Trans on Acoustic Speech andSignal Processing, 1979, 27 （2） : 1132120. 8 Ningp ing Fan. Low distortion speech denoising using an a2dap tive parametric Wiener filter A

27、 . IEEE InternationalConference on Acoustics, Speech and Signal Processing（ ICASSP） C . 2004, 1: 122309. 9 Ephraim Y, Malah D. Speech enhancement using a mini2mum2mean square error short2time spectral amp litude esti2mator J . IEEE Transactions on Acoustics, Speech andSignal Processing, 1984, 32 （60

28、） : 110921121. 10 韩纪庆,张磊,郑铁然. 语音信号处理M . 北京:清华大学出版社, 2004年. 11 高鹰,谢胜利. 一种变步长LMS自适应滤波算法及分析 J . 电子学报, 2001, 29 （8） : 109421097. 12 Jax P Vary P. Artificial bandwidth extension of speechsignals usingMMSE estimation based on a hidden Markovmodel A . IEEE International Conference on Acoustics,Speech, and

29、Signal Processing （ ICASSP） C . 2003. 6802683 13 SMallat and W L Hwang. Singularity detection and p ro2cessing with wavelets J . IEEE Trans on Information The2ory, 1992, 38 （2） : 6172643 . 14 D L Donoho and IM Johnstone. Adap ting to unknownsmoothness via wavelet shrinkage J . Journal of the A2merican StatisticalAssociation, 1995, 90: 120021224. 15

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？