ImageVerifierCode 换一换
格式:DOCX , 页数:5 ,大小:14.10KB ,
资源ID:1983861      下载积分:1 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bingdoc.com/d-1983861.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(语音识别文献综述.docx)为本站会员(wj)主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(发送邮件至service@bingdoc.com或直接QQ联系客服),我们立即给予删除!

语音识别文献综述.docx

1、噪音环境下的语音识别1. 1引言随着社会的不断进步和科技的飞速发展,计算机对人们的帮助越来越大,成 为了人们不可缺少的好助手,但是一直以来人们都是通过键盘、鼠标等和它进行 通信,这限制了人与计算机之间的交流,更限制了消费人群。为了能让多数人甚 至是残疾人都能使用计算机,让计算机能听懂人的语言,理解人们的意图,人们 开始了对语音识别的研究.语音识别是语音学与数字信号处理技术相结合的一门交叉学科,它和认知 学、心理学、语言学、计算机科学、模式识别和人工智能等学科都有密切关系。1, 2语音识别的发展历史和研究现状1. 2. 1国外语音识别的发展状况国外的语音识别是从1952年贝尔实验室的Davis等

2、人研制的特定说话人孤立 数字识别系统开始的。20世纪60年代,日本的很多研究者开发了相关的特殊硬件来进行语音识别 RCA实验室的Martin等人为解决语音信号时间尺度不统一的问题,开发了一系 列的时问归正方法,明显地改善了识别性能。与此同时,苏联的Vmtsyuk提出 了采用动态规划方法解决两个语音的时闻对准问题,这是动态时间弯折算法 DTW(dymmic time warping)的基础,也是其连续词识别算法的初级版.20世纪70年代,人工智能技术走入语音识别的研究中来.人们对语音识别 的研究也取得了突破性进展.线性预测编码技术也被扩展应用到语音识别中, DTw也基本成熟。20世纪80年代,语

3、音识别研究的一个重要进展,就是识别算法从模式匹配 技术转向基于统计模型的技术,更多地追求从整体统计的角度来建立最佳的语音 识别系统。隐马尔可夫模型(hidden Markov model,删)技术就是其中一个典型技 术。删的研究使大词汇量连续语音识别系统的开发成为可能。20世纪90年代,人工神经网络(artificial neural network, ANN)也被应用到 语音识别的研究中,并使相应的研究工作在模型的细化、参数的提取和优化以及 系统的自适应技术等方面取得了一些关键性的进展,此时,语音识别技术进一步 成熟,并走向实用。许多发达国家,如美国、日本、韩国,已经IBM、Microsof

4、tApple、AT&T、Nrr等著名公司都为语音识别系统的实用化开发研究投以巨 资。当今,基于HMM和ANN相结合的方法得到了广泛的重视。而一些模式识 别、机器学习方面的新技术也被应用到语音识别过程中,如支持向量机(support vector machine, SVM)技术、进化算法(evolutionary computation)技术等。1. 2. 2国内语音识别的发展状况20世纪50年代我国就有人尝试用电子管电路进行元音识别,到70年代才 由中科院声学所开始进行计算机语音识别的研究. 80年代开始,很多学者和单 位参与到语音识别的研究中来,也开展了从最初的特定人、小词汇量孤立词识别,

5、到非特定人、大词汇量连续语音识别的研究工作. 80年代末,以汉语全音节识 别作为主攻方向的研究已经取得了相当大的进展,一些汉语语音输入系统已经 向实用化迈进。90年代j四达技术开发中心和哈尔滨工业大学合作推出了具有 自然语言理解能力的新产品.在国家“863”计划的支持下,清华大学和中科院 自动化所等单位在汉语听写机原理样机的研制方面开展了卓有成效的研究.经 过60多年的发展,语音识别技术已经得到了很大发展,对于语音识别的研究也 达到了相当高的水平,并在实验室环境下能达到很好的识别效果。但是,在实 际应用中,噪声以及各种因素的影响,使语音识别系统的性能大幅度下降,很 难达到让人满意的效果。因此,

6、对噪声环境下的语音识别的研究有着异常重要 的理论价值和现实意义.1. 3语音识别的分类语音识别存在不同的分类方法:(1) 按词汇量大小分。每个语音识别系统都有一个词汇表,系统能识别词汇表中 所包含的词条。通常按词汇量可分为小词汇量、中词汇量和大词汇量,一般小词 汇量包括10100个词;中词汇量大约包括100500个词条;大词汇量则至少 包含500个以上的词条。(2) 按发音方式分。语音识别可以分为孤立词识别、连续词识别、连续语音 识别以及关键词检出等。孤立词识别,是机器只识别一个个孤立的音节、词或者 短语等;连续语音识别,是机器识别连续自然的书面朗读形式的语音;在连续词 识别中,发音方式介于孤

7、立词和连续语音之间,它表面上看起来象连续语音发音, 但能明显感受到音与音之间的停顿;关键词检出,通常用于说话人以类似自由交 谈方式的发音,在这种发音方式下,只需要进行其中的关键词识别.(3) 按说话人分.可分为特定说话人和非特定说话人两种。前者只能识别固定某 个人的声音,而后者是机器能识别出任意人的发音。(4) 从语音识别的方法分.有模式匹配法、随机模型法和概率语法分析法。模式 匹配法是将测试语音与参考模板的参数一一进行比较和匹配,判决的依据是失真 测度最小准则;随机模型法是一种使用隐马尔可夫模型来对似然函数进行估计和 判决,从而得到相应的识别结果的方法;概率语法分析法适用于大范围的连续语 音

8、识别,它可以利用连续语音中的语法约束知识来对似然函数进行估计和判决.1. 4噪声对语音识别的影响随着科技的发展,人们对语音识别的研究越来越深入,在理论上达到了很成 熟的阶段,也开始步入实用化阶段。以mM的ViaVoice为代表,其对连续语的 识别率可以达到95%以上.但是所有识别系统对噪声都是极为敏感的,在噪声 环境下,识别性能会大幅度下降州.例如,在一个典型的孤立词识别系统中,用 纯净语音训练,识别效果会达到100%,但在以100公里每小时的速度行驶的小 车上,其识别率将下降70%左右;一个用纯净语音训练的识别系统,误识率不 到1%,但是在自助餐厅里,其误识率竟然上升近50%: 一个与说话者

9、无关的语 音识别系统,在实验室环境下其误识率不到1%,但是如果用来识别一个通过长 距离电话线并且信噪比为15dB的语音,其错误率将高达44%。在噪声环境下, 识别系统的识别率大幅度下降,是现在语音识别产品无法广泛走入实用的主要障 碍。在噪声环境下语音识别系统的识别率大幅度下降的根本原因就是录入环境 和识别环境的不匹配。在实验室环境下,训练环境相对安静,基本上是对纯净语 音迸行训练,模板库的特征矢量。是通过提取纯净语音的特征参数得到的。但是 在实际应用中,噪声是不可避免的,同一语音在噪声的影响下特征参数发生了变 化,从而影响了识别语音和模板库中的语音的相似度,导致识别系统的识别率大 幅度下降。为

10、解决噪声环境下,识别语音的特征参数和模叛库中的特征不匹配的问题我 们必须想办法消除噪声对语音特征参数的影响,根据语音识别过程可知,有以下 三种方法:(1) 假定语音模板和背景噪声无关,即无论是清晰语音还是带噪语音,都用同一 套模板来识别.在这种情况下,重点在识别阶段,从带噪语音中提取出抗噪的特 征参数或者采取抗噪声的失真测度.(2) 在语音的识别阶段,语音识别系统加一个前端处理,从带噪语音中提取出纯 净语音,然后再提取语音的特征参数.这种方法被称为语音增强。(3) 在语音识别阶段,根据识别现场的环境噪声对语音模板进行变换,使之接近 根据现场带噪语音训练而成的语音模板.这种方法称为语音模板的噪声

11、补偿.无 论使用哪种方法消除噪声,我们首先要了解噪声。根据噪声对语音频谱的干扰方 式不同可以把噪声分为加性噪声和乘性噪声两类.如性噪声噪声和语音信号是相互独立的,而所采集到的信号是真实的语音信号和噪声的 和,这种噪声就是所谓的加性噪声。语音信号在实际环境中受到的背景噪声、办 公室里的打印机的工作声、计算机中的磁盘驱动器和风扇等设备的声音以及周围 说话人的声首等都是加性噪声.(2)乘性噪声乘性噪声也叫卷积噪声,是指噪声和语音在频谱是相乘的关系,在时域上则是卷 积关系的噪声。乘性噪声可以转换为加性噪声.由于实际环境中的背景噪声多数 是加性噪声,因此致使系统识别率的大幅度下降的“元凶”就是加性噪音。

12、我们 在后面讲到的去噪,也是指去除加性噪声。结论本文在深入学习和研究语音识别的基本理论和各种去噪技术的基础上,结合 几种去噪技术,对带噪语音信号进行多次去噪处理,实现了低信噪比环境下的语 音识别系统,并通过实验证明了该系统的有效性,相对于已往的识别系统,该系 统有较好的识别效果。本文的主要研究和实验如下:1. 本文深入学习和研究了语音识别的基本理论,并对典型语音识别系统的各个 模块进行分析和讨论,包括端点检测、特征提取和模式识别等。2. 在深入研究语音增强的基础上,提出了在对带嗓信号进行端点检测前先用基 于小波变换的多尺度多阈值的语音增强方法,对语音信号进行增强,以消除噪声 的影响。3. 在学

13、习和研究了倒谱归一化方法后,提出对经过语音增强后的信号进行倒谱 归一化处理,以消除由于语音增强引起的卷积噪声,实现对带噪信号的第二次去 噪。4. 讨论了基于模型补偿的去噪技术,包括HMM分解和PMC模型.由于用PMC 模型识别纯净语音时系统的识别率会下降,本文提出了在用PMC模型进行语音 识别之前,先对信号进行信噪比归一化处理.5. 通过有机结合前面介绍的各种去噪方法,创建了一个噪声环境下语音识别系 统,并详细介绍了系统的主要组成部分,用matlab进行了仿真实验.通过对比 几种方法的识别率,证明了本系统有很好的识别效果。本文通过实验证明:在低信噪比环境下,通过有效结合几种去噪方法可以提 高系

14、统的识别率,但是仍有很多不足,以后的研究工作应从以下几个方面进行:1. 在使用小波变换进行语言增强时,对于阈值的选取能否找到更好的方法以更 有效的去除高频段的噪声信号;在小波函数的选择上,能否根据语言信号的特点 找到最优的小波函数。2. 在特征参数的提取上,能否找到有更好鲁棒性的特征参数。3. 对PMC模型中的噪声的训练上,。能否提取出反映噪声本质信息的特征参数, 以适应噪声的随机性,使PMC模型能识别多数噪声环境下的语音。4. 本文只是在实验室环境下仿真了几种噪声,证明了系统的有效性,但是这几 种噪声并不能代表实际环境下的各种噪声,所以怎样将算法、技术和硬件相结合, 创建出能在实际环境下有很

15、好识别率的语音识别系统还有待研究.参考文献【1】杨行峻,迟惠生.语音信号数字处理M.北京:电子工业出版社,1998【2 】Jean-Claude Junqua,Jean-Paul Haton. Robustness in automatic speech recognition-Fundamentals andApplication. KluwerAcademic Publishers,!996.【3】P Lockwood, J. Boudy. Experiments, for robust speech recognition in cars.Speech Communication, 19

16、93, 11(2): 215 228【4】徐金甫基于特征提取的抗噪声语音识别研究华南理工大学工学博士学位论 文2000年【5】S Das, R. Bakis, A. Nadas, M. Pichney. Influence ofbackground noise andmicrophone on the performance ofthe mM TANGORA speech recognition system. Proc. IEEE Internal Conf. Acoust Speech Signal Procing, 1993,271746 J. Han,M. Han, G. B. Par

17、k. Relative mel-frequency cepsU-al coefficients compensation for robust telephone speech recognition. Proc. European Con on Speech Communication and Technology,!997, 3: 1531 15347 Yifan G 力口吕 Speech Recognition in nosiy cnviroments : A survey. Speechcommunication, 1995, 16(3): 261-291.8 Alejandro Ac

18、ero. Acoustical and environmental mbusmess in automatic speech r. ogmtion. KluwerAcademic Pubfishers, 1993.【9】赵力.语音信号处理.北京:机械工业出版社,200310 L. R. Rabineto R. Schafer. Digital Processing of Speech Signal. 1978, Engliwood Cliffso NJ: Prentice Hall11 Thomas F. Qualieri. Discrete一Time Speech Signal Proces

19、sing. Beijing: Publishing Rouse of Electronics Industry, 2004: 43一560【12】杨大利,徐明星,吴文虎.语音识别特征参数选择方法研究计算机研究与 发展.2003, 7【13Sambur M&Selection ofAcoustic6Features for Speaker IdentificationC . IEEE Trans On ASSP, 1975: 176-182.【14S Young The HTK book(for HTK version 2 . 1) . Cambridge UniversityTech-Serv

20、ices Ltd. 1997.15 S . Davis, P. Mermelstein. Comparison of parametric representations formonosyllabic word recognition in continuously spoken sentences . IEEE TransactionsonAcoustics,Speech,and Signal Processing. 1980, 28(4): 357 366.【16】韩纪庆,张磊,郑铁然,语音信号处理北京:清华大学出版社2004【17】丁沛.语音识别中的抗噪声技术.清华大学博士学位论文.2003年【18】王守觉,潘小霞,徐春燕.一种基于高维空间覆盖动态搜索方法的非特人 连续数字语音识别的研究.电子学报,2005, 33(10): 1790-1793.【19】田斌,易克初.一种用于噪声环境下语音识别的含噪Lombard及Loud语 音补偿方法.声学学报,2003, 28(1): 2832.,201 丁沛,曹志刚.融合语音增强与后续补偿的抗噪声语音识别方法.清华大 学学报(自然科学版),2003, 43(7): 919-922.【21】田斌,田红心,易克初.语音识别中的加性噪声补偿研究.西安电子科技 大学学报,2001, 28(3): 292-295.

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2