语音识别特征提取算法的研究及实现.pdf
《语音识别特征提取算法的研究及实现.pdf》由会员分享,可在线阅读,更多相关《语音识别特征提取算法的研究及实现.pdf(66页珍藏版)》请在冰点文库上搜索。
西北大学硕士学位论文语音识别特征提取算法的研究及实现姓名:
惠博申请学位级别:
硕士专业:
计算机软件与理论指导教师:
冯宏伟20080619摘要语音信号具有很强的时变特性,在较短的时间间隔中语音信号的特征可看作基本保持不变,这是语音信号处理的一个重要出发点。
语音识别率的高低,也都取决于语音信号特征提取的准确性和鲁棒性。
因此,语音信号特征提取在语音信号处理应用中具有举足轻重的地位。
论文首先研究了语音识别的基本知识,主要包括语音识别的原理;语音信号处理的基本知识;各种语音识别和训练的方法。
在此基础上本文完成的工作有:
l、着重研究了目前使用广泛的美尔频率倒谱系数(MFCC)参数,以24维MFCC参数为例,采用增减分量的方法分析了高阶参数缺失对识别率的影响,找出了对噪音不敏感的高阶MFCC参数,在识别率变化不大的情况下对24维MFCC参数进行了优化组合。
2、使用VC+根据动态时间规整(DTW)模型实现了一个连接数字串语音识别系统,并进行了实验分析。
系统的组成模块和语音识别系统的基本构成模型一致。
在实现时选用了美尔频率系数(MFCC)。
3、实验过程中发现了汉语数码易于混淆的问题,在模板训练方法和参考模板两方面做了改进,提出了使用多对特征矢量序列进行鲁棒性训练和进行声韵母分割来构造参考模板的方法。
4、最后本文研究了汉语连续语音识别中的声学建模方法,给出了识别汉语易混淆词的方法。
本文通过对实际语音识别系统各个部分的实验和研究,为进一步开发实用性语音识别系统的工作做了基础性的工作。
关键词:
语音识别端点检测美尔频率倒谱系数动态时间规整TheResearchofFeatureExtractionAlgorithmForSpeechRecognitionAndTheRealizationAbstractSincethespeechsignalshavestrongtimevariance,itisanimportantspringboardofspeeChsignalprocessingthatthevoicingfeaturesCallonlybeconsideredinvariableinlittletimeintervalTherateofspeechrecognitiondependsontheaccuracyandrobustnessofvoicefeatureextractionSo,extractthevoicingfeaturesofspeechsignalplayanimportantroleinspeechsignalprocessingFirst,thepaperfocus011fundamentalsofspeechrecognition,including:
principleofspeechrecognition,basicknowledgeofspeechsignalprocessing,andallkindsofmethodsofspeechtrainingandrecognitionBasedonthebasictheories,thepaperhasmostworksasfollow:
1、ThepaperfocusonMFCCwhichwidelyused,as24一dimensionalMFCCtermsexample,analysistheimpactoflackingofhighMFCCtermsonspeechrecognitionratesbychangingthenumberoftheterms,findoutthehightermswhichnotsensitivetonoisesaregiven,andoptimizethe24一dimensionalMFCCtermsunderrecognitionrateschangeisnotbigsituation2、UseVisualC+60toimplementafigurestringspeechrecognitionsystemwhichbasedonDTWmodel,andmakesanexperimentonthissystemThesystemisconsistentwiththemodelofthespeechrecognitionsystemThepaperselectMelFrequencyCepstmmCoefficient(MFCC)asfeatureterms3、Inexperiment,itfindsthattheChinesedigitaleasytoconfuse,intwoaspects,trainingandreferencetemplate,wehavemadeimproved,andpresentawayofusemorevectorsequencestorobusttrain,andamethodbydividingtheinitialandfinalintotwosegments,andconstructareferencetemplate4、Finally,thepaperresearchesacousticsmodelingmethodofChineseIIcontinuousspeechrecognition,andindicatesthemethodtorecognizethewordwhicheasilyconfusedinChinesewordsThroughtheexperimentandresearchoftheactualspeech-recognitionsystem,itcarriesoutthefundamentalandexploringresearchforthefurtherapplicationofspeech-recognitionsystemKeywords:
Speech-recognition,Endpointdetection,MFCC,DTWIII西北大学学位论文知识产权声明书本人完全了解西北大学关于收集、保存、使用学位论文的规定。
学校有权保留并向国家有关部门或机构送交论文的复印件和电子版。
本人允许论文被查阅和借阅。
本人授权西北大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。
同时授权中国科学技术信息研究所等机构将本学位论文收录到中国学位论文全文数据库或其它相关数据库。
保密论文待解密后适用本声明。
学位论文作者签名:
鏖廛指导教师签名:
妒8年z月7日砌莎年石月驴日西北大学学位论文独创性声明本人声明:
所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。
据我所知,除了文中特别加以标注和致谢的地方外,本论文不包含其他人已经发表或撰写过的研究成果,也不包含为获得西北大学或其它教育机构的学位或证书而使用过的材料。
与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。
学位论文作者签名:
。
霪何砂心年么月7日第一章绪论11语音识别技术及其应用语音是人类交流信息最自然、最方便、最有效的手段。
随着电子计算机技术的广泛应用,如何利用语言的这一特点让人简单、快速、准确、方便的使用计算机,使计算机能更好的为人类服务,成为人类努力追求的目标。
“阿里巴巴与四十大盗”的故事说明让机器能听懂人说话,执行人的口头指令,是人类古已有之的理想。
语音识别简单的说,就是让计算机能听懂人说的话,并做出相应的反应。
语音识别技术的研究广泛的涉及到声学、语言学、语音学、生理科学、数字信号处理、通信理论、电子技术、计算机科学、模式识别和人工智能等众多学科,因此一个识别效果良好的语音识别系统,需要考虑包括说话人的心理状态、输入设备、说话环境多方面的因素。
语音识别的应用范围极为广泛,可应用于各行各业,如医疗卫生服务、语音拨号、智能玩具、智能家居、宾馆服务、军事监听、股票交易、翻译系统、汽车导航、信息网络查询、工业控制等等。
语音识别广泛涉及声学、语言学、语音学、生理科学、数字信号处理、通信理论、电子技术、计算机科学、模式识别和人工智能等众多学科,是一门新兴的交叉学科。
语音识别系统就其不同要求可以分为一下几类:
根据对说话人说话方式的要求,可以分为孤立词语音识别系统,连接词语音识别系统以及连续语音识别系统;根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统;根据词汇量的大小,可以分为小词汇量,中等词汇量,大词汇量以及无限词汇量语音识别系统。
12国内外语音识别技术的发展历史及其现状121国内外语音识别技术的发展历程国外从上世纪50年代初就开始研究语音识别技术,世界上最早能够识别语音的系统Audry是1952年Bel实验室开发的乜1,还有1956年普林斯顿大学RCA实验室开发的单音节词识别系统。
早期的识别方法基本上都是用模拟电路实现待测语音和参考语音的运算关系。
60年代以后,各种语音识别的研究才开始展开,RCA实验室的研究成果是解决了语音在时间标尺上的非均匀问题H1。
1968年,前苏联科学家Vintsvuk首次将动态规划算法(DP,DynamicProgramming)应用于语音分析3。
70年代语音识别开始快速发展,研究重心是孤立词语音识别。
时间归整技术眠刀(D册,DynamicTimeWarping)搭配基于线性预测编码(LPC,LinearPredictioncoding,)的谱系数提取,使得孤立词识别的效率大大提高,线性预测技术在语音识别领域从此得到广泛的应用,并且演化出多种线性预测参数形式和多种谱距离测度。
比较有代表性的系统有:
CarnegieMelln大学(CMU)的HearsayII、IBM的大词汇量自动语音听写系统和Bell实验室用于通迅的与话者无关的语音识别系统。
80年代,语音识别研究进一步走向深入,连接词和大词汇量连续语音识别成为研究热点,统计模型取代模板匹配的方法成为主流。
隐马尔可夫模型1(HMM,HiddenMarkovModels)成为大词汇量连续语音识别系统的基础。
结合矢量量化技术,CMU于1988年开发了SPHINX,这是世界上第一个非特定人大词汇量连续语音识别系统。
SPHINX能识别包括997个词汇的4200个连续语句,在语言复杂度为60且环境匹配时,识别率可以达到947,经过多次改进,其识别率达到958。
90年代,随着信号特征的提取和优化技术、声学模型的细化、自然语言理解领域中语言模型的建立和解码搜索算法技术的不断成熟,出现了比较成功的大词汇量、连续语音识别系统,比如IBM的ViaVoice系列、Microsoft的2Whisper、CMU的SPHINXII。
我国的语音识别研究比国外晚一些。
但是国家现今比较重视,国家863智能计算机主题专家组为语音识别技术专门立项,专家组每一到两年举行一次全国性的语音识别系统测试,其中具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。
目前,我国大词汇量连续语音识别系统的研究已接近国外最高水平。
但从目前的市场应用范围来看,语音产品的实际应用还很狭窄,这说明语音技术产品还存在缺陷,达不到市场化、商品化的要求,在技术上还要有很多工作要做。
122语音识别技术发展现状近年来,在语音识别领域非常活跃的课题为鲁棒性语音识别、说话人自适应技术、大词汇量关键词识别算法、语音识别的可信度评测算法、基于类的语言模型和自适应语言模型以及深层次的自然语言的理解,研究的方向也越来越侧重于口语对话系统。
目前说话人自适应技术的研究已经取得相当大的进步,出现了一些比较成熟的技术,如声道归一化技术、最大似然线性回归算法(MLLR,MaximumLikelihoodLinearRegression)、贝叶斯(Bayes)自适应估计算法。
目前,针对特定应用的中小词汇量、特定人的语音识别技术发展已较为成熟,已经能够满足通常应用的要求,并逐步投入了实用【71。
而非特定人、大词汇量、连续语音识别仍是目前阶段语音识别研究的重点和难点。
123语音识别面临的主要问题目前的语音识别还做不到使机器能如同人类一样能“听懂”或理解自然语言,像人与人之间的语言交流一样。
主要原因是目前研究工作进展缓慢,主要技术理论没有突破。
虽然各种新的修正方法不断出现,但其普遍性和实用性还存在问题。
具体的来说有如下:
l、语音识别系统的鲁棒性差,对环境依赖严重;2、语音识别系统的灵活性差,不能适应人类灵活、自然的说话方式;3、连续语音流中语音信号的声学特征随与之前后相连的语音的不同而有很大的变化,且各语音单位之间不存在明显的界线,语音切分很困难;4、语音特征变化大。
语音特征随发音人的不同、发音人生理或心理状态的变化而有很大的差异;5、语音的模糊性,同音词大量而普遍存在;6、对韵律信息的利用不足;韵律信息指的是说话之中的重音、语调等超音段信息;如何在语音识别中结合韵律信息还有待进一步的研究;7、自然语言的多变性难以借助于一些基本语法规则进行描述,语法、语义规则定义困难。
对于汉语语音识别来说除具有一般语音识别的特点外,还有其独特的方面,因为:
1、汉语字以单音节为单位,发音时间短,不像英语以多音节为主;2、汉语有大量的同音字;汉语由60个左右的声母和韵母组成40多个无调音节和1200多个有调音节,音节与音节之间相似性大、易混淆;3、中国民族众多,不同地区之间发音变化很大,方言多;4、汉语的字词不分使得词的切分成为汉语语言理解与处理独有和首要的问题;5、灵活自由的语言表述难以用汉语语言知识表示方法来表达。
13本课题研究的背景及内容特征提取就是从语音信号中提取出语音的特征序列。
提取的语音特征应该能完全、准确地表达语音信号,特征提取的目的是提取语音信号中能代表语音特征的信息,减少语音识别时所要处理的数据量。
语音信号的特征分析是语音信号处理的前提和基础,只有分析出可以代表语音信号本质特征的参数,才能对这些参数进行高效的语音通信,语音合成,和语音识别等处理,并且语音合成的好坏,语音识别率的高低,也都取决于语音特征提取的准确性和鲁棒性。
4因此,语音信号特征提取在语音信号处理应用中具有举足轻重的地位。
目前,语音识别技术中最流行的特征参数时基于声道模型和听觉机理的LPCC(LinearPredictiveCepstralCoeficients)和MFCC(MelFrequencyCepstralcocficients)参数,而MFCC在低频段具有较高的谱分辨率,对噪声的鲁棒性优于LPCC,更适合语音识别。
但与人听觉系统非凡的感知能力比较,不管是LPCC还是MFCC参数,在不利的噪声环境下,其鲁棒性都会急剧下降。
如何在特征提取过程中抽取保持语音信号最重要的特征参数,成为一个急需解决的问题。
本课题从24维MFCC参数出发,研究了高阶MFCC参数对语音识别系统的影响,找出了对噪音不敏感的高阶MFCC参数,在识别率变化不大的情况下并对24维MFCC参数进行了优化组合,在通用PC机上实现了一个连接数字串的语音识别系统。
在实验中发现汉语易混淆数码的参数模板之间同样具有很强的相似性,因此我们在系统的改进中主要改进了易于混淆的参数模板,取得了较好的效果,最后指出了如何实现连续汉语语音识别系统的方法。
本文通过对实际语音识别系统各个部分的实验和研究,为进一步开发实用性语音识别系统的工作做了基础性的工作。
14本文的内容结构论文结构安排如下:
第一章简要介绍了语音识别技术及应用,发展现状,面临的问题,最后阐述了本论文的结构。
第二章简要介绍了语音识别的基础,包括语音识别的原理和基本的语音识别系统的构成,语音的预处理,语音信号的特征提取。
第三章主要介绍了典型的语音识别及训练方法,包括动态时间弯折算法(DTW),隐型马尔可夫模型(HMM)和人工神经网络(ANN)的原理等。
第四章首先从语音信号预处理,特征提取及识别等环节介绍了语音识别系统的实现,对美尔频标倒谱系数(MFCC)做了深入研究,然后分析了MFCC参数各分量对于识别率的贡献,在识别率变动不大的情况下,提出了一种优化的MFCC参数,最后在PC机上用VC完成一个连接数字串的语音识别系统。
第五章就系统中存在的汉语数码易于混淆的问题给出了解决方法,指出了彻底解决易混淆汉语数码的方法。
第六章对全文所做的工作进行了总结并提出了下一步研究的方向。
6第二章语音识别的基础一个典型的语音识别系统包括语音信号预处理,特征提取,模型的训练与识别等几个主要环节。
21语音信号的预处理211语音信号的采样和量化语音信号是一个时间和幅度都连续变化的一维模拟信号。
而语音识别的过程是一个对语音信号进行数字处理的过程,在对语音信号处理之前,必须要对其进行数字化,这个过程就是模数(AD)转化。
模数转化过程要经过采样和量化两个过程,从而得到时间和幅度上的离散数字信号。
根据奈奎斯特采样定律,采样频率应为原始信号频率的两倍以上,才能使采样过程中不会丢失信息,而且能从采样信号中准确的重构原始信号的波形。
正常人的发音范围是从40Hz到3400Hz左右,因此在实验中,本文对语音信号的采样频率均为8kHz。
圈日圈日模拟信号采样212语音信号的预加重量化数字信号图21AID转换示意图由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,语音信号从嘴唇辐射后,高频端大约在800Hz以上有6dB倍频的衰减。
因此,在对语音信号进行分析之前,一般要对语音信号加以提升(预加重)。
预加重的目的是滤除低频干扰,尤其是50Hz或者60Hz的工频干扰,提升对语音识别有用的高频部分,使信号的频谱变得平坦,以便于进行频谱分析或声道参数分析。
7语音信号的预加重一般在模数转化后进行,利用6db倍频的一阶数字预加重滤波器实现。
其函数为:
H(z)=1-pZq2-1其实现框图为:
其中X(n)为原始语音信号,Y(n)为预加重后的语音信号。
为预加重滤波器的系数,取值范围一般在094-097,本文取095o二(a)预加重前的波形(b)预加重后的波形(a)预加重前的频幅(b)预加重后的频幅图22语音信号0的预加重2I3语音信号的加窗处理语音信号是一种非平稳信号,为了能对语音信号进行处理,我们可以假定在lOms-30ms之间语音信号是平稳的,语音频谱特性和语音特征参数恒定。
因此需将语音信号划分为一个一个的短时段,每一个短时段称为一帧,为了从8詈拉8C语音信号中切去出样本信号,就要用时间窗函数乘以原始语音信号,这种操作就称为加窗。
在语音信号数字处理中常用的窗函数有矩形窗,汉宁窗和汉明窗。
汉宁窗:
W(n)汉明窗:
On三一l其他一sIf,,旦L-1)11Jwcn,2c|二4一。
46c。
s(各)对语音信号加窗的函数为:
0nL一1其他其他011L一1Q。
=Tx(m)】w(n一聊)其中T表示信号处理方法,x(m)为语音帧序列,w(nrn)为各个语音帧上的窗函数。
窗函数的选择对语音信号的短时分析影响很大,窗函数越宽对信号的平滑作用越好,窗函数的主瓣宽度要窄,旁瓣要尽可能小,使能量尽量集中在主瓣中,以抑制频谱的泄露。
目前应用最为广泛的是汉明窗。
9h仉厂,、L氤m臃w矩。
L50Or弋214语音信号的端点检测端点检测在语音识别中有着重要的作用。
其目的是从语音信号中检测处语音信号段和噪音段,准确的端点检测不仅可以减少计算量,而且可以提高系统的识别率。
目前端点检测的算法有很多,基于双门限比较法的端点检测,基于滑动窗口的语音端点检测算法豳1等等。
常用的