基于SVM和HMM混合模型的语音情感识别和性别识别.pdf

资源描述

基于SVM和HMM混合模型的语音情感识别和性别识别.pdf

《基于SVM和HMM混合模型的语音情感识别和性别识别.pdf》由会员分享，可在线阅读，更多相关《基于SVM和HMM混合模型的语音情感识别和性别识别.pdf（70页珍藏版）》请在冰点文库上搜索。

基于SVM和HMM混合模型的语音情感识别和性别识别.pdf

CIassifiedlndex：

TP39142UDC：

621SouthwestUniverSityofScienceandTechnogY010YIMasterDegreeThesiSSpeechEmotionandGenderRecognitionBasedonSVMandHMMinaHybridModeIGrade：

Candidate：

AcademicDegreeAppIiedfor：

SpeciaIity：

Supervisor：

2008ChenXiaodongMasterMechatrotlicEngineeringCaiYongJune252011独创性声明川11111IITIIIllIIIIIIIl彗jY1998113争本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。

尽我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得西南科技大学或其它教育机构的学位或证书而使用过的材料。

与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示了谢意。

签名：

予系族泵日期：

扣，口哆关于论文使用和授权的说明本人完全了解西南科技大学有关保留、使用学位论文的规定，即：

学校有权保留学位论文的复印件，允许该论文被查阅和借阅；学校可以公布该论文的全部或部分内容，可以采用影印、缩印或其他复制手段保存论文。

（保密的学位论文在解密后应遵守此规定）签名：

酥固滔、导师签名日期：

龇，护占侈西南科技大学硕士研究生学位论文第l页摘要目前人机交互技术越来越智能化，语音性别识别和情感识别方法多种多样，但是还存在诸多问题，比如：

特征参数不佳、模型简单、识别率低等。

针对以上问题，对特征参数和模型做了改进，并在改进的特征参数和模型下做了性别和情感识别实验。

主要内容如下：

（1）特征参数。

在性别特征参数方面，通过仿真分析得到，MFCC参数比LPCC更优，因此丢弃LPCC，并对MFCC进行了二次特征提取获得它的加权特征（SMFCC）和一阶微分特征（AMFCC）。

除了上述特征外还加入了平均基因频率。

在情感方面，将情感分为四个类别：

高兴、愤怒、惊奇、悲伤。

研究了基因平率、共振峰（第一共振峰（FO）、第二共振峰（F1）、第三共振峰（F2）、振幅在不同情感下的规律。

研究表明F2在四种情感下影响不大，因此F2被舍弃。

并在这些特征的基础上加入了SMFCC和AMFCC。

（2）通过研究HMM和SVM得出：

HMM在处理连续信号具有优势，而SVM在分类上具有优势。

提出了SVM和HMM混合模型及需要解决的问题，同时研究了混合模型如何进行训练和识别。

（3）在相同的特征参数下，对基于SVM和HMM混合模型、HMM和SVM的性别及情感识别的结果进行了比较，分析表明混合模型在性别和情感识别均提高了识别率。

关键词：

特征参数HMM-SVM混合模型性别识别情感识别西南科技大学硕士研究生学位论文第ll页AbstractAtpresenthumanmachineinteractionismoreandmoreintelligentThemethodsofthegenderandemotionrecognitionarevarious，buttherearestillmanyproblems，suchas：

characteristicparametersarenotthebestparameters，themodelissimpleandtherecognitionrateislowTosolvetheseproblems，thecharacteristicparametersandmodelareimprovedInadition，theexperimentofgenderandemotionrecognitionisdonebasedontheimprovedfeatureparametersandmodelThemaincontensareasfollows：

（1）FeatureparametersIntermofgender,theparametersofMFCCarebetterthanLPCCobtainedfromthesimulationSotheLPCCisdiscardedThroughthequadraticfeatureextraction，theweightedcharacteristics（SMFCC）andfirstorderdifferentialcharacteristiesofMFCCisobtainedInadditiontothefeaturesdescribed，theaveragepitchisaddedIntermofemotion，theemotionsaredividedintofourcategories：

happy,anger,surprised，sadFurthermore，thelawsofpitch，formants（thefirstformant（F0），thesecondformant（F1），thethirdformant（F2）andtheamplitudearestudiedunderdifferentemotionTheresultsshowthatF2haslittleeffectinfouremotions，SOF2iSdiscardedAtlast，onthebasisofthesecharacteristics，thesMFCCandMFCcareadded

（2）HMMhasanadvantageindealingwithcontinuoussignalwhileSVMprevailsintheclassificationobtainedbystudyingHMMandSVMThereforethehybridmodelofSVMandHMMandthequestionthatneedstoberesolvedisproposedAtthesametime，thehybridmodelisstudiedhowtoconducttrainingandrecognition（3）Underthesamecharacteristicparameter,theresultsofgenderandemotionrecognitionthatbasedonthe，hybridmodel，HMMandSVMarecamparedTheanalysisshowsthehybridmodelincreasestherecognitionrateingenderandemotionKeywords：

featureparameter；hybridmodelsofHMMSVM：

genderrecognition；emotionrecognition西南科技大学硕士研究生学位论文第1Il页目录1绪论一l11国内外现状l12情感和性别识别存在的问题-413本文研究的框架42语音库的建立与语音信号分析621语音库的建立一622语音信号的产生723语音信号的预处理724语音信号的倒谱特征11241线性预测倒谱系数（LPCC）1l242Mel倒谱系数（MFCC）”1325基因频率估计1426共振峰估计”1627本章小结l73特征参数提取与分析1831性别特征参数18311线性倒谱系数（LPCC）一18312Md倒谱系数（MFCC）l9313基因频率2032特征参数优化20321二次特征提取原理21322二次特征提取的实现一2l33情感分类一2234情感特征参数一23341基因频率的提取23342共振峰参数提取一24343振幅参数的提取一2535本章小结274隐马尔科夫模型和支持向量机理论2841隐马尔科夫模型简介2842隐马尔科夫槿型的基本算法”29西南科技大学硕士研究生学位论文第1V页421前向一后向算法29422维特比（viterbi）算法30423Baum、1ch算法3l43隐马尔科夫模型的类型32431按照HMM状态转移概率矩阵（A参数）分类一32432按照HMM的概率输出概率分布（B参数）分类一3444支持向量机35441支持向量机的理论基础35442线性可分问题的支持向量机36443非线性不可分支持向量机38444核函数类型3945本章总结395SVM和HMM混合模型一4151SVM和HMM的优点和缺点4152SVM和HMM混合模型需要解决的问题4l521分类器的创建42522SVM距离向后验概率的转化4353SVM和HMM混合模型43531SVM和HMM模型训练44532SVM和HMM模型识别t4554本章小结466基于混合模型的性别识别和情感识别4761基于SVM和HMM混合模型的性别识别4762基于混合模型的情感识别5063本章总结一55结论56致谢59参考文献60攻读硕士学位期间发表的学术论文及研究成果63西南科技大学硕士研究生学位论文第l页1绪论11国内外现状随着计算机的迅速发展，人类对计算机的依赖性越来越强，计算机的应用范围不断扩大，影响到全球的每个领域。

人机交互技术引起越来越多科学家的重视，且朝着智能的方向发展。

尽管目前的机器基本能满足人们当前的需求，但是人们希望一种更智能、人性化的交互技术，这必然要实现机器拟人化，能够让机器有情感，具有思维的能力，近年来，研究者主要倾向于对人的情感和性别识别，采用的方法也很多，比如人脸、语音等。

基于人脸的情感和性别识别有一个缺陷：

当光照条件不充分的时候，该方法的识别率会明显降低。

而语音是人类最自然、有效的交流方法，其中的情感信息显得尤为重要。

语音情感识别涉及的领域广泛主要包括：

信号处理、人工智能、模式识别、声学、语言学、电子技术、通讯理论、神经生理学和神经心理学等众多学科。

如何让机器识别人的情感信息（喜怒哀乐）以及人的性别，从而做出智能的反应，成为下一代计算机研究的目标。

如何选择特征参数才能体现人的情感和性别信息，研究者做了大量的工作。

可以归结为：

在情感识别当中，特征参数有能量、时间、基因频率、共振峰、振幅，以及这些特征的衍生特征比如：

平均值、最大值、最小值、动态范围、方差等。

在性别识别当中，特征参数有线性倒谱系数（LPCC）、Mel倒谱系数、基因频率。

XiaoLin等认为：

人在不同情感下发音（如高兴、愤怒、悲伤等），与无感情色彩的语音相比，带情感的语音在音质、说话速度和基因轮廓不同。

其中一些特征参数不易提取，如音质和说话速度这两个参数受主观因素影响，不同的人具有不同的语音特色，例如有些人说话很快，有些人说话较慢，有些人声音响亮，有些人声音却很嘶哑，从而认为基因轮廓可能比较容易提取。

AlbinoNogueirast2J等提出了基于半连续HMM蝗虫的情感识别方法，情感被分为7个类别：

愤怒、厌恶、恐惧、高兴、悲伤、惊奇和平静，特征参数为能量和基因频率。

实验结果表明：

蝗虫的情感识别结果和人的主观判断基本吻合。

MoatazElAyaditn等人论述了情感识别当中的特征参数，主要包括4大类别：

声学特征、音质特征、频谱特征、TEO特征。

声学特征包含：

基因相关特征、共振峰特征、能量相关特征、时问特征、发音特征。

音质特征包西南科技大学硕士研究生学位论文第2页含音质水平、语音音高。

频谱特征有LPCC、MFCC。

Alexander1Iliev等提出了基于声门特征的情感识别，其中情感分为高兴、愤怒、惊奇、中立四种类型。

JiaRongt4j等研究了语音情感识别中声学特征的选择，提出了一种新的特征选择算法TheEnsembleRandomForesttoTrees（ERFTrees），其主要目的是获得最有效的特征参数，实验结果表明，和其他算法比较，该算法在识别率上得到了提高。

邓英15l等提出了基于HMM的性别识别，特征参数选择为MFCC。

张捍东【6l等提出了基于性别识别的分类CHMM语音性别识别，特征参数为MFCC。

国外还没找到相关语音性别识别的文献。

语音情感和性别识别的方法很多，在情感方面，突出的方法有HMM、高斯混合模型（GaussianMixtureModels，GMM）、神经网络（Neuralnetworks）、SVM、多分类系统（MultipleClassifierSystems，MCS）。

TNewIn等提出了基于HMM的情感识别系统，特征参数为MFCC、LFPC（LogFrequencyPowercoefficient）、LPCC，分类器的训练和测试采用两种数据库，分别为BurmeseandMandarin。

两种数据库下得到的最优识别率分别为785、755。

CLeeIsl等提出了基于音素分类的情感识别，该方法基于两种系统，其中之一是利用CHMM为每一个情感建模，每一状态采用12个高斯混合，另一个系统是为每一个音素建立3状态的CHMM，实验中把这种方法和SVM的方法做了对比，结果得出基于音素分类的识别率为7612，基于SVM的识别率5568。

CBreazeall91提出了基于GMM的情感识别，这种方法缺点是不能模拟训练数据的瞬时结构。

JNicholsoni）01提出了基于神经网络的情感识别，其中情感分为8种，神经网络采用八层MLP（MultiLayerPerception），每个次级神经网络包含两个隐藏层，每个次级神经网络用来训练8种情感中的一种，输出层只有一个神经元，但是分类准确度仅为5287。

SVM是利用核函数将原始特征映射到高维特征，使得样本线性可分。

SVM分类器在模式识别中得到广泛应用，是因为在分类上它优于其他分类器，文献ill指出了SVM在分类上优于HMM和GMM。

将SVM应用到语音情感识别的文献很多，BSchuller121等提出语音的情感识别，其特征参数包括声学特征和语言信息，通过SVM分类后，得到分类准确率为7612。

对于高度复杂的分类，在训练时需要大量的计算，因此多分类器被应用到情感识别中。

多分类器可以总结为3个方面1311141：

分层法、连续法、并行法。

分层法是将分类器排列在树结构上，候选的类别集沿着树枝到树根会变的越来越小。

连续方法是将分类器排列在一个队列中，候选的分类集每通过一个分类器后，它的数量随之减少。

并行方西南科技大学硕士研究生学位论文第3页法是各个分类器独立工作，他们的输出结果被输入到一个决策函数中进行判别115l。

在性别识别方面，采用的方法有矢量量化技术1161（vQ），后来出现其他的方法，如HMMtn、高斯混合方法1171。

l990年，麻省理工大学实验室的研究小组全面展开了对外界的信号采样，以达到能够识别人的情感，同时对这些情感做出相应的反馈。

l981年Williams和StevensIs从语音产生机理的原理出发，得出不同情感状态下，生理上起主导作用的神经系统和以及相应的生理反应llgl。

1996年，Dellaert提出以基因频率为主要特征分类的方法，并把情感分为四种类型即：

高兴、愤怒、悲伤、恐惧。

研究表明基因频率最主要的特征是它的最大值，中值和最小值，基因频率轨迹线的倒数，最后采用k近临法来识别情感的类型。

2000年，Vladimir和Hozjan对各种语言的情感识别进行了深入研究。

2003年TinLayNewt20提出了用隐马尔科夫模型来识别情感，并指出目前流行的语音情感特征是基因频率、能量、无声的持续时间和声音质量，当情感分类的数目超过两类的时候，系统的识别性能就会有所下降。

他提出了一种文本独立分类的方法，把情感分为六类，分别是生气、厌恶、恐惧、高兴、悲伤和惊奇，最后采用离散的HMM作为分类器。

美国南加州大学语音情感组，该小组由Narnyanan教授领导，专门致力于语音情感的声学研究、合成与识别，并对有关笑声的合成做出了研究。

在基于同本SGI的研究院的情感技术之上，2006年NEC在德国汉诺威Cebit展示了一种装有LED的花，此花能感知人的情感，当人的情感发生变化时，灯的明暗程度会发生相应的变化。

东南大学、清华大学、北京交通大学、浙江大学、模式识别重点实验室等都展开了这方面的研究工作。

东南大学无线电工程系采用主元分析法进行普通话语音情感识别，情感类别为高兴、惊奇、愤怒、悲伤，最终识别率达到80。

清华大学计算机科学系采用PNN（ProbabilisticNeuralNetworks）模型作为分类器，研究了基于韵律特征的情感识别。

实验结果表明在愤怒、惊奇、高兴容易混淆，最后得到的识别率是767。

模式识别重点实验室对语音情感的韵律特征，声调、语速、强度以及共振峰做了深入研究，研究表明基因频率语音对情感识别贡献最大。

考虑到各国语种的不同，语音的发音存在很大差异，尽管各国已经取得了一些成果，但是由于语种的差异，并不能照搬外国的研究成果，必须根据我国的国情研究出适合汉语特征的性别识别和情感识别，而本国汉语的情感分析处理还处在启蒙阶段，因此必须加快步伐促进我国性别识别和情感识别的脚步，虽然语种上存在差异，但是外国的一些研究成果，我们可以借鉴。

西南科技大学硕士研究生学位论文第4页语音性别识别和情感识别有着广泛的应用，比如在人和机器之间通讯时，事先知道说话者的性别，语气上可以做出不同的反应。

在情感识别上应用也很广泛，比如远程教育中，学生没有听懂老师的讲解，和J下常情况下，学生表现出来的情感信息不同，据此，老师可以重新讲解，从而提高远程教育的质量。

12情感和性别识别存在的问题

（1）由于目前数据库不统一，导致情感和性别识别率变化范围比较大，从国内外现状可以看出，两者识别率都在50左右80左右。

基于不同的数据库，也没有可比性。

本文在PC下录制了自己的数据库。

（2）情感特征参数采用基因频域、能量、共振幅、及其一些特征的衍生特征等，有些虽然选表征情感的参数较多，然而参数维度必然增加，导致计算量庞大。

本文提出了新的特征选择方法。

（3）情感和性别识别的分类算法，一般都采用单一的分类器，而单个分类器具有局限性，不能完全限制语音信号，因此本文提出了利用SVMHMM混合模型来识别人的情感和性别。

13本文研究的框架本文研究的框架为：

（1）第一章为绪论部分，主要介绍了课题的国内外现状及情感和性别识别存在的问题。

（2）第二章主要介绍了数据库的创建和语音信号分析。

由于目前还没有标准的语音情感库，我们采取录制的方式，实验中用20个人（10男lO女）在不同的情感下进行录制，总共得到8000个语音样本，从中选择具有明显感情色彩的语音样本4000。

语音信号分析主要介绍了语音的预处理和特征估计的方法。

（3）第三章介绍了特征参数分析和提取。

展开阅读全文