一种基于小波包主成分分析的语音情感识别方法Word文件下载.docx
《一种基于小波包主成分分析的语音情感识别方法Word文件下载.docx》由会员分享,可在线阅读,更多相关《一种基于小波包主成分分析的语音情感识别方法Word文件下载.docx(9页珍藏版)》请在冰点文库上搜索。
KunxiaXIAO
Lingling
LIU
Wenjing
School
Of
Electronic
Information
And
Engineering,
Anhui
Jianzhu
University;
Abstract:
In
speech
emotion
recognition,the
extraction
feature
parameters
has
a
direct
impact
the
final
recognition
efficiency.It
is
very
important
to
extract
from
original
signal.But
in
paper,there
too
much
extracted
dimension
much,which
often
leads
complexity
matching,and
consumes
system
resources,so
we
have
adopt
reduction
method.This
paper
improve
effect
based
transform
wavelet
packet
by
reduction.So
present
emotional
method
transforming
German
Database
(EMODB),and
then
principal
component
analysis
reduce
dimensionality
parameter,We
finally
use
Support
Vector
Machine
for
training
and
testing.Good
results
are
obtained
through
experiments.
Keyword:
extraction;
Principal
Analysis;
Wavelet
Packet
Transform;
Machine;
Received:
0引言
伴随着科技的发展,智能化得到越来越多的应用。
尤其在智能语音方面,受到了越来越多的关注。
语音情感识别[1]作为其中的重要组成部分,得到了人们广泛的重视。
语音情感识别是当前人工智能、信号处理和模式识别等领域研究的一个新的热点课题。
目前主要从三大方向入手:
预处理语音信号、提取情感特征和识别语音情感特征。
提取的特征参数的质量直接关系着语音情感识别的结果。
特征提取[2]是语音情感识别中的重中之重,因为好的情感特征能够很好的区分情感类型,反之差点的情感特征的区分效果就不太明显;
同时具有良好的独立性且计算方便的特征可以保证语音情感识别的快速实现[3]。
目前语音情感识别领域常用的特征参数的有这么几大类[4]:
基于人耳听觉特性设计的特征参数梅尔频率倒谱系数(Mel
Frequency
Cepstrum
Coefficient,MFCC)、线性预测系数(Linear
Prediction
Coefficient,LPC)和线性预测倒谱系数(Linear
Coefficients,LPCC)等。
但是上述研究方法的的实用性,鲁棒性和推广能力非常有限。
特别是特征参数大都采用平稳信号的分析方法提取[5],而语音信号是一种典型的非平稳信号,他的频谱特性随时间改变,一旦确定分析窗后,短时分析不能随着信号的变化调整其时频分辨率,而且短时平稳的方法仅对说话人的静态特征进行了描述,忽略了说话人的动态特征,而各种实验已经证明,语音中的动态特征是说话人的重要特征。
因此选择一个较好的特征参数尤为重要。
2语音情感特征的提取
2.1实验数据库
本文使用的是德国库EMODB[6],其采样频率为16KHZ,16bit量化。
该语音库包含七种情感类型,它们分别是高兴、忧虑、无聊、生气、平静、悲伤和厌烦。
共有536句情感语音信号。
该库的情感分布如图1所示:
图1德国库情感分布图
下载原图
2.2预处理
特征提取之前,我们要先对训练和测试语音做预处理工作,预加重过程采用的传递函数为:
H
(z)
=1-µ
z,预加重系数。
分帧加窗过程:
帧长取256个采样点,帧移取128个采样点,加汉明窗。
最后采用双门限的方法进行端点检测[7]。
2.3情感特征提取
小波包变换(Wavelet
Packet
Coefficients,WPC)[8]可以对高频部分提供更精细的分解,而且这种分解既无冗余,也无疏漏,所以对包含大量中、高频信息的信号能够进行更好的时频局部化分析。
因此小波包具有更广泛的应用价值。
关于小波包分析的理解,这里以一个三层的分解进行说明,其小波包分解树如图2所示:
图2三层小波包分解树
图3七种情感的原始语音及六层小波包结点(6,0)
其中S代表原始信号、A代表低频、D代表高频,字母后第一个数字代表小波包分解的层数(也叫尺度数),第二个数字代表小波包分解成第几个低频和高频的组合。
原始信号在进行表示时,只要满足完备性和高低频信号不能有交叠性就可以任意组合。
本文采用db2小波函数对语音信号进行6层分解,考虑到全局特征优于局部特征,实验进一步将小波包系数的统计值(最小值、最大值、均值、方差及中位数)计算出来,并考虑对原始信号进行一阶差分、二阶差分的处理。
我们通过从德国库中提取七条语音,每条语音带有一种情感,它们分别为生气、忧虑、无聊、厌恶、高兴、平静和悲伤。
随后将语音库中的七种情感的小波包系数结点(6,0)提取出来。
如图3a、3b所示。
在这里,我们选择了语音表达较为清晰和显著的四种情感(生气,高兴,平静和悲伤)进行图像分析,由图3a、3b可以得出:
生气小波包结点(6,0)的主要能量集中在频带1000HZ左右和2500~3500Hz内。
高兴小波包结点(6,0)的主要能量集中在频带0~1800HZ和2100~3800Hz内。
平静小波包结点(6,0)的主要能量集中在800~1200Hz和2000~3800HZ内。
悲伤小波包结点(6,0)主要能量集中在0~4000Hz内。
以上我们可以发现每种情感的原始信号及每层分解的分量的能量分布都表现出差异性。
2.4主成分分析法
主成分分析(principal
analysis,PCA)[9]本质上是一种多元的统计学分析方法。
对于一组数据集的维度一旦达到某个峰值,越往后其分类效果反而越差。
为了避免维度灾难需要进行特征降维。
语音信号可能有很多维数很大的特征包含的情感值没有贡献或者贡献的较小,通过主成分分析法去除一些噪声信息的影响。
本文选择主成分分析法进行特征降维。
然后求C
x从大到小排列的特征值和特征向量如式
(2)
:
把特征向量:
A=
(ϕ,ϕ,...,ϕ)样本向量投影到已选取的特征向量为基的特征空间,得出如下式(3)、(4)、(5)
将A的列向量φ看做低维空间的基,常量m不影响分布的特性,故将基向量的系数看做主成分就是原样本x在低维空间的表示。
由于本文的语音信号是基于六层小波包分解而提取的特征[10],共计得到5760个小波包系数特征。
导致特征维数很高,所以我们运用主成分分析法进行特征降维,在交叉验证的情况下,平均得到312个小波包系数特征。
对数据集进行主成分分析法处理的方法是有效的和必要的。
3实验与分析
3.1分类器的选择
语音情感识别也是一种模式识别。
传统的情感识别方法很多,基本上可以分为两大类:
一类是以时序特征为基础的,如HMM[11]和GMM[12]方法;
另一类是以统计特征为基础的,如ANN
(ACON,OCON)[13]方法。
GMM和HMM方法在各类情感模型的训练过程中需要大量的情感语音样本,同时模型训练的时间花费很大。
而ANN方法中由于网络中隐层节点数等不确定性因素,限制了网络的鲁棒性和情感识别正确率的进一步提高。
支持向量机(Support
Machine,SVM)分类[14]因其较好地解决了小样本、非线性及高维模式识别情况下的机器学习问题,具有很好的泛化能力,同时避免了神经网络结构选择、过学习、欠学习及局部最优解的问题。
因此,本文提出的是基于SVM的语音情感识别方法可以有效克服上述识别方法的不足。
3.2语音情感识别系统结构
本文的语音情感识别系统结构如图4所示,基于小波包变换的语音情感特征的提取[15]、主成分分析法降维和支持向量机分类是其中的重要步骤。
我们先对语音信号做预处理,然后用小波包变换提取语音特征,再将提取的特征集数据做归一化处理,因为提取的特征维数较高,我们利用主成分分析法进行降维,最后用SVM进行情感识别。
图4语音情感识别系统结构
3.3实验结果及分析
本文以十折交叉验证[16]的方式进行分类,随机抓取一份做测试集,剩余九份做训练集。
由于获取的情感特征维数较高,这样不仅增加了运行时间而且也影响了识别效果,所以我们需要降低特征维度,本实验我们采用的是主成分分析法降维。
最后我们把获取的数据集用SVM分类器进行分类和预测。
图5不同特征权重下的情感识别结果
主成分分析试图尽最大范围保持数据完整的原则下,对高维变量空间进行降维处理。
我们对数据集去除相关性,然后分别选取权重占80%、85%、90%、95%和100%的数据集进行主成分分析处理,由图5可知,在本实验中,随着特征的贡献率的增加,情感识别率越低,考虑到信息的完整性以及识别效果的有效性,本文选取特征权重占90%的数据集进行主成分分析处理。
为了分析主成分分析法对识别效果的影响,我们对特征参数进行有主成分分析法和无主成分分析法的识别结果的比较,其它的过程不变;
然后重复十次实验,求其十次识别结果的平均值。
实验结果见表1。
表1十组十折交叉验证的识别率(%)
下载原表
由表1所示,分别在有主成分分析法和无主成分分析法的情况下进行两组实验,得到两组实验数据。
在有主成分分析法降维的情况下,其运行时间在2分钟左右,其获取权重占90%的数据集,特征由5760个降到平均312个,最终情感识别率的平均值为73.41%;
在无主成分分析法降维的情况下,其运行时间在40分钟左右,特征维数不变,最终情感识别率的平均值为70.95%。
通过对比表1的两组实验,有主成分分析法降维的情感识别率比无主成分分析法降维的高了大约2.46%。
因此我们选择主成分分析法对特征进行降维不但缩短了实验的运行时间而且还提高了情感识别率。
进一步证明了这种方法的合理性和优越性。
为了生成可靠和实用的模型,本文采用十折交叉验证的方法,重复进行10次基于WPC的语音情感识别的实验,取数据的百分之九十训练,另百分之十做测试.
即训练数据有482个,测试数据有54个。
经过测试,实验得到的数据如表2所示,其中AG、AX、BD、DG、HP、NT和SD分别为生气、忧虑、无聊、厌恶、高兴、平静和悲伤的英文大写字母缩写。
从表2中得出识别结果如下:
生气的识别率为96.09%,忧虑是62.86%,无聊是62.96%,厌恶是53.06%,高兴也是56.94%,中性是67.09%,悲伤是95.24%,都处于合理的范围内,其情感的平均识别率是73.41%。
另外可以看到,生气与悲伤的识别率较高,厌恶与高兴的识别率较低。
并且,厌恶和生气、悲伤两者之间容易混淆,高兴和生气之间容易混淆,原因是这两组情感之间相似度较高,以至于容易发生误判。
表2基于WPC的平均混淆矩阵(%)
为了进一步说明本文所使用方法的有效性,在德国库中,我们只改变情感特征提取的方法,其它的都不变,进行了基于MFCC的语音情感识别实验。
实验结果如表3所示,生气的识别率为95.85%,忧虑是62.36%,无聊是62.19%,厌恶是60.83%,高兴是43.06%,平静是64.62%,悲伤是80.48。
表3基于MFCC的平均混淆矩阵(%)
通过表2和表3的对比,我们可以看到,基于六层小波包系数的语音情感识别方法对高兴和悲伤两种情感的的识别效果明显要好于基于梅尔倒普系数的语音情感识别方法,而对于厌恶这种情感的识别效果相对要差一些,除以上三种情感之外,其它的情感使用两种实验得到的结果都相差不大。
总体而言,我们所做的基于六层小波包语音情感识别的方法的实验是合理的和有效的。
4结论
本文在德国情感语料库上进行语音情感识别实验,并得到了相关实验结果。
结果表明,本文提取基于六层小波包系数分解的语音情感的特征值是合理的,选择的特征降维方法也是有效的。
我们可以在今后的研究中提取更多合理的和有效的特征参数。
可以有针对性地研究相似度较高的情感,减少相互的误判率。
获得更好的识别效果。
参考文献
[1]韩文静,李海峰,阮华斌,等.语音情感识别研究进展综述[J].软件学报,2014,25
(1)
37-50.
[2]Guyon
I,Elisseeff
A.An
introduction
extraction[M].Feature
extraction.Springer
Berlin
Heidelberg,2006:
1-25.
[3]陈瑶玲,杨鉴,陈江,等.基于支持向量机的语种识别[J].信息技术,2010(6)
32-34+39.
[4]杨大利,徐明星,吴文虎.语音识别特征参数选择方法研究[J].计算机研究与发展,2003,40(7)
963-969.
[5]阎福智.语音信号处理中特征提取方法研究[J].中国新通信,2013(21)
127-128.
[6]Burkhardt
F,Paeschke
A,Rolfes
M,et
al.A
database
speech[C]//Interspeech.2005(5)
1517-1520.
[7]刘玉珍,田金波.基于语音增强的双门限语音端点检测算法[J].测控技术,2016,35(11)
33-35.
[8]吴亮春,潘世永,何金瑞,等.改进的基于小波包变换的语音特征提取算法[J].计算机工程与应用,2011,47(5)
210-212.
[9]罗宪华,杨大利,徐明星,等.面向非特定人语音情感识别的PCA特征选择方法[J].计算机科学,2011,38(8)
212-213+256.
[10]Wang
K,An
N,Li
L.Speech
coefficient
model[C]//Chinese
Spoken
Language
Processing
(ISCSLP),20149th
International
Symposium
on.IEEE,2014:
478-482.
[11]岑咏华,韩哲,季培培.基于隐马尔科夫模型的中文术语识别研究[J].现代图书情报技术,2008,24(12)
54-58.
[12]Rasmussen
C
E.The
infinite
Gaussian
mixture
model[C]//Advances
neural
information
processing
systems.2000:
554-560.
[13]赵腊生,张强,魏小鹏.语音情感识别研究进展[J].计算机应用研究,2009,26
(2)
428-432.
[14]陶卿,曹进德,孙德敏.基于支持向量机分类的回归方法[J].软件学报,2002,13(5)
1024-1028.
[15]Kishore
K
V
K,Satish
P
K.Emotion
using
MFCC
features[C]//Advance
Computing
Conference
(IACC),2013IEEE3rd
International.IEEE,2013:
842-847.
[16]Refaeilzadeh
P,Tang
L,Liu
H,Cross-validation[M]//Encyclopedia
systems.Springer
US,2009:
532-538.