一种改进支持向量域数据描述方法及其应用讲解.docx
《一种改进支持向量域数据描述方法及其应用讲解.docx》由会员分享,可在线阅读,更多相关《一种改进支持向量域数据描述方法及其应用讲解.docx(18页珍藏版)》请在冰点文库上搜索。
一种改进支持向量域数据描述方法及其应用讲解
第48卷第5期2009年9月
厦门大学学报(自然科学版)
JournalofXiamenUniversity(NaturalScience)
Vol.48No.5Sep.2009
一种改进支持向量域数据描述方法及其应用
罗键,庄进发,李波,吴长庆,黄春庆
(厦门大学信息科学与技术学院,福建厦门361005)
摘要:
针对支持向量域数据描述中的核参数选择及其决策边界规整问题,提出一种新的改进算法.该算法根据支持向量
域数据描述本身的特点,利用非高斯性来测量核空间样本接近球形区域分布的程度,并根据此测量结果来优化核参数.当核参数选定之后,核空间样本可能存在分布不均匀的现象,对此,该算法应用核主元分析来进行规整,即通过尺度变换来调整各主轴的长度,以获得一个更合理的球形分界面.最后通过标准数据集和TEP故障诊断仿真以验证该算法,仿真实验结果表明了该算法的有效性.
关键词:
支持向量域描述;核主元分析;非高斯性
中图分类号:
TP311文献标识码:
A文章编号:
04380479(2009)05065606支持向量域数据描述(Supportvectordatadescription,SVDD)是在支持向量机(Supportvectormachine,SVM)的基础上提出的一种数据描述算法.它的主要思想是在核特征空间中寻找一个最小超球分界面,该分界面应尽可能把所有训练样本包围起来,并以该分界面对数据进行分类和描述.SVDD的性能受核参数和最小超球分界面的影响很大,当核参数选择不当,SVDD描述数据的分类效果就不理想;当核参数选定后,如果样本在核特征空间中分布不够均匀,用球面去包围训练样本就不一定使得SVDD决策边界线紧凑.针对这两方面的问题,本文提出了一种基于非高斯性测量与核主元分析的改进方法.
文献[3]指出选择不同的核函数或设置不同的核参数,特征样本映射到核空间的维数以及数据集在核空间分布形状就有很大的不同.在SVDD算法中,主要通过高斯核函数将特征样本进行映射,并寻找一个最小超球分界面来尽可能把所有训练样本包围起来[1].本文认为一个理想的SVDD高斯核参数,应使得核空间样本的空间分布形状尽量地趋近于球形区域.这样求解SVDD最优核参数问题就转化为测量核空间中样本趋近于超球体的程度.文献[5]介绍了应用蒙特卡罗法(Simplemontecarloalgorithm)、交叉坐标法(Coordinatebycoordinatestrategy)和高斯分布转动不变性法[6-7](Basedontherotationinvari
收稿日期:
20081230
基金项目:
国家自然科学基金(60704043),国家211工程(王艺
之)项目立体通信和信息集成技术资助
edu.[4]
[2]
[1]
ancethenormaldistribution),来产生一个属于N维球形面的随机变量,并在理论上对这3种算法进行了
比较,得出高斯分布转动不变性法是一种较高效的产生球形面数据集的方法.在文献[5]的基础上,本文提出一法则,即若多维随机变量中各维服从同均值且同方差的独立高斯分布,则该变量的空间分别趋近于球形区域.这样就可通过测量核空间样本的非高斯性质来优化SVDD的核参数值.
当核参数确定之后,如果核空间的样本分布是不均匀的,那么应用球形面去包围所有的训练样本,就显得不紧凑,如图1所示.在图中,椭圆决策分界面比圆形决策分界面更紧凑地包围样本.针对这个问题,本文通过核主元分析(Kernelprincipalcomponentanalysis,KPCA)来对球形面进行规整,即利用KPCA获得p个主元方向,并计算p个方向上的主轴长度,然后通过尺度变换使得各主轴的长度相等,从而获取一个更合理的球形界面.对于KPCA核参数选择,文献[9]指出在KPCA分析中,最优核参数应该是使核空间特征样本的分布趋于高斯分布,这也与前述求取核参数的方法一致,因此前述求解得到的核参数可作
[8]
图1用椭圆球面覆盖训练样本
第5期罗键等:
一种改进支持向量域数据描述方法及其应用657
为KPCA分析中的核参数.
1SVDD简介
设X={xi}i=1为R空间中的一个样本集,其中n表示样本的数目.通过一个非线性映射将样本映射到特征空间F中,即:
xXRd(x)F(称(x)为x对应的核样本).SVDD的基本思想是:
在F中寻求一个体积最小的超球=(a,R),使得核样本集X={(xi)}i=1中的数据全部或尽可能多的包容在中.其中a表示球心,R表示半径.最小化超球体的体积是一个二次规划问题,即
min(R+Ci)R,a,
i
2基于非高斯测度的核参数优化
d
n
2.1产生球形区域的数据集
文献[7]指出,如果X1,X2,,Xn为独立且服从平均值为0,方差为1的高斯分布,那么X1,X2,,Xn位于一个单位球形面上,即
(X1/r,X2/r,,Xn/r)其中
r=
1+X2++Xn.
(6)
n
若要使点位于N维球形的球内,只要把X1,X2,,
(1)
Xn乘以一个正交矩阵U即可获得.
定理1如果多维变量y中的各维变量服从独立且平均值相等的同方差高斯分布,则y的空间分布趋
(2)
于一个N维球形区域.
由文献[7]可知,N维球形表面上的点是服从独立且平均值相等的同方差高斯分布.现只需证明球形内的点也是服从独立且平均值相等的同方差高斯分布即可.若有一随机变量服从N(0,1)的高斯分布,则其密度函数为
2-x(7)2
同样如果有一多维变量中的各维变量服从N(0,1)独
n
i=1
约束条件为
(xi)-a2R2+i,i=1,2,,n
其中i0表示松弛变量,以便把奇异点排除在超球体外.C是一个指定的常数,起到控制对错分样本惩罚程度的作用,以实现错分样本比例与算法复杂程度之间的折中.该优化问题的解可由下面的拉格朗日(Lagrange)泛函的鞍点给出:
2L(R,a,i,ai,i)=R+C
n
i=1n
-i2
i=1
f(x)=
i=1
a(R
i
+i-(xi)-a)-
ii
n
立且平均值相等的同方差高斯分布,那么其密度函数
(3)
为
1-
2e(8)d
(2)
现设有一正交矩阵URdd,则球形内的点为Y
其中,ai0,i0.求式(3)的最小值可变成求其Wolf对偶问题的最大值
W(a)=
i=1n
n
n
f(x)=
ak(x,x)-aak(x,x)
i
i
i
ij
i
j
i=1j=1
=UX.
证明
P(YA)=P(XUA)=
-x,x>
UtAe=d
(2)-
xx
Ae=d
(2)-
Ae.d
(2)
因此,不论是球形面,还是球形内部的点都服从独立且
t
(4)
其中a=(a1,a2,,an),a的约束是
i=1
a
n
i
=1和0
aiC.K(xi,xj)表示核函数,用它替代内积运算,即k(xi,xj)=<(xi)(xj)>.
对于一个新样本x如果满足下列条件,则接受它属于目标样本,否则拒绝.
f(x)=k(x,x)-2aik(xi,x)+
i=1n
平均值相等的同方差高斯分布.定理1得到证明.
(5)
i=1j=1
aak(x,x
ij
i
nn
j
)R
2.2特征子空间的数据分布
在特征空间F中,无法直接分析数据集X={(xi)}i=1的分布情况.因此,考虑yi在一组标准正交基(x1),,(xr)生成的子空间F投影分布情况,从几,{yii1n
r
n
在实际计算中,多数ai=0,只有少数ai0,称ai
0对应的样本为支持向量,只有这些支持向量才决
658厦门大学学报(自然科学版)2009年
构,即它们的分布相同.
设子空间F的一组基为xb1,,xbr,则F的一组标准正交基为
(1,,r)=((xb1),,(xbr))V其中V=(u1/
1,,ur/
(9)
r),u1,,ur为核矩阵
SVDD是通过求解覆盖所有训练样本的最小超球
面来实现基于单类训练样本的判别方法.但是如果样本分布得不够均匀,用球面去覆盖训练样本就未必合理.如在图1的情形下,用超球面去覆盖训练样本就要承担相当大的风险.如果不用球面,而是用椭球面去覆盖这些点,结果就会更合理.
设核函数k(x,y)导出的特征映射为:
:
RF,x(x).由于主成分分析都是将数据中心化后进行的,因此可设
ni=1
i=1
N
r
r
3基于KPCA的超球形圆整
Krr=(k(xbi,xbj))1i,jr的一组标准正交特征向量,1,
r为对应的特征值.,
则(xi)(1in)在标准正交基1,,r的投影向量为
yi=(1,,r)(xi)=
T
V(k(xb1,xi),,k(xbr,xi))
TT
(10)
2.3核参数优化
评价数据集X={(xi)}ni=1的分布逼近超球形区域的程度,可以转化为考察Y={yi}
逼近超球形区
域的程度.由前面定理知,当一个多维变量y的各个分量独立且服从同方差的高斯分布,则y的分布是一个近似超球形区域.因此趋近于球形区域的测量,可以转化为对多维变量y的各个分量的高斯性进行测量.
对于非高斯性测度,文献[10]介绍了一种基于最大熵原则的非高斯性测度,用来测量一维随机变量的非高斯性,并证明了比传统的基于累计量的测度精确得多[11].其定义如下:
J(z)=[E{g(z)}-E{g(v)}]
2
(x)=
ij
n
0并计算协方差矩阵
T
C=m
j=1
(x
M
)(xj)
(14)
特征值分解C,则可以得到C的非零特征值>0及相应的特征向量V,满足
CV=V
(15)
C对应于特征向量V的特征值大小等于映射样本在该V方向上投影的方差.注意到任何一个不为0的特征值所对应的特征向量V都在(x1),,(xn)张成的空间中,所以存在系数ai(i=1,,n)使得:
V=
i=1
(11)
a(x)
i
i
n
M
(16)
其中v是标准的高斯变量,随机变量z假定具有零均值、单位方差.g是非二次函数,具体选取方法见文献[10].由于式(11)只是针对一维随机变量的非高斯性测度,因此本文在式(11)的基础上拓展为一种多维的非高斯性测度.假定v是N维的高斯随机变量,即每一维服从零均值,单位方差的高斯分布.z假定为一个N维随机变量,每维具有零均值,单位方差.定义测度如下:
J(Z)_n=
i=1
将式(15)两端同时与(xk)做内积,有<(xk),V>=<(xk),CV>,k=1,,n再将式(16)代入,得
ai<(xk),(xi)>=ni=1故有
nKa=Ka
求解与式(17)等价特征值问题:
2
j=1n
i=1
a
i
<(xk),
(x
n
j
)(<(xj),(xi)>)>,k=1,,n.
(17)
[E{g(Z)}-i
i
ni=1
n
E{g(v)}]2
(12)
最优化核参数算法如下:
1)求解X={(x)}
对应的所有数据集Y=
{Y1,,Ym}.其中m为标准正交基的个数.
2)将数据yi(i=1,2,,n)按如下方式处理:
zi=(yi-y)/.其中y是Y={yi}ni=1(=1,,m)的均值,是每维向量方差的均值.
3)用式(12)分布测量Y的非高斯度J(Z)_n.4)按下式确定最优的核参数=minJ(Z)_n=min}2
i=1
na=Ka(18)
最后得到特征空间中的p个主方向为Vk(k=1,,p).对任意的测试样本x,其在各个主方向上的投影为
=
k
i=1
ak(x,x)
ki
i
n
(19)
利用KPCA方法得到的p个主方向就是待求的椭球的主轴.各主轴的长度可以通过计算样本点在该主轴方向的投影的最大间隔距离近似得到.然后根据主轴的长度进行变换,使得各主轴的长度相等.算法描述如下:
1)训练样本X={(xi)}i=1在第二节求得最优核n
[E{g(Z)}-i
n
(
第5期罗键等:
一种改进支持向量域数据描述方法及其应用659
2)对映射后的点施行中心变换,即将坐标平移到n
i=1
处.
i
n
3)通过旋转和投影变换,根据式(18)获得p个主方向.
4)计算训练样本在各个主轴上的投影,得到椭球各主轴长度,从而得到各主轴方向的收缩比例因子,然后对样本点施行收缩尺度变换.
4实验验证
图2测试样本
本文实验主要采用的是Matlab7.4语言以及在dd_tools工具包(http:
//wwwict.ewi.tudelft.nl/~davidt/dd_tools.html#download)和SVMKM工具包(http:
//asi.insarouen.fr/enseignants/~arakotom/toolbox/index.html)的基础上来编写本文的算法.
的性能没有优于SVDD3,如图3所示.当SVDD经过这两阶段的改进之后,其性能有一定的提高.Fig.2Testingsamples
4.2基于TEP的实验验证
TEP故障诊断问题是由美国伊斯曼化学公司创建的,其目的是为评价过程控制和监控方法提供的一个现实的工业过程.TEP作为比较各种方法的数据源,已在过程监控领域得到了广泛的应用[12].TEP主要包含有22类故障,55个监控变量,960个样本数(每3min采集一次,总共运行48h).根据文献[13]的研究建议只选取24~48h时间段的480个数据(http:
//brahms.scs.uiuc.edu)中具有典型代表的1、4、5、11共4类故障.
在本实验中,依次把4类故障中的一类作为未知新故障,其它的3类作为已知故障,其中把480个数据样本同样的分为两部分,一部分作为训练,一部分作为测试,然后利用已知故障来进行SVDD的建模,总共进行了45=20次实验,实验结果如表2所示.
表2显示,基于改进的SVDD能够有效对已知故障进行识别达到85%左右,同时对新故障也能够较好地识别,达到72%左右.
4.1基于标准数据集的实验验证
本实验主要采用的banana标准数据集(www.first.gmd.de/~raetsch)来验证.该数据集含有200个样本,2维输入,输出维数是1.把200个banana数据集平均分成两部分,一部分用于SVDD的训练建模,另一部分数据集用于测试SVDD的准确率.由于SVDD是单分类器,本文人为地引入100个非banana数据样本(界外样本)并加入测试样本集中,如图2所示.训练SVDD模型的实验结果如图3所示,图3显示不同的核参数和在是否圆整球面条件下产生的不同分界球面.其中图3(a)显示数据集的分界面过于宽松,有可能包含了较大一部份的界外样本,这说明在数据集分布为弧形或椭圆时,采用SVDD表述数据边界的效果很差;图3(b)数据集的分界面比较合适,但是不够平滑;图3(c)显示分界面比较合适,且分界比较平滑;图3(d)中数据集的分界面出现过拟合的现象,可能导致把大量的训练样本(目标样本)排除在外.表1显示不同的核参数以及是否对球形面进行圆整的测试样本的准确率结果.SVDD1对目标样本的识别准确率较高达89.32%,对界外样本的识别准确率较低为70.10%,这是由于其分界面过于宽松导致,这也可以从图4的ROC(Receiveroperatorcharacteristiccurve)曲线上可以看出;SVDD4对于目标样本的识别准确率较低为37.86%,对于界外样本的识别准确率较高达97.57%,这是由于其分界面过适应导致,如图4所示.SVDD2与SVDD3相对于前面两个模型,分界面比较适中,对于目标样本和界外样本准确率都比较
高,5结语
针对SVDD中的核参数选择及其决策边界规整问题,提出一种新的改进算法.SVDD是在SVM的基础上提出的一种基于KPCA方法的单一分类器.针对SVDD核参数的优化和样本在核空间的分布不均匀这两个问题,本文提出并证明应用非高斯性准则来优化核参数的可行性;当样本在特征空间的分布不均匀时,利用球面去作为分界面就存在一定的宽松,提出应用KPCA方法来对最小球形面进行圆整,最终获得一个球数验及
660厦门大学学报(自然科学版)2009
年
图3不同的核参数和圆整球面获得的SVDD模型
(a)数据集的分界面过于宽松;(b)数据集的分界面比较合适,但是不够平滑;
(c)显示分界面比较合适,且分界比较平滑;(d)数据集的分界面出现过拟合的现象
Fig.3TheSVDDmodelscreatedbydifferentkernelparametersandroundedsphericalsurface
表1识别率与核参数、是否圆整球面的关系
Tab.1Therelationshipbetweentherecognitionrate
andthekernelparametersaswellaswhetherornotroundthespherical
名称
J
8330.95
圆整球面
否否是否
目标准确率/%89.3285.4491.2637.86
界外准确率/%70.1098.9794.8597.57
SVDD10.36SVDD20.03SVDD30.03SVDD40.45
图4ROC曲线Fig.4ROCcurves
表2TEP故障检测结果
Tab.2TheresultsofTEPfaultdetection
已知故障1、4、51、4、111、5、11新故障11
54J0.1020.0890.7653.512.131.56圆整球面
是是是已知故障识别率/%
87.686.483.2新故障识别率/%
73.471.270.7
第5期罗键等:
一种改进支持向量域数据描述方法及其应用
1969.
661
TEP故障诊断实验验证本文算法,实验结果证明了该方法的有效性,即通过核参数优化和球形面的圆整之后,SVDD的性能有较大的提高.
尽管本文从上述两方面对SVDD进行改进,但是对于参数C的选择还是没有一个有效的方法,本文的下一步工作就是利用核小波分析来优化参数C的选择.
[7]EdwinFBeckenbach,ArthurErdlyi,MagnusRHeste
nes.Modernmathematicsfortheengineer[M].NewYork:
McGrawHill,1961.
[8]ScholkopfB,SmolaA,MullerKR.Nonlinearcomponent
analysisaskerneleigenvalueproblem[J].NeuralComputation,1998,10(6):
1299-1319.
[9]MikeS,ScholkopfB,SmolaA.KernelPCAanddenoi
singinfeaturespace[J].AdvancesinNeuralInformationProcessingSystems,1999,11
(1):
524-536.
[10]HyvarinenA.Newapproximationsofdifferentialentro
pyforindependentcomponentanalysisandprojectionpursuit[C]//TheProceedingofAdvancesinNeuralInformationProcessingSystems.Cambridge:
MITPress,1998,10:
273-293.
[11]AmariA,CichockiA,YangHH.Anewlearningalgo
rithmforblindsourceseparation[C]//ProceedingsofAdvancesinNeuralInformationProcessingSystem.Cambridge:
MITPress,1996,8:
757-763.
[12]ChenGT,McavoyJ.Predictiveonlinemonitoringof
continuousprocess[J].JournalofProcessControl,1999,8:
409-420.
[13]DownsJJ,VogelEF.Aplantwideindustrialprocess
controlproblem[J].Computers&ChemicalEngineering,1993,17:
245-255.
参考文献:
[1]DavidT,RobertD.Supportvectordatadescription[J].
PatternRecognitionLetters,1999,20(11):
1191-1199.[2]TaxD.Oneclassclassification[D].Netherlands:
DelftU
niversityofTechnology,2001.
[3]BaudatG,AnouarF.Generalizeddiscriminantanalysisu
singakernelapproach[J].NeuralComputation,2000,12
(1):
2385-2404.
[4]赵峰,张军英,刘敬.一种改善支撑向量域描述性能的核
优化算法[J].自动化学报,2008,34(9):
12-19.
[5]JanPoland.Threedifferentalgorithmsforgeneratinguni
formlydistributedrandompointsontheNsphere[EB/OL].(20001024)[20081230]http:
//www.alg.ist.hokudai.ac.jp/~jan/randsphere.pdf.
[6]KnuthDE.Theartofcomputerprogramming,Vol.2:
seminumericalalgorithms[M].USA:
AddisonWesley,
AnImprovedSupportVectorDataDescription
MethodandItsApplication
LUOJian,ZHUANGJinfa,LIBo,WUChangqing,HUANGChunqing
(SchoolofInformationScienceandTechnology,XiamenUniversity,Xiamen361005,China)
Abstract:
Toaddresstheproblemofkernelparameterselectionandregulatingdecisionboundaryinsupportvectordatadescription
(SVDD),thispaperproposesanewalgorithm.AccordingtothecharacteristicofSVDD,theproposedalgorithmutilizesthenonGaussiantomeasurehowkernelsamplesapproximatetoasphericalarea,andthen