线性判别函数.ppt
《线性判别函数.ppt》由会员分享,可在线阅读,更多相关《线性判别函数.ppt(68页珍藏版)》请在冰点文库上搜索。
第四章线性判别函数,主要内容:
非参数判别分类器的基本原理,与参数判别分类方法的比较线性分类器三种典型的线性分类器:
fisher准则,感知器,SVM两类与多类判别方法非线性判别方法,4.1引言,参数判别方法:
非参数判别方法:
缺陷:
获取统计分布及参数非常困难,4.1引言,4.2线性判别函数和判定面,最简单的判别函数是线性函数,相应的分类面是超平面,线性判别函数:
由x的各个分量的线性组合构成的函数,
(1),w:
权向量,w0:
阀值权或偏置,4.2线性判别函数和判定面,两类情况:
4.2线性判别函数和判定面,将x表示为:
xp:
是x在H上的投影向量,r是x到H的算术距离,4.2线性判别函数和判定面,结论:
1.g(x)正比于点x到超平面的算术距离(带符号)2.点x属于w1时,r为正3.点x属于w2时,r为负,4.2线性判别函数和判定面,4.2线性判别函数和判定面,多类情况:
对c类问题:
,且c3法一(c个二分法):
通过唯一一个线性判别函数,将属于i类的模式与其余不属于i类的模式分开。
对于c类问题,需要c个判别函数。
即:
,,,,且,C个判别函数把特征空间分成C个问题。
特点:
有不确定区域及模糊区域,类型越多,不确定区域越多。
不能直接根据判断:
4.2线性判别函数和判定面,4.2线性判别函数和判定面,判决准则:
若:
则:
且,,,,,有一个模式样本,试判断该样本的类别。
解:
把样本X分别代入上面的判别函数得:
,,,,根据判别规则,因此,判决结果为:
例如:
对三类问题,分别建立三个判别函数,4.2线性判别函数和判定面,法二(个二分法):
对c个类型中的任意两个类型wi和wj建立一个判别函数,决策面方程,能把这两个类型区分开,但对其他类型则不提供任何信息。
判别函数具有性质:
把c类问题转变为两类问题,与第一种情况不同的是,两类问题的数目不是c个,而是个,并且每个两类问题不是而是,4.2线性判别函数和判定面,判决准则:
若:
则,例如:
对一个三类问题c=3,需要建立3个判决函数和和。
为了确定,必须考察和,且要0,0。
同样对于w2,必须满足和,对于w3必须满足:
和,4.2线性判别函数和判定面,例:
设一个三类问题,有如下判决函数,,,,,现有模式样本,试判断该样本类别:
解:
把样本代入判决函数:
,,,,因此,及,所以:
4.2线性判别函数和判定面,法三:
对c种类型中的每一种类型,均建立一个判决函数,即:
,为了区分出其中的某一个类型wi需要k个判决函数,如果满足:
,,,,则:
对不同的wi,k的取值可能不同。
判决规则也可以写成:
若满足,则,即最大值判决规则。
关于k值的选取:
有5个不同类型,决策面是分段线性的区分超平面。
类型w1与其余4个类型均相邻w2与2个类型相邻(w1,w3),w5与3个类型相邻(w1,w3,w4)。
k的选取取决于所考察的类型与几个类型相邻。
如w1,k=4;w2,k=2;w5,k=3。
4.2线性判别函数和判定面,假定c个类型在特征空间里均相邻,即k=c。
由于:
(1),
(2),且:
(3),上两式与第二种情况中的两个表达式完全一致。
但是,这里的
(2)式来源于
(1)式,对于c个类型来说,独立方程式为c-1个,而非c(c-1)/2个。
尽管有此差别,第三种情况的判别式与第二种情况的判别式相同。
因此,第三种情况此时也被转变成二分法问题。
例如,假定c=3,且已有3个判决函数,满足最大值判决规则。
已知:
4.2线性判别函数和判定面,三个类型区域均相邻。
有:
由:
所以是和的线性组合。
即和是独立的,是不独立的,且在二维空间理,三个判决函数必须相交于一点。
由三个类别的分布情况来看,它们满足第二种情况的判决规则,且无不确定区。
4.2线性判别函数和判定面,例:
设一个三类问题,按最大值规则建立了3个判决函数。
今有模式样本x=(0,2)T,试判别该模式属于哪一类?
解:
将x=(0,2)T代入3个判决函数,按最大值规则,。
由于3个类相邻,也可用第三种情况的推导出的方法求。
4.3设计线性分类器的步骤,线性可分对于一个已知容量为N的样本集,如果有一个线性分类器能把每一个样本正确分类,则称这组样本集是线性可分的。
在一个d维的特征空间中,,线性判别函数的一般表示为:
其中:
称为加权量,则:
称为增广模式。
称为增广加权向量。
则有:
对于两类问题:
若,则,两类之间的判定面方程为:
。
在线性可分情况下,它是一个区分超平面。
训练样本集:
x=x1,x2,xn,由训练样本集x所确定的加权向量称为解向量w*。
解向量特性
(1)一般不唯一。
(2)每个训练样本都对解区提供一个限制。
样本越多,限制越严,越可靠,越是靠近解区的中心。
越可靠,意味着分类错误越小。
4.3设计线性分类器的步骤,确定线性分类器的步骤第一步:
采集训练样本,构成训练样本集。
其中每个样本的属性是预知的,而且样本已经经过变换/选择,得到对分类最有效的d个特征。
第二步:
确定一个准则,满足
(1),
(2)能反映分类器的性能,且对于J的权值w*,所得分类器最优。
第三步:
求的权值,得到解向量w*,同时设计求解w的最优算法。
一旦得到w*,训练实验的任务就完成了。
4.3设计线性分类器的步骤,4.4感知器,感知器(perceptron)是一个具有单层计算单元的人工神经网络。
感知器模型感知器实质上是一种神经元模型,是一个多输入/单输出的非线性器件。
4.4感知器,输出函数:
也可表示为:
其中:
模型特点:
神经元之间的耦合程度可变,各个权值wi可以通过训练/学习来调整,从而实现线性可分函数。
4.4感知器,感知器训练算法,则:
感知器训练算法实现:
设训练样本集,每个样本,分别属于类型wi或wj,且xk类别属性已知。
为了确定加权向量w*,执行:
给定初始值:
置k=0,分别给每个权向量赋任意值,可选常数。
输入训练样本计算判决函数值:
4.4感知器,修正权向量w(k),修正规则如下:
若:
若:
如果类型wj的训练样本的各分量均乘以
(1),则修正规则统一为:
若:
令k=k+1,返回。
直到w对所有训练样本均稳定不变,则结束。
一般情况,。
c值太小会影响收敛速度和稳定性,c太小收敛速度慢,c太大,会使的值不稳定。
4.4感知器,例:
一个两类问题,4个训练样本。
W1:
(0,0)T,(0,1)TW2:
(1,0)T,(1,1)T用感知器求权向量。
解:
将训练样本变为增广型的,W2样本乘以(-1),得到4个样本:
增广向量:
令:
4.4感知器,4.4感知器,从k=1316的结果可以看出,使用w(13)已经能对所有训练样本正确分类,也就是算法收敛于w(13)。
w(13)即为解向量。
分界面:
即:
,如上图所示。
W*是不唯一的,W*属于解集空间。
感知器训练算法的收敛性若训练样本是线性可分的,则感知器训练算法在有限次迭代后,可以收敛到正确的解向量。
证明:
假定:
(1)对每个样本进行归一化处理,变为单位向量。
(2)取常数c=0,取初值。
(3)对来自的训练样本的各个分量均乘以(-1)。
对感知器算法修改为:
置k=0,选初值w(0)=0,c=1,给较小正数T。
输入训练样本xk,计算:
判断:
若,返回,否则继续。
令若所有样本均不进入,则算法结束。
从算法中可以看出:
返回,两边乘以解向量w*:
(由算法的知道),由于:
归一化:
4.4感知器,4.4感知器,因此:
分别计算出,代入上式得:
令:
c(k)表示两个向量w*与w(k)之间的夹角余弦,则:
又因为:
,令:
则有:
所以,k是一个有限的值,步骤仅需有限次数就可以得到w*。
即在线性可分的情况下,感知器训练算法一定收敛。
正数T越小,则收敛越慢(k值越大)。
4.4感知器,感知器训练算法在多类问题中的应用(推广)在前面介绍的多类问题中的第三种情况是没有不确定区域的,对于c种类型中的某一种类型wi,存在k个判决函数,如果样本,则,其中k取决于在特征空间中与wi类型相邻的类型数目,。
采用感知器训练算法求解上面这种情况的权向量的解向量w*,实现步骤为:
赋给初始值:
分别赋给c个权向量任意的初值,选择正常数c,把训练样本变为增广型模式向量,置k=0。
输入训练样本,假定计算c个判决函数值:
修正权向量。
修正规则为:
若:
4.4感知器,若:
令k=k+1,返回。
直到所有的权向量对所有训练样本都稳定不变时结束。
只要模式样本线性可分,则算法迭代有限次后收敛。
例:
已知三类训练样本:
w1=(0,0)T,w2=(1,1)T,w3=(-1,1)T试求解,。
解:
训练样本变成增广型模式向量:
x的下标就是它所属类型,且没有一个样本乘以(-1)。
置K=0,c=1。
赋初值:
开始迭代:
4.4感知器,所以:
所以:
4.4感知器,所以:
所以:
4.4感知器,所以:
所以:
因此,可得到3个解向量:
对应的三个判决函数,练习:
根据上面的判决函数结果,求出各个分界面方程,并在坐标图上表示出来。
4.5最小平方误差准则函数与H-K算法,最小平方误差准则任意给定一个小的正数b,则可在线性判别方程的解区里寻找一个解向量w,使之满足:
,假定有n个训练样本,则可以写成n个联立方程组:
其中:
上式方程组可化简为:
,x为训练样本的增广矩阵:
n1+n2=n,则x为N(d+1)维矩正,一般n(d+1),b为n维列向量,w为d+1维列向量。
求解w:
(1)如果w是非奇异的,则:
。
(2)寻找w,使xw-b的差值最小。
误差向量定义:
平方误差准则函数:
约束条件:
要使得到的解w就是解向量w*,必须保证,求解误差平方和最小的解:
令:
,得到,用,代入,得到:
为x的“伪逆矩正”,如果x是方正且非奇异的,这个“伪逆矩正”就是x的逆矩正。
W*是伪逆解。
使用梯度下降法建立b的迭代式:
使用固定增量法,c为大于0的常数。
由,得:
令:
这就是最小的条件。
求解b:
对b的前后两次迭代来说,b为正值,又,则b的增量应该是:
即:
引入误差向量:
,则有:
将,代入,则有:
这就是LMSE(LeastMeanSquareError)算法,即最小平方误差算法,也被简称为HK(Ho-Kashyap)算法。
其主要内容为:
H-K算法该算法的步骤如下:
由训练样本集构成增广矩阵X,求伪逆赋初值b
(1),应使其各分量为正值。
选常数c,置k=1。
计算:
判断:
若的各分量停止变为正值或者不是全部为0,则线性不可分,中止迭代。
否则,若的各分量均接近于0,即,则迭代过程完成。
否则算法继续。
计算:
令k=k+1,返回,注意:
第步中,可以先计算b(k+1),然后再由公式,求,该算法没有给出精确的迭代次数,通常在每次迭代后均对xw(k)和ek进行检查,当xw(k)0或ek=0,则有解。
反之,若ek变为非正,则迭代停止,表明模式样本线性不可分。
H-K算法与感知器算法的比较:
H-K算法能够监视迭代过程,能发现线性不可分的情况,从而可以及早退出迭代,或删除造成线性不可分的样本。
而感知器算法对线性不可分的情况将会来回摆动,只要计算过程不中止,就始终不收敛,从而造成时间上的浪费。
例4-5.1:
已知两类的训练样本:
w1:
(0,0)T(0,1)T,w2:
(1,0)T(1,1)T,试用H-K算法求解权向量w*。
解:
训练样本的增广矩阵:
求x的伪逆矩阵得:
令c=1,则,误差向量:
由于ek的各分量都为0,则w
(1)就是权解向量,所以判定面方程:
例4-5.2已知两类的训练样本w1:
(0,0)T(1,1)T,w2:
(0,1)T(1,0)T试用H-K算法求解向量w*。
解:
训练样本的增广矩阵:
求x的伪逆矩阵得:
令c=1,,则,误差向量:
e1的各分量都为负,则样本线性不可分。
中止迭代。
H-K算法的多类推广由于多类问题可以简化为多个两类问题,在这儿我们可以利用多类问题的第一种情况,将c类问题简化为c个两类问题,分别对c个两类问题进行训练,得到c个权向量解w*,从而得到c个判决函数。
注意在训练过程中样本的选择,在除类wi之外的训练样本中适当抽取足够的样本,与wi类的样本一起共同构成训练样本集Xi。
多类问题的H-K算法:
由训练样本集Xi的样本建立增广矩阵xi,并求伪逆:
赋给初值。
选常数c,置k=1计算:
判断:
若ek的各分量停止变为正值或者不是全部为0,则线性不可分,中止迭代。
否则若ek的各分量均接近于0,即则迭代过程结束,得到解向量,否则:
计算:
令k=k+1,返回,说明:
算法中,令分别进行c次训练,得到c个解向量和c个判决函数。
4.6Fisher线性判别函数,Fisher线性判别函数的提出:
在用统计方法进行模式识别时,许多问题涉及到维数,在低维空间行得通的方法,在高维空间往往行不通。
因此,降低维数就成为解决实际问题的关键。
Fisher的方法,就是解决维数压缩问题。
考虑把d维空间中的数据点投影到一条直线上去的问题,需要解决的两个问题:
(1)怎样找到最好的投影直线方向;
(2)怎样向这个方向实现投影,这个投影变换就是要寻求的解向量w*。
这两个问题就是Fisher方法要解决的基本问题。
图(a)所选的投影直线不能区分样本,而(b)可以。
w1,w2,Fisher准则函数,Fisher准则函数的基本思路:
向量W的方向选择应能使两类样本投影的均值之差尽可能大些,而使类内样本的离散程度尽可能小。
基本参量定义:
1.样本在d维特征空间的一些描述量
(1)各类样本均值向量mi,
(2)样本类内离散度矩阵Si与总类内离散度矩阵Sw,(4.6-1),(4.6-2),(4.6-3),(3)样本类间离散度矩阵Sb,(4.6-4),2在一维投影Y空间
(1)各类样本均值,
(2)样本类内离散度和总类内离散度,(4.6-5),(4.6-6),(4.6-7),根据Fisher选择投影方向W的原则,使原样本向量在该方向上的投影能兼顾类间分布尽可能分开,类内样本投影尽可能密集的要求,用来评价投影方向W的函数为:
(4.6-8),将上式化为w的显函数形式:
(4.6-9),所以的分子项为:
(4.2.5-8),(4.6-10),同样也可推出与W的关系,所以:
(4.6-11),所以可以表示为:
(4.6-12),求解最佳,求最佳就是对(4.6-12)求取其达极大值时的。
可以采用拉格朗日乘子算法解决,保持(4.6-12)式分母为一非零常数c的条件下,求其分子项的极大值。
设计拉格朗日函数为:
(4.2.5-13),按拉格朗日算法对(4.6-13)式求对W的偏导数,且令其在时为零,得:
则有:
(4.6-14),由于Sw非奇异,将(4.6-14)两边乘以Sw-1得,(4.6-15),又因为:
其中是一个数量,可用数值R表示,则(4.6-16)式可写成,(4.6-16),代入到(4.6-15)得:
(4.6-17),我们关心的只是向量的方向,其数值大小对分类器没有影响。
因此在忽略了数值因子后,可得,向量就是使Fisher准则函数达极大值的解,也就是按Fisher准则将d维X空间投影到一维Y空间的最佳投影方向,该向量的各分量值是对原d维特征向量求加权和的权值。
(4.6-18),Fisher算法实现步骤,由Fisher判别式:
求解的步骤:
把来自两类的训练样本集X分成分别属于类w1和w2两个子集X1和X2,由,计算,由,计算各类的类内离散度矩阵,计算类内总离散度矩阵,计算的逆矩阵,由,求解,判别函数的确定,确定,的方法:
(1):
(2):
(3):
当与已知时可用,(4.6-19),(4.6-20),(4.6-22),当W0确定之后,则可按以下规则分类,(4.6-21),例题:
设两类样本的类内离散矩阵分别为,使用Fisher准则求决策面方程。
解:
4.7广义线性判别函数,将非线性判别函数转化成广义线性判别函数,a、b为两类的分界点。
其中:
判决规则为:
若xb,g(x)0,则若axb,g(x)0,则,将g(x)进行线性化变换:
令,则g(x)可改写为:
其中:
在y的特征空间里,区分直线为:
,如下图:
区分直线把y空间线性地划分为两个类型区域w1和w2,判决规则为:
若:
对样本x的测量值:
先进行非线性变换,计算g(x)之值,判决类别,总结:
通过线性变换,非线性函数g(x)转化成了线性函数g(y),同时,特征空间也由一维的x空间变成二维的y特征空间,线性变换常常会增加特征空间的维数。
当非判决函数为线性判决之后,其中权向量w可以用感知器、HK、Fisher等算法来求解。
4.8非线性判别函数,非线性判别函数与分段线性判别函数,分段线性判别函数设计中首先要解决的问题:
分段线性判别函数的分段段数问题,这是一个与样本集分布有关的问题。
分段段数过少,就如上图中用一个线性判别函数(段数为1)的情况,其分类效果必然要差;但段数又要尽可能少,以免分类判别函数过于复杂,增加分类决策的计算量。
在有些实际的分类问题中,同一类样本可以用若干个子类来描述,这些子类的数目就可作为确定分段段数的依据。
但多数情况下样本分布及合适子类划分并不知道,则往往需要采用一种聚类的方法将样本划分成相对密集的子类,然后用各种方法设计各段线性判别函数。
分段线性判别函数的一般形式可定义为:
(4.8-1),其中表示第i类第l段线性判别函数,li为i类所具有的判别函数个数,与分别是第l段的权向量与阈值权。
相应的判别规则是:
其中:
(4.8-2),则决策:
则称为第i类的判别函数。
决策面方程取决于相邻的决策域,如第i类的第n个子类与第j类的第m个子类相邻,则由它们共同决定的决策面方程为:
(4.8-3),基于距离的分段线性判别函数,前面讨论过正态分布条件下,两类别问题在各特征统计独立、同方差、且先验概率相等情况下,最小错误率决策可按最小距离决策,即,(4.8-4),其中与为各类的均值。
基于距离的线性判别,(a),(b),图(a)用每个类的特征向量的均值作为各类的代表点图(b)先把各类分成分布相对集中的几个子类,每个子类用子类的特征向量的均值作为各类的代表点。
即:
如果对于i有li个子类,则有li个代表点,或者说把属于i的决策域Ri分成li个子域,即,对每个子区域Ril均值用mil表示,并以此作为该子区域的代表点,则判别函数定义为:
判别规则是:
这种分类器就称为分段线性距离分类器。