线性判别函数.ppt

上传人:wj 文档编号:10307383 上传时间:2023-05-25 格式:PPT 页数:68 大小:1.13MB
下载 相关 举报
线性判别函数.ppt_第1页
第1页 / 共68页
线性判别函数.ppt_第2页
第2页 / 共68页
线性判别函数.ppt_第3页
第3页 / 共68页
线性判别函数.ppt_第4页
第4页 / 共68页
线性判别函数.ppt_第5页
第5页 / 共68页
线性判别函数.ppt_第6页
第6页 / 共68页
线性判别函数.ppt_第7页
第7页 / 共68页
线性判别函数.ppt_第8页
第8页 / 共68页
线性判别函数.ppt_第9页
第9页 / 共68页
线性判别函数.ppt_第10页
第10页 / 共68页
线性判别函数.ppt_第11页
第11页 / 共68页
线性判别函数.ppt_第12页
第12页 / 共68页
线性判别函数.ppt_第13页
第13页 / 共68页
线性判别函数.ppt_第14页
第14页 / 共68页
线性判别函数.ppt_第15页
第15页 / 共68页
线性判别函数.ppt_第16页
第16页 / 共68页
线性判别函数.ppt_第17页
第17页 / 共68页
线性判别函数.ppt_第18页
第18页 / 共68页
线性判别函数.ppt_第19页
第19页 / 共68页
线性判别函数.ppt_第20页
第20页 / 共68页
亲,该文档总共68页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

线性判别函数.ppt

《线性判别函数.ppt》由会员分享,可在线阅读,更多相关《线性判别函数.ppt(68页珍藏版)》请在冰点文库上搜索。

线性判别函数.ppt

第四章线性判别函数,主要内容:

非参数判别分类器的基本原理,与参数判别分类方法的比较线性分类器三种典型的线性分类器:

fisher准则,感知器,SVM两类与多类判别方法非线性判别方法,4.1引言,参数判别方法:

非参数判别方法:

缺陷:

获取统计分布及参数非常困难,4.1引言,4.2线性判别函数和判定面,最简单的判别函数是线性函数,相应的分类面是超平面,线性判别函数:

由x的各个分量的线性组合构成的函数,

(1),w:

权向量,w0:

阀值权或偏置,4.2线性判别函数和判定面,两类情况:

4.2线性判别函数和判定面,将x表示为:

xp:

是x在H上的投影向量,r是x到H的算术距离,4.2线性判别函数和判定面,结论:

1.g(x)正比于点x到超平面的算术距离(带符号)2.点x属于w1时,r为正3.点x属于w2时,r为负,4.2线性判别函数和判定面,4.2线性判别函数和判定面,多类情况:

对c类问题:

,且c3法一(c个二分法):

通过唯一一个线性判别函数,将属于i类的模式与其余不属于i类的模式分开。

对于c类问题,需要c个判别函数。

即:

,,,,且,C个判别函数把特征空间分成C个问题。

特点:

有不确定区域及模糊区域,类型越多,不确定区域越多。

不能直接根据判断:

4.2线性判别函数和判定面,4.2线性判别函数和判定面,判决准则:

若:

则:

且,,,,,有一个模式样本,试判断该样本的类别。

解:

把样本X分别代入上面的判别函数得:

,,,,根据判别规则,因此,判决结果为:

例如:

对三类问题,分别建立三个判别函数,4.2线性判别函数和判定面,法二(个二分法):

对c个类型中的任意两个类型wi和wj建立一个判别函数,决策面方程,能把这两个类型区分开,但对其他类型则不提供任何信息。

判别函数具有性质:

把c类问题转变为两类问题,与第一种情况不同的是,两类问题的数目不是c个,而是个,并且每个两类问题不是而是,4.2线性判别函数和判定面,判决准则:

若:

则,例如:

对一个三类问题c=3,需要建立3个判决函数和和。

为了确定,必须考察和,且要0,0。

同样对于w2,必须满足和,对于w3必须满足:

和,4.2线性判别函数和判定面,例:

设一个三类问题,有如下判决函数,,,,,现有模式样本,试判断该样本类别:

解:

把样本代入判决函数:

,,,,因此,及,所以:

4.2线性判别函数和判定面,法三:

对c种类型中的每一种类型,均建立一个判决函数,即:

,为了区分出其中的某一个类型wi需要k个判决函数,如果满足:

,,,,则:

对不同的wi,k的取值可能不同。

判决规则也可以写成:

若满足,则,即最大值判决规则。

关于k值的选取:

有5个不同类型,决策面是分段线性的区分超平面。

类型w1与其余4个类型均相邻w2与2个类型相邻(w1,w3),w5与3个类型相邻(w1,w3,w4)。

k的选取取决于所考察的类型与几个类型相邻。

如w1,k=4;w2,k=2;w5,k=3。

4.2线性判别函数和判定面,假定c个类型在特征空间里均相邻,即k=c。

由于:

(1),

(2),且:

(3),上两式与第二种情况中的两个表达式完全一致。

但是,这里的

(2)式来源于

(1)式,对于c个类型来说,独立方程式为c-1个,而非c(c-1)/2个。

尽管有此差别,第三种情况的判别式与第二种情况的判别式相同。

因此,第三种情况此时也被转变成二分法问题。

例如,假定c=3,且已有3个判决函数,满足最大值判决规则。

已知:

4.2线性判别函数和判定面,三个类型区域均相邻。

有:

由:

所以是和的线性组合。

即和是独立的,是不独立的,且在二维空间理,三个判决函数必须相交于一点。

由三个类别的分布情况来看,它们满足第二种情况的判决规则,且无不确定区。

4.2线性判别函数和判定面,例:

设一个三类问题,按最大值规则建立了3个判决函数。

今有模式样本x=(0,2)T,试判别该模式属于哪一类?

解:

将x=(0,2)T代入3个判决函数,按最大值规则,。

由于3个类相邻,也可用第三种情况的推导出的方法求。

4.3设计线性分类器的步骤,线性可分对于一个已知容量为N的样本集,如果有一个线性分类器能把每一个样本正确分类,则称这组样本集是线性可分的。

在一个d维的特征空间中,,线性判别函数的一般表示为:

其中:

称为加权量,则:

称为增广模式。

称为增广加权向量。

则有:

对于两类问题:

若,则,两类之间的判定面方程为:

在线性可分情况下,它是一个区分超平面。

训练样本集:

x=x1,x2,xn,由训练样本集x所确定的加权向量称为解向量w*。

解向量特性

(1)一般不唯一。

(2)每个训练样本都对解区提供一个限制。

样本越多,限制越严,越可靠,越是靠近解区的中心。

越可靠,意味着分类错误越小。

4.3设计线性分类器的步骤,确定线性分类器的步骤第一步:

采集训练样本,构成训练样本集。

其中每个样本的属性是预知的,而且样本已经经过变换/选择,得到对分类最有效的d个特征。

第二步:

确定一个准则,满足

(1),

(2)能反映分类器的性能,且对于J的权值w*,所得分类器最优。

第三步:

求的权值,得到解向量w*,同时设计求解w的最优算法。

一旦得到w*,训练实验的任务就完成了。

4.3设计线性分类器的步骤,4.4感知器,感知器(perceptron)是一个具有单层计算单元的人工神经网络。

感知器模型感知器实质上是一种神经元模型,是一个多输入/单输出的非线性器件。

4.4感知器,输出函数:

也可表示为:

其中:

模型特点:

神经元之间的耦合程度可变,各个权值wi可以通过训练/学习来调整,从而实现线性可分函数。

4.4感知器,感知器训练算法,则:

感知器训练算法实现:

设训练样本集,每个样本,分别属于类型wi或wj,且xk类别属性已知。

为了确定加权向量w*,执行:

给定初始值:

置k=0,分别给每个权向量赋任意值,可选常数。

输入训练样本计算判决函数值:

4.4感知器,修正权向量w(k),修正规则如下:

若:

若:

如果类型wj的训练样本的各分量均乘以

(1),则修正规则统一为:

若:

令k=k+1,返回。

直到w对所有训练样本均稳定不变,则结束。

一般情况,。

c值太小会影响收敛速度和稳定性,c太小收敛速度慢,c太大,会使的值不稳定。

4.4感知器,例:

一个两类问题,4个训练样本。

W1:

(0,0)T,(0,1)TW2:

(1,0)T,(1,1)T用感知器求权向量。

解:

将训练样本变为增广型的,W2样本乘以(-1),得到4个样本:

增广向量:

令:

4.4感知器,4.4感知器,从k=1316的结果可以看出,使用w(13)已经能对所有训练样本正确分类,也就是算法收敛于w(13)。

w(13)即为解向量。

分界面:

即:

,如上图所示。

W*是不唯一的,W*属于解集空间。

感知器训练算法的收敛性若训练样本是线性可分的,则感知器训练算法在有限次迭代后,可以收敛到正确的解向量。

证明:

假定:

(1)对每个样本进行归一化处理,变为单位向量。

(2)取常数c=0,取初值。

(3)对来自的训练样本的各个分量均乘以(-1)。

对感知器算法修改为:

置k=0,选初值w(0)=0,c=1,给较小正数T。

输入训练样本xk,计算:

判断:

若,返回,否则继续。

令若所有样本均不进入,则算法结束。

从算法中可以看出:

返回,两边乘以解向量w*:

(由算法的知道),由于:

归一化:

4.4感知器,4.4感知器,因此:

分别计算出,代入上式得:

令:

c(k)表示两个向量w*与w(k)之间的夹角余弦,则:

又因为:

,令:

则有:

所以,k是一个有限的值,步骤仅需有限次数就可以得到w*。

即在线性可分的情况下,感知器训练算法一定收敛。

正数T越小,则收敛越慢(k值越大)。

4.4感知器,感知器训练算法在多类问题中的应用(推广)在前面介绍的多类问题中的第三种情况是没有不确定区域的,对于c种类型中的某一种类型wi,存在k个判决函数,如果样本,则,其中k取决于在特征空间中与wi类型相邻的类型数目,。

采用感知器训练算法求解上面这种情况的权向量的解向量w*,实现步骤为:

赋给初始值:

分别赋给c个权向量任意的初值,选择正常数c,把训练样本变为增广型模式向量,置k=0。

输入训练样本,假定计算c个判决函数值:

修正权向量。

修正规则为:

若:

4.4感知器,若:

令k=k+1,返回。

直到所有的权向量对所有训练样本都稳定不变时结束。

只要模式样本线性可分,则算法迭代有限次后收敛。

例:

已知三类训练样本:

w1=(0,0)T,w2=(1,1)T,w3=(-1,1)T试求解,。

解:

训练样本变成增广型模式向量:

x的下标就是它所属类型,且没有一个样本乘以(-1)。

置K=0,c=1。

赋初值:

开始迭代:

4.4感知器,所以:

所以:

4.4感知器,所以:

所以:

4.4感知器,所以:

所以:

因此,可得到3个解向量:

对应的三个判决函数,练习:

根据上面的判决函数结果,求出各个分界面方程,并在坐标图上表示出来。

4.5最小平方误差准则函数与H-K算法,最小平方误差准则任意给定一个小的正数b,则可在线性判别方程的解区里寻找一个解向量w,使之满足:

,假定有n个训练样本,则可以写成n个联立方程组:

其中:

上式方程组可化简为:

,x为训练样本的增广矩阵:

n1+n2=n,则x为N(d+1)维矩正,一般n(d+1),b为n维列向量,w为d+1维列向量。

求解w:

(1)如果w是非奇异的,则:

(2)寻找w,使xw-b的差值最小。

误差向量定义:

平方误差准则函数:

约束条件:

要使得到的解w就是解向量w*,必须保证,求解误差平方和最小的解:

令:

,得到,用,代入,得到:

为x的“伪逆矩正”,如果x是方正且非奇异的,这个“伪逆矩正”就是x的逆矩正。

W*是伪逆解。

使用梯度下降法建立b的迭代式:

使用固定增量法,c为大于0的常数。

由,得:

令:

这就是最小的条件。

求解b:

对b的前后两次迭代来说,b为正值,又,则b的增量应该是:

即:

引入误差向量:

,则有:

将,代入,则有:

这就是LMSE(LeastMeanSquareError)算法,即最小平方误差算法,也被简称为HK(Ho-Kashyap)算法。

其主要内容为:

H-K算法该算法的步骤如下:

由训练样本集构成增广矩阵X,求伪逆赋初值b

(1),应使其各分量为正值。

选常数c,置k=1。

计算:

判断:

若的各分量停止变为正值或者不是全部为0,则线性不可分,中止迭代。

否则,若的各分量均接近于0,即,则迭代过程完成。

否则算法继续。

计算:

令k=k+1,返回,注意:

第步中,可以先计算b(k+1),然后再由公式,求,该算法没有给出精确的迭代次数,通常在每次迭代后均对xw(k)和ek进行检查,当xw(k)0或ek=0,则有解。

反之,若ek变为非正,则迭代停止,表明模式样本线性不可分。

H-K算法与感知器算法的比较:

H-K算法能够监视迭代过程,能发现线性不可分的情况,从而可以及早退出迭代,或删除造成线性不可分的样本。

而感知器算法对线性不可分的情况将会来回摆动,只要计算过程不中止,就始终不收敛,从而造成时间上的浪费。

例4-5.1:

已知两类的训练样本:

w1:

(0,0)T(0,1)T,w2:

(1,0)T(1,1)T,试用H-K算法求解权向量w*。

解:

训练样本的增广矩阵:

求x的伪逆矩阵得:

令c=1,则,误差向量:

由于ek的各分量都为0,则w

(1)就是权解向量,所以判定面方程:

例4-5.2已知两类的训练样本w1:

(0,0)T(1,1)T,w2:

(0,1)T(1,0)T试用H-K算法求解向量w*。

解:

训练样本的增广矩阵:

求x的伪逆矩阵得:

令c=1,,则,误差向量:

e1的各分量都为负,则样本线性不可分。

中止迭代。

H-K算法的多类推广由于多类问题可以简化为多个两类问题,在这儿我们可以利用多类问题的第一种情况,将c类问题简化为c个两类问题,分别对c个两类问题进行训练,得到c个权向量解w*,从而得到c个判决函数。

注意在训练过程中样本的选择,在除类wi之外的训练样本中适当抽取足够的样本,与wi类的样本一起共同构成训练样本集Xi。

多类问题的H-K算法:

由训练样本集Xi的样本建立增广矩阵xi,并求伪逆:

赋给初值。

选常数c,置k=1计算:

判断:

若ek的各分量停止变为正值或者不是全部为0,则线性不可分,中止迭代。

否则若ek的各分量均接近于0,即则迭代过程结束,得到解向量,否则:

计算:

令k=k+1,返回,说明:

算法中,令分别进行c次训练,得到c个解向量和c个判决函数。

4.6Fisher线性判别函数,Fisher线性判别函数的提出:

在用统计方法进行模式识别时,许多问题涉及到维数,在低维空间行得通的方法,在高维空间往往行不通。

因此,降低维数就成为解决实际问题的关键。

Fisher的方法,就是解决维数压缩问题。

考虑把d维空间中的数据点投影到一条直线上去的问题,需要解决的两个问题:

(1)怎样找到最好的投影直线方向;

(2)怎样向这个方向实现投影,这个投影变换就是要寻求的解向量w*。

这两个问题就是Fisher方法要解决的基本问题。

图(a)所选的投影直线不能区分样本,而(b)可以。

w1,w2,Fisher准则函数,Fisher准则函数的基本思路:

向量W的方向选择应能使两类样本投影的均值之差尽可能大些,而使类内样本的离散程度尽可能小。

基本参量定义:

1.样本在d维特征空间的一些描述量

(1)各类样本均值向量mi,

(2)样本类内离散度矩阵Si与总类内离散度矩阵Sw,(4.6-1),(4.6-2),(4.6-3),(3)样本类间离散度矩阵Sb,(4.6-4),2在一维投影Y空间

(1)各类样本均值,

(2)样本类内离散度和总类内离散度,(4.6-5),(4.6-6),(4.6-7),根据Fisher选择投影方向W的原则,使原样本向量在该方向上的投影能兼顾类间分布尽可能分开,类内样本投影尽可能密集的要求,用来评价投影方向W的函数为:

(4.6-8),将上式化为w的显函数形式:

(4.6-9),所以的分子项为:

(4.2.5-8),(4.6-10),同样也可推出与W的关系,所以:

(4.6-11),所以可以表示为:

(4.6-12),求解最佳,求最佳就是对(4.6-12)求取其达极大值时的。

可以采用拉格朗日乘子算法解决,保持(4.6-12)式分母为一非零常数c的条件下,求其分子项的极大值。

设计拉格朗日函数为:

(4.2.5-13),按拉格朗日算法对(4.6-13)式求对W的偏导数,且令其在时为零,得:

则有:

(4.6-14),由于Sw非奇异,将(4.6-14)两边乘以Sw-1得,(4.6-15),又因为:

其中是一个数量,可用数值R表示,则(4.6-16)式可写成,(4.6-16),代入到(4.6-15)得:

(4.6-17),我们关心的只是向量的方向,其数值大小对分类器没有影响。

因此在忽略了数值因子后,可得,向量就是使Fisher准则函数达极大值的解,也就是按Fisher准则将d维X空间投影到一维Y空间的最佳投影方向,该向量的各分量值是对原d维特征向量求加权和的权值。

(4.6-18),Fisher算法实现步骤,由Fisher判别式:

求解的步骤:

把来自两类的训练样本集X分成分别属于类w1和w2两个子集X1和X2,由,计算,由,计算各类的类内离散度矩阵,计算类内总离散度矩阵,计算的逆矩阵,由,求解,判别函数的确定,确定,的方法:

(1):

(2):

(3):

当与已知时可用,(4.6-19),(4.6-20),(4.6-22),当W0确定之后,则可按以下规则分类,(4.6-21),例题:

设两类样本的类内离散矩阵分别为,使用Fisher准则求决策面方程。

解:

4.7广义线性判别函数,将非线性判别函数转化成广义线性判别函数,a、b为两类的分界点。

其中:

判决规则为:

若xb,g(x)0,则若axb,g(x)0,则,将g(x)进行线性化变换:

令,则g(x)可改写为:

其中:

在y的特征空间里,区分直线为:

,如下图:

区分直线把y空间线性地划分为两个类型区域w1和w2,判决规则为:

若:

对样本x的测量值:

先进行非线性变换,计算g(x)之值,判决类别,总结:

通过线性变换,非线性函数g(x)转化成了线性函数g(y),同时,特征空间也由一维的x空间变成二维的y特征空间,线性变换常常会增加特征空间的维数。

当非判决函数为线性判决之后,其中权向量w可以用感知器、HK、Fisher等算法来求解。

4.8非线性判别函数,非线性判别函数与分段线性判别函数,分段线性判别函数设计中首先要解决的问题:

分段线性判别函数的分段段数问题,这是一个与样本集分布有关的问题。

分段段数过少,就如上图中用一个线性判别函数(段数为1)的情况,其分类效果必然要差;但段数又要尽可能少,以免分类判别函数过于复杂,增加分类决策的计算量。

在有些实际的分类问题中,同一类样本可以用若干个子类来描述,这些子类的数目就可作为确定分段段数的依据。

但多数情况下样本分布及合适子类划分并不知道,则往往需要采用一种聚类的方法将样本划分成相对密集的子类,然后用各种方法设计各段线性判别函数。

分段线性判别函数的一般形式可定义为:

(4.8-1),其中表示第i类第l段线性判别函数,li为i类所具有的判别函数个数,与分别是第l段的权向量与阈值权。

相应的判别规则是:

其中:

(4.8-2),则决策:

则称为第i类的判别函数。

决策面方程取决于相邻的决策域,如第i类的第n个子类与第j类的第m个子类相邻,则由它们共同决定的决策面方程为:

(4.8-3),基于距离的分段线性判别函数,前面讨论过正态分布条件下,两类别问题在各特征统计独立、同方差、且先验概率相等情况下,最小错误率决策可按最小距离决策,即,(4.8-4),其中与为各类的均值。

基于距离的线性判别,(a),(b),图(a)用每个类的特征向量的均值作为各类的代表点图(b)先把各类分成分布相对集中的几个子类,每个子类用子类的特征向量的均值作为各类的代表点。

即:

如果对于i有li个子类,则有li个代表点,或者说把属于i的决策域Ri分成li个子域,即,对每个子区域Ril均值用mil表示,并以此作为该子区域的代表点,则判别函数定义为:

判别规则是:

这种分类器就称为分段线性距离分类器。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 幼儿教育 > 幼儿读物

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2