判别分析的基本原理.docx

上传人:b****4 文档编号:5891780 上传时间:2023-05-09 格式:DOCX 页数:23 大小:258.94KB
下载 相关 举报
判别分析的基本原理.docx_第1页
第1页 / 共23页
判别分析的基本原理.docx_第2页
第2页 / 共23页
判别分析的基本原理.docx_第3页
第3页 / 共23页
判别分析的基本原理.docx_第4页
第4页 / 共23页
判别分析的基本原理.docx_第5页
第5页 / 共23页
判别分析的基本原理.docx_第6页
第6页 / 共23页
判别分析的基本原理.docx_第7页
第7页 / 共23页
判别分析的基本原理.docx_第8页
第8页 / 共23页
判别分析的基本原理.docx_第9页
第9页 / 共23页
判别分析的基本原理.docx_第10页
第10页 / 共23页
判别分析的基本原理.docx_第11页
第11页 / 共23页
判别分析的基本原理.docx_第12页
第12页 / 共23页
判别分析的基本原理.docx_第13页
第13页 / 共23页
判别分析的基本原理.docx_第14页
第14页 / 共23页
判别分析的基本原理.docx_第15页
第15页 / 共23页
判别分析的基本原理.docx_第16页
第16页 / 共23页
判别分析的基本原理.docx_第17页
第17页 / 共23页
判别分析的基本原理.docx_第18页
第18页 / 共23页
判别分析的基本原理.docx_第19页
第19页 / 共23页
判别分析的基本原理.docx_第20页
第20页 / 共23页
亲,该文档总共23页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

判别分析的基本原理.docx

《判别分析的基本原理.docx》由会员分享,可在线阅读,更多相关《判别分析的基本原理.docx(23页珍藏版)》请在冰点文库上搜索。

判别分析的基本原理.docx

判别分析的基本原理

判别分析的基本原理和模型

一、判别分析概述

(一)什么是判别分析

判别分析是多元统计中用于判别样品所属类型的一种统计分析方法,是一种在已知研究

对象用某种方法已经分成若干类的情况下,确定新的样品属于哪一类的多元统计分析方法。

判别分析方法处理问题时,通常要给出用来衡量新样品与各已知组别的接近程度的指标,即判别函数,同时也指定一种判别准则,借以判定新样品的归属。

所谓判别准则是用于衡量新样品与各已知组别接近程度的理论依据和方法准则。

常用的有,距离准则、Fisher

准则、贝叶斯准则等。

判别准则可以是统计性的,如决定新样品所属类别时用到数理统计的

显著性检验,也可以是确定性的,如决定样品归属时,只考虑判别函数值的大小。

判别函数是指基于一定的判别准则计算出的用于衡量新样品与各已知组别接近程度的函数式或描述指标。

(二)判别分析的种类

按照判别组数划分有两组判别分析和多组判别分析;按照区分不同总体的所用数学模型

来分有线性判别分析和非线性判别分析;按照处理变量的方法不同有逐步判别、序贯判别等;

按照判别准则来分有距离准则、费舍准则与贝叶斯判别准则。

二、判别分析方法

(一)距离判别法

1•基本思想:

首先根据已知分类的数据,分别计算各类的重心,即分组(类)均值,

距离判别准则是对于任给一新样品的观测值,若它与第i类的重心距离最近,就认为它来自

第i类。

因此,距离判别法又称为最邻近方法(nearestneighbormethod)。

距离判别法

对各类总体的分布没有特定的要求,适用于任意分布的资料。

2•两组距离判别

两组距离判别的基本原理。

设有两组总体GA和GB,相应抽出样品个数为m,n2,(n,•n2)=n,每个样品观测p个指标得观测数据如下,

XiiA

X12A

XipA

x21(A)

X22A

X2pA

总体Ga的样本数据为:

a

一・

XqiA

Xni2A

XnipA

该总体的样本指标平均值为:

x1A,x2A…XpA

 

X11B

X12B

XipB

—X2i(B)

X22B

X2pB

总体Gb的样本数据为:

・.■・■

Xn2iB

Xn22B

Xn2pB

该总体的样本指标平均值为:

XiB,X2BXpB

现任取一个新样品X,实测指标数值为X=(x1,x2,xp),要求判断X属于哪一类?

首先计算样品X与Ga、GB两类的距离,分别记为DX,Ga、DX,GB,然后按照距离最近准则判别归类,即样品距离哪一类最近就判为哪一类;如果样品距离两类的距离相

同,则暂不归类。

判别准则写为:

XGa,如果DX,Ga:

DX,Gb,

XGb,如果DX,GaDX,Gb,

X待判,如果DX,Ga二DX,Gb。

其中,距离d的定义很多,根据不同情况区别选用。

如果样品的各个变量之间互不相关或相关很小时,可选用欧氏距离。

采用欧氏距离时,

DX,Ga='(x:

.-x:

.(A))2

1p

DX,Gb>^(^-^(B))2

然后比较DX,Ga和DX,Gb的大小,按照距离最近准则判别归类。

但实际应用中,考虑到判别分析常涉及到多个变量,且变量之间可能相关,故多用马氏

距离。

马氏距离公式为:

F

d2x,Ga二X-XaSA1x-Xa

21r

dX,gb=X-'XbsBX-■Xb

其中XA、XB、Sa、Sb分别是Ga、Gb的均值和协方差阵。

这时的判别准则分两种情况给出:

(1)当Sa=Sb=S时

d2X,Gb-d2X,Ga

令x(a)+X(b),同时记W(x)=(d2(X,GB)-d2(X,GA))/2

则WX=X—XSdXa-Xb

所以判别准则写成:

X•Ga,如果WX0,

XGb,如果WX:

:

0,

X待判,如果WX=0。

该规则取决于WX的值,因此WX被称为判别函数,也可以写成:

WX=:

■X-X,其中〉=sXA_XB。

Wx被称为线性判别函数。

作为特例,当p=1时,两个总体的分布分别是NS,;「2和N:

lL2,;「2,判别函数为

W(X)=X-—|三(卩1-巴)

cr2

不妨设亠,这时WX的符号取决于X••I或X「I。

X「1时,判XGa;

两组距离判别法,简单容易理解,判别准则也是合理的,但是有时也会出现错判。

如下

图6.1,如果X来自Ga,但却落入D2,被错判为Gb组,错判的概率为图中阴影的面积,

记为P(2/1),类似有P(1/2),显然P(2/1)=P(1/2)=1一门(上2)。

当两总体靠的比较近时,即两总体的均值差异较小的时候,无论用何种判别方法,

错判的概率都比较大,这时的判别分析也是没有意义的。

因此只有当两总体的均值有显

著差异时,进行判别分析才有意义,为此,要对两总体的均值差异性进行检验,对此在下文中叙述。

(2)当SA=SB时

按照距离最近准则,类似地有:

XGa,如果DX,GaDX,GB,

XGb,如果DX,GaDX,GB,

X待判,如果DX,Ga二DX,Gb。

仍然用W(X)=d2X,GB-d2X,Ga

作为判别函数,此时的判别函数是X的二次函数。

(3)关于两组判别分析的检验

由于判别分析是假设两组样品是取自不同总体,如果两个总体的均值向量在统计上差异

不显著,则进行判别分析意义不大。

所以,两组判别分析的检验,实际就是要经验两个正态

总体的均值向量是否相等,为此,检验的统计量为:

给定检验水平,查F分布表使T■F.「「•,可得出F_.,再由样本值计算F,若

FF.,则否定原假设,认为两个总体的均值向量在统计上差异显著,否则两个总体的均

值向量在统计上差异不显著。

3、多个总体的距离判别法

类似两个总体的讨论推广到多个总体。

设有k个总体G…Gk

,相应抽出样品个数为n

测p个指标得观测数据如下,

总体Gk的样本数据为:

指标平均值为:

X(i)=(X|i,X2iXpi),i=1,2…k。

(1)当Si「二Sk二S时

此时d2X,Gi二X-XjS「X—Xj,i=1,2k

1

判别函数为WijX二—[d2(X,Gj)-d2(X,Gj)]

2

相应的判别准则为:

’X^Gj,当Wj(X)nO时,对于一切j知

J寺判,若有一个Wj(X)=O

(2)当S/'Sk不相等时

此时判别函数为

FF

WjiX=X-XjSj^X-Xj-X-XiSi」X-Xi

相应的判别准则为:

XGi,当Wjx0时,对于一切j=i

待判,若有一个Wjx=0

(二)费舍判别法

费舍判别法是1936年提出来的,该方法对总体分布未提出什么特定的要求。

1.基本思想

费舍判别法是基于统计上的费舍准则,即判别的结果应该使两组间区别最大,使每组内

部离散性最小。

在费舍准则意义下,确定线性判别函数:

y“Xiox?

CpXp

其中G,Q…Cp为待求的判别函数的系数。

判别函数的系数的确定原则是使两组间区别最大,使每组内部离散性最小。

有了判别函数后,对于一个新的样品,将p个指标的具体

数值代入判别式中求出y值,然后与判别临界值进行比较,并判别其应属于哪一组。

2•两组判别分析

(1)方法原理

设有两组总体GA和GB,相应抽出样品个数为m,n2(nin2)=n,每个样品观测p个指标得观测数据如下,

Xiia

X12A

XipA

x21(A)

X22a

X2pA

总体GA的样本数据为:

a

Xn1iA

Xni2A

XnipA

第1个总体的样本指标平均值为:

XiA,X2AXpA

XiiB

Xi2B

XipB

—X2i(B)

X22B

X2pB

总体Gb的样本数据为:

Xn2iB

Xn22B

Xn2pB

第2个总体的样本指标平均值为:

XiB,X2B

XpB

pp

根据判别函数,用yA二7CkXkA表示Ga组样品的重心,以yB二7CkXkB表

k£k丄

2

示Gb组样品的重心。

则两组之间的离差用(y(A)-y(B))来表示,Ga、Gb内部的离差程

ninp

度分别用vya-yA$和vyiB-yB2来表示,其中yiAACkXikA;

n=1n£k=1

P

yiBA為CkXkB。

km

根据费舍准则,要使判别的结果满足两组间区别最大,每组内部离散性最小。

则判别函

数的系数59…Cp应该能够使:

2

.yA-yB

ni门2

'yiA-yAyiB-yB2

i=1iW

取得最大值。

(2)判别系数的导出

令Q=(y(A)-y(B)f

nin2

F=迟(yi(A)-y(A)f+£(yi(B)-y(B)丫

n』nW

Q

I

F

根据数学分析求极值的原理,对上式两边取对数:

Lnl=LnQ-LnF

PP山

八'C4[、XikA-XkAXilA—X1A

k4l4i4

n2

+'XikB-XkB为B-X|B]

i4

n2

n1

Ski八XikA-XkAxHA-X|A+、XikB-XkBx,B-X|B

i4

则有

—二2*Ci-Skl

-CklA

 

k=1,2P

■-是一个常数因子,不依赖k,它对方程组的解只起到共同扩大[倍的作用,不影响它的解g,C2,…,Cp之间的比例关系,因此也不会影响判别函数,所以,取组:

p

、ClSkl~dkk=1,2p

lm

=d1

d2

1-S11C1S12C^S1pCp

S21C1S22C2S2pCp

SplCi■Sp2C2■'SppCp

解此方程即得g,C2,…,Cp,进而得判别函数:

y=GX1C2X2CpXp

(3)判别准则

由判别函数,可得两组总体Ga和Gb各自样品的重心:

yA八沐A

P

yB八CkXkB

k4

对它们进行根据样本的容量进行加权得:

n』(A)+n2『(B)

yAB-

m+n2

Yab称为两组判别的综合指标。

据此可得判别准则为:

①如果yA■Yab,则对于给定的新样品花必,…Xp,若有

y二GXiC2X2CpXpYab

则将该样品判属于

Ga组,右y-yAB,则判其属于GB组;

②如果YB-Yab,则对于给定的新样品Xi,X2/Xp,若有

y=&洛C2X2CpXpYab

则将该样品判属于Gb组,若y乞Yab,则判其属于Ga组。

(4)两组判别分析的检验

由于判别分析是假设两组样品是取自不同总体,如果两个总体的均值向量在统计上差异

不显著,则进行判别分析意义不大。

所以,两组判别分析的检验,实际就是要检验两个正态

总体的均值向量是否相等,为此,检验的统计量为:

F二J1__Q2__t2~Fp,nin2-p-1

ni门2-2p

S二SaSb,

给定检验水平,查F分布表使£-,可得出F:

.,再由样本值计算F,若

FF-,则否定原假设,认为两个总体的均值向量在统计上差异显著,判别函数有效,可

用;否则两个总体的均值向量在统计上差异不显著,判别函数无效不可用。

3、多组费舍判别分析

(1)方法原理

类似两总体的费舍判别法,下面给出多总体的费舍判别法。

设有k个总体G,■-Gk,抽取

样品数分别为门!

,压,…nk,令n=厲+门2+…+珈。

x;)=((广x;)为第i个总体的第

:

个样品的观测向量。

假定所建立的判别函数为

y(x)二qx!

CpXp」cx

其中c(,Cp),x(Xi,,Xp)

记x为总的均值向量,贝yy=cx

在多总体情况下,Fisher准则就是要选取系数向量C,使

k

'nKy(°-y)2

■亠-

2

q^i

i=1

达到最大,其中是q人为的正的加权系数,它可以取为先验概率。

如果取qi=口-1,并将y⑴二ex"))y=cx,匚i2=cs(i)c代入上式可化为:

cAc

E八qiS(i)

i=1

存在的必要条件,令1=0,利用对向量求导的公式:

据定义有,设A为n阶对称矩阵,E为n阶正定矩阵,若有Ac二,Be或A-,jBc=0,

则•称为A关于E矩阵的广义特征根,c是对应的特征向量)。

由于一般都要求加权协差

阵E是正定的,因此由代数知识可知,上式非零特征根个数m不超过min(k-1,p),又因

为E为非负定的,所以非零特征根必定为正根,记为

,2-

于是可构造m个判别函数:

yi(x)二c⑴x1=1,,m

判别函数的判别能力与判别函数的个数。

由上述知,由于非零特征根,有m个,由此

对应有m个特征向量,即m个判别函数,为了选取有效的判别函数,对于每个判别函数必

须给出一个用以衡量判别能力的指标Pl,衡量判别函数判别能力的指标定义为:

mo个判别函数的判别能力定义为

如果mo达到某个人定的值(比如85%则就认为mo个判别函数就够了。

(3)判别准则

有了判别函数之后,如何对待判的样品进行分类?

Fisher判别法本身并未给出最合适的

分类法,在实际工作中可以选用下列分类法之一进行分类。

第一方法,当取m°=i时(即只取一个判别函数),此时有两种可供选用的方法

1不加权法

丼/、一(D・(、—(j)

右y(x)-y=miny(x)-y

则判x•Gi

2加权法

将y⑴、y⑵…y(k)按大小次序排列,记为y⑴

准差排为匚⑴。

令di,厲=SM°+S1)%*I=1,…k-1

(Fi卅)+坊(I))

则di,i+可作为Gj^Gj“之间的分界点。

如果x使得di丄iEy(x)di,刊,,则判

xGj。

jI

第二种方法,当取m。

・1时(即取多个判别函数),也有类似两种供选用的方法

①不加权法

(i)(I)一(i)

记y|cx1=1,,m。

;I二1,,k

对待判样品x(x1,,xp),计算

y(x)c⑴x

Di2八ji(x)-yP】’|

I=1

22

若DY=minDi,则判Gy

②加权法

考虑到每个判别函数的判别能力不同,记

Di2八

其中、是由Ac二,Ec求出的特征根。

若D2二minD2,则判x・G。

1J兰1i

(三)贝叶斯判别法

1.基本思想

设有m个总体,G,G2…Gm,它们的先验概率分别为qi,q2…qm,密度函数为

£X,f2X…fmX(在离散情形是概率函数),在观测到一个样品X的情况下,可用

贝叶斯公式计算它来自第g个总体的后验概率:

pgx]=nqigfgX,g72,m

迟qgfg(X)

i4

并且当

Phx=maxPg.x

时,判定X来自第h个总体。

另外,有时为了合理考虑错判所带来的损失,还使用错判损失最小的概念确定判别函数,

这时,把X错判给第h个总体的平均损失定义为:

Ehx严fgxLhg

g"qifix

i=1

其中Lhg称为损失函数。

它表示本来是第g个总体的样品错判为第h个总体的损失。

于是建立判别准则为,如果

E(h/x卜対监丘❻加)

则,判定X来自第h个总体。

显然考虑损失函数更为合理,但是由于实际应用中,由于Lhg不容易确定,经常在

数学模型中假定各种错判的损失皆相等,这样,寻找h使后验概率最大实际上等价于使错判

损失最小。

hh

phxjmax=Ehxjmin

根据上述思想,在假定协方差矩阵相等的条件下,即可以导出判别函数。

2.多元正态总体的Bayes判别法

在实际问题中遇到的许多总体往往服从正态分布,下面给出p元正态总体的Bayes判别

法,以及判别函数的导出。

(1)待判样品的先验概率和密度函数

使用Bayes准则进行分析,首先需要知道待判总体的先验概率qg和密度函数fg(x)(如

果是离散情形则是概率函数)。

ng

对于先验概率,一般可用样品频率来代替,即令qg-,其中ng为用于建立判别函

n

数的已知分类数据中来自第g总体样品的数目,且m•n2•nk=n,或者干脆令先验

1

概率相等,即qg,这时可以认为先验概率不起作用。

gk

对于第g总体的密度函数,设p元正态分布密度函数为:

fg(x)=(2兀)(g)乜‘exp』-*(x-『g))(g)(x-屮)

式中•((⑴和、'(①分别是第g总体的均值向量(p维)和协差阵(p阶)。

把fg(x)代入P(gx)的表达式中,因为我们只关心寻找使P(gx)最大的g,而

分式中的分母不论g为何值都是常数,故可改令

g

qgfg(x)》max

对qgfg(x)取对数并去掉与g无关的项,记为,

则问题可化为

g

Z(gx)》max

Z(g.x)中含有k个总体的协方差阵(逆阵及行列式值),而且对于x还是二次函数,

形判别函数);

十1*

y(g/x)=In_丄汕)E」P(g)+x近」P(g)

’2

g

y(g/x)Tmax

上式判别函数也可以写成多项式形式:

p

y(gx)Inqg-C0g)'C;g)Xi

i4

其中,用样本资料这里为,

pp

I寸寸ij(g)(g)

sxx,

2i=1j=1

总样本总协差S(Sij)pp为总协差阵匕的估计,

S’=(sij)'pp为总协差阵S的逆矩阵。

(3)计算后验概率

进行计算分类时,主要根据判别式y(gx)的大小,而它不是后验概率P(gx),

但是有了y(gx)之后,就可以根据下式算出后验概率P(gx):

p(g.x)二

exp:

y(gx)

kj,

二exp'y(ix)

i=1

其中.■:

(x)是In(qgfg(x))中与g无关的部分。

所以

qgfg(x)

k

qi((x)

i4

exply(gx)二(x)

~~k

'exp'y(ix)l(x)

exp'y(gx)expt(x)

二—■■

'exp^y(ix)exp-=(x)

i4

exp:

y(gx)

二exp'y(ix)

由上式知使y为最大的h,其P(hx)必为最大,因此我们只须把样品x代入判别式

中:

分别计算y(g/x),g=1,…,k。

若y(h「x)二max)(gx),则把样品x归为第h总体。

(4)辅助性检验

为了检验p个变量是否有能力区分这m个组,还需要用广义的马哈拉诺比斯D2统计

量来进行检验。

马氏统计量为:

ppm

D2=迟迟迟m衬区

(1)—剂凤)—xj)

idj4Id

统计量D2在正态分布各组均值、协方差阵全部相同的假定下,服从pm-1个自由度

的2分布。

所以,当统计量D2值大于查表得的临界值时,可以断定p个变量有能力区分这m个组。

贝叶斯方法一般多用于多组判别分析,贝叶斯判别方法的数学模型所要求的条件严格,它要求各组变量必须服从多元正态分布,各组的协方差矩阵相等,各组的均值向量有显著差

异。

而费舍判别法主要要求各组均值向量有显著差异即可。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 医药卫生 > 基础医学

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2