spss判别分析论文12.docx
《spss判别分析论文12.docx》由会员分享,可在线阅读,更多相关《spss判别分析论文12.docx(30页珍藏版)》请在冰点文库上搜索。
![spss判别分析论文12.docx](https://file1.bingdoc.com/fileroot1/2023-7/13/3945bc84-57b6-46bb-96b6-1b1d11a93cf1/3945bc84-57b6-46bb-96b6-1b1d11a93cf11.gif)
spss判别分析论文12
spss判别分析论文12
学校:
池州学院
系别:
数学系
班级:
12统计
学号:
120314134
姓名:
高革非
摘要
判别分析是判别样品所属类型的一种统计方法~其应用之广可与回归分析媲美.本文通过介绍判别分析的概念和应用领域~对其进行分类~并对其中的某些方法进行具体介绍~如距离判别法和费希尔判别法~然后应用某些常见的判别分析方法解决实际问题.
关键词:
判别分析,概念,应用领域,距离判别法,费希尔判别;实际问题
一、引
言...................................................……………………………………
…………………4
1.1什么是判别分
析.......................................……………………………………………………..4
1.2判别分析的方
法........................................…………………………………………………….4
1.3判别分析的统计背
景...................................…………………………………………………..5二、距离判别
法...............................................………………………………………………………….8
2.1什么是距离判别法………………………………………………………………………………….8
2.2马氏距
离...............................................……………………………………………………….8
2.2.1概念.........................................……………………………………………………………......8
2.2.2定义..................................…………………………………………………………….............8
2.2.3马氏距离的优缺点……………………………………………..……………………………….9
2.3距离判别法的基本思
想.................………………………………………………......................9
2.4距离判别法的判别函数和判别准则………………………………………………………………..7三、贝叶斯判别法………………………………………………………………………………………….83.1什么是贝叶斯判别法………………………………………………………………………………8
3.2贝叶斯判别法的基本思想…………………………………………….……………………………8
3.3贝叶斯判别法的准则………………………………………………………………………………8
3.4贝叶斯判别法的分类函数………………………………………………………………………….8四、Fisher判别
法.........................................................................................
...............................9
4.1什么是Fisher判别法………………………………………………………………………………9
4.2Fisher判别法的基本思想…………………………………………..…………………………….…9
4.3Fisher判别法判别函数和判别准则…………………………………………………………….……9五、实例分
析...................................................……………………………………………………………9
六、参考文
献...................................................……………………………………………………………14
一、引言
1(1什么是判别分析
判别分析产生于20世纪30年代~是利用已知类别的样本建立判别模型~为未知类别的样本判别的一种统计方法。
近年来~判别分析在自然科学、社会学及经济管理学科中都有广泛的应用。
判别分析是根据观测到的某些指标对所研究的对象进行分类的一种多元统计分析方法。
判别分析的特点是根据已掌握的、历史上每个类别的若干样本的数据信息~总结出客观事物分类的规律性~建立判别公式和判别准则。
当遇到新的样本点时~只要根据总结出来的判别公式和判别准则~就能判别该样本点所属的类别。
判别分析按照判别的组数来区分~可以分为两组判别分析和多组判别分析。
1(2判别分析的方法
判别分析(DiscriminatoryAnalysis)的任务是根据已掌握的,批分类明确的样品~建立较好的判别函数~使产生错判的事例最少~进而对给定的1个新样品~判断它来自哪个总体。
根据资料的性质~分为定性资料的判别分析和定量资料的判别分析,采用不同的判别准则~又有距离、贝叶斯、费歇等判别方法。
距离判别思想是根据各样品与各母体之间的距离远近作出判别。
即根据资料建立关于各母体的距离判别函数式~将各样品数据逐一代入计算~得出各样品与各母体之间的距离值~判样品属于距离值最小的那个母体。
贝叶斯,BAYES,判别思想是根据先验概率求出后验概率~并依据后验概率分布作出统计推断。
所谓先验概率,就是用概率来描述人们事先对所研究的对象的认识的程度,所谓后验概率~就是根据具体资料、先验概率、特定的判别规则所计算出来的概率。
它是对先验概率修正后的结果。
费歇,FISHER,判别思想是投影~使多维问题简化为一维问题来处理。
选择一个适当的投影轴,使所有的样品点都投影到这个轴上得到一个投影值。
对这个投影轴的方向的要求是:
使每一类内的投影值所形成的类内离差尽可能小~而不同类间的投影值所形成的类间离差尽可能大。
1.3判别分析的统计背景
判别分析的方法有参数方法和非参数方法。
参数方法假定每个类的观测来自,多元,正态分布总体~各类的分布的均值,中心,可以不同。
非参数方法不要求知道各类所来自总体的分布~它对每一类使用非参数方法估计该类的分布密度~然后据此建立判别规则。
记X为用来建立判别规则的P维随机变量~S为合并协方差阵估计~t=1,...,G为组的下标~共有G个组。
记n为第t组中训练样本的个数~m_t为t
第t组的自变量均值向量~S为第t组的协方差阵~|S|为S的行列式~qtttt
为第t组出现的先验概率~p(t|x)为自变量为x的观测属于第t组的后验概率~f(x)为第t组的分布密度在X=x处的值~f(x)为非条件密度。
t
按照Bayes理论~自变量为x的观测属于第t组的后验概率(|)=()ptxqfxtt/f(x)。
于是~可以把自变量X的取值空间R^P划分为G个区域R,t=1,...,G~t使得当X的取值x属于R_t时后验概率在第t组最大~
即
建立的判别规则为:
计算自变量x到每一个组中心的广义平方距离~并把x判入最近的类。
广义平方距离的计算可能使用合并的协方差阵估计或者单独的协方差阵估计~并与先验概率有关~定义为
其中
V=S,使用单个类的协方差阵估计,或V=S,使用合并的协方差阵估计,。
ttt
m可以用第t组的均值\overline{X_t}代替。
在使用合并协方差阵时~t
'?
1其中xSx是共同的可以不考虑~于是在比较x到各组中心的广义平方距离时~只要计算线性判别函数
~当x到第t组的线性判别函数最大时把x对应观测判入第t组。
在如果使用单个类的协方差阵估计V=Stt则距离函数是x的二次函数~称为二次判别函数。
后验概率可以用广义距离表示为
因此~参数方法的判别规则为:
先决定是使用合并协方差阵还是单个类的协方差阵~计算x到各组的广义距离~把x判入最近的组,或者计算x属于各组的后验概率~把x判入后验概率最大的组。
如果x的最大的后验概率都很小,小于一个给定的界限,~则把它判入其它组。
非参数判别方法仍使用Bayes后验概率密度的大小来进行判别~但这时第t组在x处的密度值f(x)不再具有参数形式~不象参数方法那样可以用m和S,或tttS,表示出来。
非参数方法用核方法或最近邻方法来估计概率密度f(x)。
tt
最近邻估计和核估计也都需要定义空间中的距离。
除了可以用欧氏距离外~还可以用马氏,Mahalanobis,距离~定义为:
其中V为以下形式之一:
t
V=S合并协方差阵t
V=diag(S)合并协方差阵的对角阵t
V=S第t组内的协方差阵tt
V=diag(S)第t组内的协方差阵的对角阵tt
V=I单位阵~这时距离即普通欧氏距离t
二、距离判别法
2.1什么是距离判别法
距离判别是以代判样品到各总体的距离远近为判据的一种直观判别方法~也称为直观判别法。
2.2距离判别的基本思想
距离判别法的基本思想是~先根据已知分类的数据~分别计算各类的重心~然后计算待判样本与各类的距离~与哪一类距离最近~就判待判样本x属于哪一类。
2.3距离判别的判别函数和判别准则
判别函数为:
W(x)=D(x,G)?
D(x,G)21
判别准则为:
W(x),0
三、贝叶斯判别法
3.1什么是贝叶斯判别法
贝叶斯判别是根据最小风险代价判决或最大似然比判决~是根据贝叶斯准则进行判别分析的一种多元统计分析法。
3.2贝叶斯判别法的基本思想
贝叶斯判别法的基本思想是:
设有两个总体~它们的先验概率分别为q、1
)、)~在观测到一个样本x的情况下~可用q~各总体的密度函数为f(xf(x212
贝叶斯公式计算它来自第k个总体的后验概率为:
一种常用判别准则是:
对于待判样本x~如果在所有的P(G/x)中P(G/x)kh是最大的~则判定x属于第h总体。
通常会以样本的频率作为各总体的先验概率。
3.3贝叶斯判别法的准则
设有定义明确的g个总体π1,π2,…,πg,分别为X1,X2,…,Xp的多元正态分布。
对于任何一个个体,若已知p个变量的观察值,要求判断该个体最可能属于哪一个总体。
如果我们制订了一个判别分类规则,难免会发生错分现象。
把实属第i类的个体错分到第j类的概率记为P(j,i),这种错分造成的损失记为C(j,i)。
Bayes判别准则就是平均损失最小的准则。
按照这个准则去找一种判别分类的规则,就是Bayes判别。
3.4贝叶斯判别法的分类函数
Byes准则下判别分析的分类函数形式如下:
Y1=C01+C11X1+C21X2+……+Cp1Xp
Y2=C02+C12X1+C22X2+……+Cp2Xp
…………
Yg=C0g+C1gX1+C2gX2+……+CpgXp
设有定义明确的g个总体π1,π2,…,πg,分别为X1,X2,…,Xp的多元正态分布。
对于任何一个个体,若已知p个变量的观察值,要求判断该个体最可能属于哪一个总体。
如果我们制订了一个判别分类规则,难免会发生错分现象。
把实属第i类的个体错分到第j类的概率记为P(j,i),这种错分造成的损失记为C(j,i)。
Bayes判别准则就是平均损失最小的准则。
按照这个准则去找一种判别分类的规则,就是Bayes判别。
四、Fisher判别法
4.1什么是Fisher判别法
Fisher判别是一种先进行高维向低位投影~再根据距离判别的一种方法。
借助方差分析的思想构造判别函数,相当于一种投影,~使组间区别最大、组内离差最小~然后代入新样本数据~将其与判别临界值比较以确定应判为至哪一总体。
4.2Fisher判别法的基本思想
Fisher判别法的基本思想是通过将多维数据投影至某个方向上~投影的原则是将总体与总体之间尽可能分开~然后再选择合适的判别规则~将待判的样本进行分类判别。
所谓的投影实际上是利用方差分析的思想构造也一个或几个超平面~使得两组间的差别最大~每组内的差别最小。
4.3Fisher判别函数和判别准则
判别函数:
判别准则:
~y>y,y>y120
~y>y,y~yy120
~y将两类均值及待判样本x的各项指标代入判别函数可求得三个函数值y,1y~y~一般将y,y的加权平均值y。
2120
五、实例分析
为研究1991年中国城镇居民月平均收入状况,按标准化欧氏平方距离、离差
平方和聚类方法将30个省、市、自治区(分为三种类型。
试建立判别函数,判
定广东、西藏分别属于哪个收入类型。
判别指标及原始数据见表
1991年30个省、市、自治区城镇居民月平均收人数据表
单位:
元,人
x:
人均生活费收入x:
人均各种奖金、超额工资(国有+集体)16
x:
人均国有经济单位职工工资x:
人均各种津贴(国有+集体)27
x:
人均来源于国有经济单位标准工资x:
人均从工作单位得到的其他收入38
x:
人均集体所有制工资收入x:
个体劳动者收入49x:
人均集体所有制职工标准工资5
样品序地区xxxxxxxxx123456789
类序号
北京170.03110.259.768.384.4926.8016.4411.90.411号
天津141.5582.5850.9813.49.3321.3012.369.211.052
河北119.4083.3353.3911.07.5217.3011.7912.00.703
上海194.53107.860.2415.68.8831.0021.0111.80.164
山东130.4686.2152.3015.910.520.6l12.149.610.475
湖北119.2985.4153.0213.18.4413.8716.478.380.51G16
广西134.4698.6148.188.904.3421.4926.1213.64.567
海南143.7999.9745.606.301.5618.6729.4911.83.828
四川128.0574.9650.1313.99.6216.1410.1814.51.219
云南127.4193.5450.5710.55.8719.4121.2012.60.9010
新疆122.96101.469.706.303.8611.3018.965.624.6211
山西102.4971.7247.729.426.9613.127.96.660.611
内蒙古106.1476.2746.199.656.279.65520.1O6.970.962
吉林104.9372.9944.6013.79.019.43520.616.651.683
黑龙江103.3462.9942.9511.17.4l8.34210.196.452.684
江西98.08969.4543.0411.47.9510.5916.507.691.085
河南104.1272.2347.319.486.4313.1410.438.301.11G26
贵州108.4980.7947.526.063.4213.6916.538.372.857
陕西113.9975.650.885.213.8612.949.4926.771.278
甘肃114.0684.3152.787.815.4410.8216.433.791.199
青海108.8080.4150.457.274.078.37118.985.950.8310
宁夏115.9688.2l51.858.815.6313.9522.654.750.9711
辽宁128.4668.9143.4l22.415.313.8812.429.011.411
江苏135.2473.1844.5423.915.222.389.66113.91.192
浙江162.5380.1145.9924.313.929.5410.9013.03.473G3安徽111.7771.0743.6419.412.516.689.6987.020.634
福建139.0979.0944.1918.510.520.2316.477.673.085
湖南124.0084.6644.0513.57.4719.1120.4910.31.766
待广东211.30114.041.4433.211.248.7230.7714.911.11
西藏175.93163.857.894.223.3717.8182.3215.70.00判2
贝叶斯判别的SPSS操作方法:
1.建立数据文件
2(单击Analyze?
Classify?
Discriminant,打开DiscriminantAnalysis判别分析对话框如图1所示:
图1DiscriminantAnalysis判别分析对话框
3(从对话框左侧的变量列表中选中进行判别分析的有关变量x1~x9进入Independents框,作为判别分析的基础数据变量。
从对话框左侧的变量列表中选分组变量Group进入GroupingVariable框,并点击DefineRange...钮,在打开的DiscriminantAnalysis:
DefineRange对话框中,定义判别原始数据的类别数,由于原始数据分为3类,则在Minimum(最小值)处输入1,在Maximum(最大值)处输入3(见图2)。
。
选择后点击Continue按钮返回DiscriminantAnalysis主对话框。
图2DefineRange对话框
4、选择分析方法
Enterindependenttogether所有变量全部参与判别分析(系统默认)。
本例选择
此项。
Usestepwisemethod采用逐步判别法自动筛选变量。
单击该项时Method按钮激活,打开StepwiseMethod对话框如图3所示,从中可
进一步选择判别分析方法。
图3StepwiseMethod对话框
Method栏,选择变量的统计量方法
Wilks’lambda(默认)按统计量Wilksλ最小值选择变量;
Unexplainedvariance:
按照所有组方差之和最小值选择变量;
Mahalanobis’distance:
按照相邻两组的最大马氏距离选择变量;
SmallestFratio:
按组间最小F值比的最大值选择变量;
Rao’sV按照统计量RaoV最大值选择变量。
Criteria选择逐步回归的标准(略)选择系统默认项。
5.单击Statistics按钮,打开Statistics对话框如图4所示,从中指定输出的统计量。
Descriptives描述统计量栏
Means-各类中各自变量的均值,标准差stdDev和各自变量总样本的均值和标
准差(本例选择)。
UnivariateANOV----对各类中同一自变量均值都相等的假设进行检验,输出单
变量的方差分析结果(本例选择)。
Box’sM--对各类的协方差矩阵相等的假设进行检验(本例选择)。
图4Statistics对话框
Functioncoefficients选择输出判别函数系数
Fisherh’s给出贝叶斯判别函数系数(本例选择)
Unstandardized给出未标准化的典型判别(也称典则判别)系数(费舍尔判
别函数)。
Matrices栏选择给出的自变量系数矩阵
Within-groupscorrelation合并类内相关系数矩阵(本例选择)
Within-groupscovariance合并类内协方差矩阵(本例选择)
Separate-groupscovariance各类内协方差矩阵(本例选择)
Totalcovariance总协方差矩阵(本例选择)
6.单击Classify按钮,打开Classify对话框如图5所示:
图5Classify对话框
PriorProbabilities栏,选择先验概率。
Allgroupsequal各类先验概率相等(系统默认);
Computefromgroupssizes各类的先验概率与其样本量成正比.(本例选择),UseCovarianceMatrix栏,选择使用的协方差矩阵
Within-groups--使用合并类内协方差矩阵进行分类(系统默认)(本例选择)
Separate-groups--使用各类协方差矩阵进行分类
Display栏,选择生成到输出窗口中的分类结果
Casewiseresults输出每个观测量包括判别分数实际类预测类(根据判别函数求得
的分类结果)和后验概率等。
Summarytable输出分类的小结给出正确分类观测量数(原始类和根据判别函数计
算的预测类相同)和错分观测量数和错分率(本例选择)。
Leave-one-outclassification输出交互验证结果。
Plots栏,要求输出的统计图
Combined-groups生成一张包括各类的散点图(本例选择);
Separate-groups每类生成一个散点图;
Territorialmap根据生成的函数值把各观测值分到各组的区域图。
(本例选择)7单击Save按钮,打开Save对话框,见图6.
图6Save对话框
Predictedgroupmembership建立一个新变量,系统根据判别分数,把观测量按后
验概率最大指派所属的类;(本例选择)
Discriminantscore建立表明判别得分的新变量,该得分是由未标准化的典则判别
函数计算。
(本例选择)
Probabilitiesofgroupmembership建立新变量表明观测量属于某一类的概率。
有
m类,对一个观测量就会给出m个概率值,因此建立m个新变量。
(本例选择)全部选择完成后,点击OK,得到输出结果如下:
AnalysisCaseProcessingSummary分类样本综述
UnweightedCasesNPercentValid2893.3E