判别分析(3)贝叶斯判别PPT课件下载推荐.ppt
《判别分析(3)贝叶斯判别PPT课件下载推荐.ppt》由会员分享,可在线阅读,更多相关《判别分析(3)贝叶斯判别PPT课件下载推荐.ppt(29页珍藏版)》请在冰点文库上搜索。
(a)利用历史资料及经验进行估计.例如某地区成年人中得癌症的概率为P(癌)=0.001=q1,而P(无癌)=0.999=q2.(b)利用训练样本中各类样品占的比例ni/n做为qi的值,即qi=ni/n(i=1,k),其中ni是第i类总体的样品个数,而n=n1+n2+nk.这时要求训练样本是通过随机抽样得到的,各类的样品被抽到的机会大小就是验前概率.(c)假定q1=q2=qk=1/k.,4.3.1贝叶斯准则,问题:
待判样品X属于哪一类?
判别方法是,先由贝叶斯准则计算待判样品来自个总体的条件概率(也称后验概率)为(4.18)式中,归入第总体的先验概率,时为。
未知,4.3.1贝叶斯准则,问题:
对于诸总体,显然分母(全概率)都是相同的,因此只要比较式分子的大小,即可判断条件概率的大小,进而对待判样品作出归类。
则X属于第t个总体。
4.3.1贝叶斯准则,不妨设,则待判样品就归入第类总体。
因此式(4.19)称为判别函数,按照条件概率最大进行归类的准则,称为贝叶斯判别准则。
在式(4.19)中,为了给出判别函数的具体表达式,下面以服从多元正态分布情况来讨论。
设是第类总体第个样品第个变量的观测值,且各总体样品都是相互独立的正态随机向量,即,4.3.1判别函数,在该假设条件下,由于均未知,为此我们可根据第总体的样品数据,计算出总体的样本均值及总体样本的协方差矩阵,用作为总体的估计。
由统计理论知,式中,第类总体样品均值向量。
总体第个变量均值(),4.3.1判别函数,称为总体组内方差协方差矩阵,式中,此时,均为已知,总体的密度函数可表为,4.3.1判别函数,这里,为矩阵的逆矩阵的行列式。
上式表明是一个具体已确定的函数。
下面的问题是要确定式(4.19)中的先验概率,对于的确定,实际应用中常用其频率来估计,即。
由此式(4.19)完全确定,于是可以进行判别归类,为了计算方便,我们对式(4.19)进行化简,即对式(4.19)取对数,,4.3.1判别函数,对式中的同类项合并,去掉与分组无关的项。
并令故上式可写成(4.20)令,4.3.1判别函数,式中,这里为矩阵中的元素。
于是最终得化简后的类总体的判别函数为()(4.21),4.3.1判别函数,4.3.2判别效果的检验,建立个总体的判别函数后,这些判别函数的判别效果如何需要检验。
在实际应用中,可将已知类别的样品代入判别函数进行回判。
如果判对率在75以上,则认为判别函数有效,其常用的公式为此外,还可采用统计方法对判别函数效果进行检验。
对于判别函数的显著检验,我们可用马氏距离来检验总体间差异是否显著。
若总体间差异不显著,显然建立在各总体基础之上的判别函数用于归类其结果就不可靠。
马氏距离的计算公式如下:
(4.22)应用统计量对于给定水平查分布表得其临界值。
如果求得的,则说明总体与总体间差异显著,两总体的判别函数效果明显,否则为不显著。
4.3.3待判样品的归类,在建立了总体的判别函数且通过对各总体的判别函数显著性检验后,若判别函数效果明显,我们就可用其进行归类识别,其方法是将待判样品代入判别函数式(4.21),计算它归入每个类的判别函数值(),然后选出则将就归入第类。
实际应用中,常常还需要知道待判样品归,入第几类的概率,可以用下式计算:
(4.23)对式(4.23)两边取对数,并注意到:
在式(4.23)中的分子、分母用它的反对数代替,并不影响归类效果,故式(4.23)可表为,计算时为避免产生计算“溢出”现象,上式可改为(4.24)用计算出的概率大小判别样品的归属,只要选中的最大的那个相应的类即可。
4.3.4线性判别分析计算程序,程序说明1ff1dataMatlabdatafile(Mat文件),存放原始数据矩阵trainingmn、向量group1n和待检测矩阵sample;
2class=classify(sample,training,group)线性判别分析函数
(1)classclassify(sample,training,group)指定sample数据的每的每一行到训练集training指定的一个类中。
sample和training必须具有相同的列数。
(2)group向量包含从1到组数的正整数,它,指明训练集中的每一行属于哪一个类。
group和training必须具有相同的行数。
(3)返回class,它是一个与sample具有相同行数的向量。
class的每一个元素指定sample中对应元素的分类。
通过计算sample与training中每一行的马氏距离,classify函数决定sample中的每一个行属于哪一个分类。
4.3.5应用综合实例,例4.1我国山区某大型化工厂,在厂区及邻近地区挑选有代表性的15个大气取样点,每日四次同时抽取大气样品,测定其中含有的6种气体的浓度,前后共4天,每个取样点每种气体实侧16次,试计算每个取样点每种气体的平均浓度。
数据如表4.1所示。
气体数据对应的污染地区分类如表中最后一列所示。
现有两个取自该地区的四个气体样本、气体指标如表中后4行所示,试判别这四个样品的污染分类。
表4.1大气样品数据表,解打开数据文件ff1data.mat,将原始数据录入mn维数据矩阵trainingmn中,将group向量录入一维数据矩阵group1n中,将待检测数据录入数据矩阵sample46。
本题中,trainingmn,group1n和sample46分别为:
trainlng=0.0560.0840.03l0.0380.008l0.0220.0400.0550.100.1100.02200.00730.0500.0740.04l0.0480.00710.0200.0450.0500.110.1000.02500.00630.0380.1300.0790.1700.05800.043,0.0300.1100.0700.1600.05000.0460.0340.00950.0580.1600.2000.0290.0300.090.0680.180.2200.0390.0840.0660.0290.3200.0120.04l0.0850.0760.0l90.3000.0100.0400.0640.0720.020.2500.0280.0380.0540.0650.0220.02800.02l0.0400.0480.0890.0620.2600.0380.0360.0450.0920.0720.20.0350.0320.0690.0870.0270.0500.0890.021;
group=111122112222221;
sample=0.0520.0840.0210.0370.00710.0220.0410.0550.1100.1100.02100.00730.0300.1120.0720.1600.0560.0210.0740.0830.1050.1900.0201.000;
这样,调用classify函数执行程序如下:
loadff1dataclass=classify(sample,training,group),class=1122所以这4个气体样品的污染地区分类分别为第一类、第一类、第二类和第二类。