判别分析(3)贝叶斯判别PPT课件下载推荐.ppt

资源描述

判别分析(3)贝叶斯判别PPT课件下载推荐.ppt

《判别分析(3)贝叶斯判别PPT课件下载推荐.ppt》由会员分享，可在线阅读，更多相关《判别分析(3)贝叶斯判别PPT课件下载推荐.ppt（29页珍藏版）》请在冰点文库上搜索。

判别分析(3)贝叶斯判别PPT课件下载推荐.ppt

（a）利用历史资料及经验进行估计.例如某地区成年人中得癌症的概率为P（癌）=0.001=q1,而P（无癌）=0.999=q2.（b）利用训练样本中各类样品占的比例ni/n做为qi的值,即qi=ni/n（i=1,k）,其中ni是第i类总体的样品个数，而n=n1+n2+nk.这时要求训练样本是通过随机抽样得到的,各类的样品被抽到的机会大小就是验前概率.（c）假定q1=q2=qk=1/k.,4.3.1贝叶斯准则,问题：

待判样品X属于哪一类？

判别方法是，先由贝叶斯准则计算待判样品来自个总体的条件概率（也称后验概率）为（4.18）式中，归入第总体的先验概率，时为。

未知,4.3.1贝叶斯准则,问题：

对于诸总体，显然分母（全概率）都是相同的，因此只要比较式分子的大小，即可判断条件概率的大小，进而对待判样品作出归类。

则X属于第t个总体。

4.3.1贝叶斯准则,不妨设，则待判样品就归入第类总体。

因此式（4.19）称为判别函数，按照条件概率最大进行归类的准则，称为贝叶斯判别准则。

在式（4.19）中，为了给出判别函数的具体表达式，下面以服从多元正态分布情况来讨论。

设是第类总体第个样品第个变量的观测值，且各总体样品都是相互独立的正态随机向量，即,4.3.1判别函数,在该假设条件下，由于均未知，为此我们可根据第总体的样品数据，计算出总体的样本均值及总体样本的协方差矩阵，用作为总体的估计。

由统计理论知，式中，第类总体样品均值向量。

总体第个变量均值（）,4.3.1判别函数,称为总体组内方差协方差矩阵，式中，此时，均为已知，总体的密度函数可表为,4.3.1判别函数,这里，为矩阵的逆矩阵的行列式。

上式表明是一个具体已确定的函数。

下面的问题是要确定式（4.19）中的先验概率，对于的确定，实际应用中常用其频率来估计，即。

由此式（4.19）完全确定，于是可以进行判别归类，为了计算方便，我们对式（4.19）进行化简，即对式（4.19）取对数，,4.3.1判别函数,对式中的同类项合并，去掉与分组无关的项。

并令故上式可写成（4.20）令,4.3.1判别函数,式中，这里为矩阵中的元素。

于是最终得化简后的类总体的判别函数为（）（4.21）,4.3.1判别函数,4.3.2判别效果的检验,建立个总体的判别函数后，这些判别函数的判别效果如何需要检验。

在实际应用中，可将已知类别的样品代入判别函数进行回判。

如果判对率在75以上，则认为判别函数有效，其常用的公式为此外，还可采用统计方法对判别函数效果进行检验。

对于判别函数的显著检验，我们可用马氏距离来检验总体间差异是否显著。

若总体间差异不显著，显然建立在各总体基础之上的判别函数用于归类其结果就不可靠。

马氏距离的计算公式如下：

（4.22）应用统计量对于给定水平查分布表得其临界值。

如果求得的，则说明总体与总体间差异显著，两总体的判别函数效果明显，否则为不显著。

4.3.3待判样品的归类,在建立了总体的判别函数且通过对各总体的判别函数显著性检验后，若判别函数效果明显，我们就可用其进行归类识别，其方法是将待判样品代入判别函数式（4.21），计算它归入每个类的判别函数值（），然后选出则将就归入第类。

实际应用中，常常还需要知道待判样品归,入第几类的概率，可以用下式计算：

（4.23）对式（4.23）两边取对数，并注意到：

在式（4.23）中的分子、分母用它的反对数代替，并不影响归类效果，故式（4.23）可表为,计算时为避免产生计算“溢出”现象，上式可改为（4.24）用计算出的概率大小判别样品的归属，只要选中的最大的那个相应的类即可。

4.3.4线性判别分析计算程序,程序说明1ff1dataMatlabdatafile（Mat文件），存放原始数据矩阵trainingmn、向量group1n和待检测矩阵sample；

2class=classify（sample,training,group）线性判别分析函数

（1）classclassify（sample，training，group）指定sample数据的每的每一行到训练集training指定的一个类中。

sample和training必须具有相同的列数。

（2）group向量包含从1到组数的正整数，它,指明训练集中的每一行属于哪一个类。

group和training必须具有相同的行数。

（3）返回class，它是一个与sample具有相同行数的向量。

class的每一个元素指定sample中对应元素的分类。

通过计算sample与training中每一行的马氏距离，classify函数决定sample中的每一个行属于哪一个分类。

4.3.5应用综合实例,例4.1我国山区某大型化工厂，在厂区及邻近地区挑选有代表性的15个大气取样点，每日四次同时抽取大气样品，测定其中含有的6种气体的浓度，前后共4天，每个取样点每种气体实侧16次，试计算每个取样点每种气体的平均浓度。

数据如表4.1所示。

气体数据对应的污染地区分类如表中最后一列所示。

现有两个取自该地区的四个气体样本、气体指标如表中后4行所示，试判别这四个样品的污染分类。

表4.1大气样品数据表,解打开数据文件ff1data.mat，将原始数据录入mn维数据矩阵trainingmn中，将group向量录入一维数据矩阵group1n中，将待检测数据录入数据矩阵sample46。

本题中，trainingmn，group1n和sample46分别为：

trainlng=0.0560.0840.03l0.0380.008l0.0220.0400.0550.100.1100.02200.00730.0500.0740.04l0.0480.00710.0200.0450.0500.110.1000.02500.00630.0380.1300.0790.1700.05800.043,0.0300.1100.0700.1600.05000.0460.0340.00950.0580.1600.2000.0290.0300.090.0680.180.2200.0390.0840.0660.0290.3200.0120.04l0.0850.0760.0l90.3000.0100.0400.0640.0720.020.2500.0280.0380.0540.0650.0220.02800.02l0.0400.0480.0890.0620.2600.0380.0360.0450.0920.0720.20.0350.0320.0690.0870.0270.0500.0890.021；

group=111122112222221;

sample=0.0520.0840.0210.0370.00710.0220.0410.0550.1100.1100.02100.00730.0300.1120.0720.1600.0560.0210.0740.0830.1050.1900.0201.000;

这样，调用classify函数执行程序如下：

loadff1dataclass=classify（sample,training,group）,class=1122所以这4个气体样品的污染地区分类分别为第一类、第一类、第二类和第二类。

展开阅读全文