第三章多元统计分析Word文档格式.docx

上传人:b****1 文档编号:4684224 上传时间:2023-05-03 格式:DOCX 页数:30 大小:201.73KB
下载 相关 举报
第三章多元统计分析Word文档格式.docx_第1页
第1页 / 共30页
第三章多元统计分析Word文档格式.docx_第2页
第2页 / 共30页
第三章多元统计分析Word文档格式.docx_第3页
第3页 / 共30页
第三章多元统计分析Word文档格式.docx_第4页
第4页 / 共30页
第三章多元统计分析Word文档格式.docx_第5页
第5页 / 共30页
第三章多元统计分析Word文档格式.docx_第6页
第6页 / 共30页
第三章多元统计分析Word文档格式.docx_第7页
第7页 / 共30页
第三章多元统计分析Word文档格式.docx_第8页
第8页 / 共30页
第三章多元统计分析Word文档格式.docx_第9页
第9页 / 共30页
第三章多元统计分析Word文档格式.docx_第10页
第10页 / 共30页
第三章多元统计分析Word文档格式.docx_第11页
第11页 / 共30页
第三章多元统计分析Word文档格式.docx_第12页
第12页 / 共30页
第三章多元统计分析Word文档格式.docx_第13页
第13页 / 共30页
第三章多元统计分析Word文档格式.docx_第14页
第14页 / 共30页
第三章多元统计分析Word文档格式.docx_第15页
第15页 / 共30页
第三章多元统计分析Word文档格式.docx_第16页
第16页 / 共30页
第三章多元统计分析Word文档格式.docx_第17页
第17页 / 共30页
第三章多元统计分析Word文档格式.docx_第18页
第18页 / 共30页
第三章多元统计分析Word文档格式.docx_第19页
第19页 / 共30页
第三章多元统计分析Word文档格式.docx_第20页
第20页 / 共30页
亲,该文档总共30页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

第三章多元统计分析Word文档格式.docx

《第三章多元统计分析Word文档格式.docx》由会员分享,可在线阅读,更多相关《第三章多元统计分析Word文档格式.docx(30页珍藏版)》请在冰点文库上搜索。

第三章多元统计分析Word文档格式.docx

哺乳动物纲

十字花目

食肉目

十字花科

猫科

油菜属

猫属

白菜

当我们走进一家图书馆,如果它们的图书没有分类编目,我们要找到一本图书与大海捞针没有什么区别。

分类的方式也会影响工作的效率。

书店的图书一般根据科学门类进行分类摆设,但有一段时间一家书店改为按照出版单位进行分类排列,结果读者很难找到所需图书,这家原本效益挺好的书店很快收到了消极影响。

早期的分类,一般根据事物的属性与特征进行划分,属于定性分类的范畴。

随着人们认识的深入和研究对象复杂程度的增加,单纯的定性分类方法就不能满足要求了,于是产生了定量分类技术,即所谓数字分类。

本节要讲述的就是根据多个指标进行数字分类的一种多元统计分析技术。

根据分类对象的不同,聚类分析又可以分为两类:

一是在变量空间中根据变量特征或者指标性质对样本进行分类,这叫做Q型聚类分析;

二是在样本空间中根据变量在样本上的观测值对变量进行分类,叫做R型距离分析。

我们着重讲述的是对样本分类,即Q型距离分析。

此外,由于现实世界的事物很难做到一分为二:

许多测度是模糊的,因此产生了模糊聚类技术,基本思路与我们学习的统计分类一致(图3-3-1)。

图3-3-1关于分类的分类

在地理学中,分类一般涉及到地域,基于地域的分类又可以分为两类,即同域分类和异域分类。

一般意义的分类是同域分类:

对同一个地域系统的要素进行分类;

但有时候需要进行异域分类:

对不同地域系统的要素进行分类。

具体说明如下:

同域分类:

经济建设与濒危生物保护:

例如公路建设,不仅要考虑城市之间以及城乡联系,还要考虑文物保护、濒危物种的保护——主要是保护生物『基因库』。

考察某种濒危物种,调查其生态环境的各种参数(变量)→分区(样本)→绘图→调查→落实→范围确定……→提交给交通部。

异域分类:

引进日本福冈甜桔,可供选择的引进地点有:

合肥、武汉、长沙、桂林、温州、成都……。

与甜桔生活有关的分析变量包括:

年平均气温,年平均降雨量,年日照时数,年极端最低温,一月份平均气温。

利用上述变量,将日本福冈与候选城市放到一起聚类,就是所谓异域聚类。

人们采用模糊数学中的相似优先比得到如下结果:

长沙,温州,成都,武汉,桂林,合肥。

我们采用异域聚类得到结果如下图(图3-3-2,由SPSS给出):

可以选择的顺序依次是:

长沙,成都,温州,桂林,武汉,合肥。

可见,两种分析方法的结论是一样的:

优先选择的地点是长沙,不宜选择的地点是合肥。

图3-3-2异域聚类分析结果一例

3-13基于相似系数的异域聚类结果:

长沙,成都,温州,桂林,合肥,武汉

在多元统计学中,聚类分析又叫群分析,乃是研究样本或指标的分类问题的一种多元统计方法。

所谓类,通俗地讲,就是相似元素的集合。

聚类方法有包括如下种类:

系统聚类法,有序样品法,模糊聚类法,图论聚类法,聚类预报法……。

2距离与相似系数

聚类分析是根据相似性和差异性来进行的,相似性可以借助相似系数之类表征,差异性则可以通过距离反映。

广义地将,距离和相似性是同一类别的数学问题。

广义距离,有各种各样的定义,不同的距离有不同的优点和缺点。

我们可以更加聚类分析的目的或者研究对象的特征选择距离,也可以自行定义一种距离。

需要明确的是,定义任何一种距离,都不得违背距离公理。

⒈距离公理

设x1、x2、…、xn为n个样本,第i个样本xi与第j个样本xj之间建立一个函数关系式dij=d(xi,xj),如果它满足如下条件,则称dij为样本xi与xj之间的距离:

①非负性:

对所有的i、j成立;

②规范性:

当且仅当

③对称性:

④三点不等式,在数学上叫做Cauchy不等式:

对所有的i、j、k成立。

距离的大小可以反映样本之间的差异程度。

⒉常见距离

⑴欧式距离(Euclid距离)

.(3-3-1)

下面以一个最简单的实例进行说明。

已知三个城市的三项指标,计算它们的欧式距离(表3-2-2)。

表3-3-2甲乙丙三城市的三个指标

城市

非农业人口

工业总产值

建成区面积

城市甲(A)

160

60

115

城市乙(B)

110

43

93

城市丙(C)

90

35

75

方差

866.667

108.667

267.556

根据公式(3-3-1),甲、乙两城市的欧式距离为(注意,这不是地理或者交通意义的距离):

欧式距离的优点:

几何意义明确,简单,容易掌握,由于中学数学就已初步接触,数学知识不多的人也可以把握它的基本含义。

缺点:

从统计学的角度看,使用欧式距离要求一个向量的n个分量不相关,且具有相当的方差,或者说各个坐标对欧式距离的贡献同等且变差大小相同,此时使用欧式距离才合适,且效果良好,否则就不能如实反映情况且容易导致错误的结论。

因此需要对坐标加权,化为统计距离(参见后面的精度加权距离)。

有时采用欧式距离平方(squaredEucliddistance):

(3-3-2)

⑵明氏距离(或译“闵氏距离”,Minkovski,Minkowski距离)

设xi、xj均均为m为向量,且

),(3-3-4)

则称

,(

)(3-3-5)

①当q=1时,得绝对距离(Block)

.(3-3-6)

对于前面的例子,绝对距离为

.(3-3-7)

②当q=2时,得欧式距离

(3-3-8)

③当q→∞时,得切比雪夫距离(Chebychev距离)。

明氏距离的有缺点如下:

优点:

人们使用较多,较熟悉,易于理解。

a受指标量纲的影响;

b没有考虑指标之间的相关性。

⑶B模距离

对于任意的正定矩阵B,由下式确定的距离称为B模距离

,(

)(3-3-9)

①当B=I(单位矩阵)时,dij为欧式距离。

给定两个向量

)(3-3-10)

显然

.(3-3-11)

从而

.(3-3-12)

显然这正是欧式距离。

对于前面的例子,我们有

.(3-3-13)

②当

,为精度加权距离。

这里

下面以三样本为例说明:

.(3-3-14)

对于前面表3-3-2中的例子,容易得到

.(3-3-15)

③当

时,为马氏距离(Mahalanobis距离)。

设∑表示协方差阵

.(3-3-16)

其中

)(3-3-17)

.(3-3-18)

如果逆矩阵∑-1存在,则两个样本之间的马氏距离可由下式定义

;

(3-3-19)

样本X到总体G的马氏距离为

.(3-3-20)

式中μ为总体的均值向量。

对于前面的例子,协方差矩阵为:

表3-3-3甲乙丙三城市的协方差

矩阵类型

协方差矩阵

协差阵的逆矩阵

变量

人口

产值

面积

866.667

306.667

473.333

-1.724E+13

6.099E+13

-7.955E+12

108.667

168.667

-2.158E+14

2.815E+13

267.556

-3.671E+12

即有

逆矩阵为

.

于是马氏距离为

这是一个复数的距离。

由此可见,马氏距离不是在任何时候都可以在实数域取得的。

马氏距离具有如下优点:

a排除了指标间的相关性干扰;

b不受指标量纲的影响;

c对原数据进行线性变换之后,马氏距离不变。

⑷兰氏距离(Canberra距离)

由Lance和Williams最早提出,定义如下:

.(3-3-21)

于是得到兰氏距离

.(3-3-22)

兰氏距离的有缺点如下:

有助于克服各指标间的量纲的影响;

a仅适用于xij>

0的情况;

⑸自定义距离(customizeddistance)

在一些统计软件如SPSS中,可以根据研究的实际需要自己定义一个距离,定义的依据当然是距离公理,一般的自定义距离公式如下:

)(3-3-23)

在统计软件中,允许适当地自主选择定义距离的参数,例如在SPSS中,选择自定义距离时,默认的幂(power,p)和根(root,r)为p=2,r=2,此时相当于欧式距离。

但用户可以在1~4之间选择p值和r值,如取p=3,r=4,从而定义自己的距离,如何定义取决研究问题的特性和需要,这要求对距离概念具有较深的理解,否则还是采用比较熟悉的距离公式。

3距离矩阵

设样本xi与xj之间的距离为dij,可得距离矩阵

.(3-3-24)

距离

值越小,

越接近。

例如,不管采用何种距离,前面三个城市之间两两距离求出之后,都可以构造一个距离矩阵

.(3-3-25)

4相似系数

相似系数包括两种相似的表示方法,即夹角余弦和相似系数。

分别说明如下:

⑴夹角余弦(Cosin)

).(3-3-26)

⑵相似系数(Pearsoncorrelation)

)(3-3-27)

当数据标准化以后,就有

.(3-3-28)

3系统聚类的八种方法

聚类分析不仅要甄别距离,而且要遴选方法。

不同距离与方法的组合可以得到许多聚类途径。

以SPSS软件为例,一共给了8种距离,7种方法,因此至少有7×

8=56距离方式——考虑到自定义距离,则聚类途径还要多。

但是,考虑到我们的研究对象的性质和聚类目标之后,可供选择的途径并不太多。

这就要求我们熟悉各种的距离的有缺点和聚类方法的基本思路。

⑴最短距离法(Nearestneighbor)

考虑n个样本构成的距离矩阵,定义Gi与Gj之间的距离为两类最近样品的距离,即

.(3-3-29)

现在设Gp与Gq合并为一个新类记为Gr,则任意一类Gk与Gr的距离为

.(3-3-30)

下面用实例说明最短距离法聚类的一般步骤和方法。

例子是引进日本福冈甜桔,候选地点为:

合肥、武汉、长沙、桂林、温州、成都……;

变量有5个:

原始数据见下表(表3-3-4):

表3-3-4七个地点五种变量的数据

福岗

合肥

武汉

长沙

桂林

温州

成都

年平均气温

16.2

15.7

16.3

17.2

18.8

17.9

年平均降雨量

1492

970

1260

1422

1874

1698

976

年日照时数

2000

2209

2085

1726

1709

1848

1239

年极端最低气温

-8.2

-20.6

-17.3

-9.5

-4.9

-4.5

-4.6

一月份平均气温

6.2

1.9

2.8

4.6

8

7.5

5.6

来源:

贺仲雄,王伟.决策科学:

从最优到满意.重庆:

重庆出版社,1988,p190。

作者采用模糊数学中的“相似优先法”处理这个问题,我们采用距离处理同一组数据,并与相似优先法的结果比较。

采用最短距离法聚类的过程如下:

 

①计算样本之间两两距离,建立欧式距离矩阵D。

由于对称性,可以只写出下三角部分。

对样本进行编号,记为1~7:

Case

1:

2:

3:

4:

5:

6:

7:

562.44

247.27

315.42

282.81

661.61

393.94

480.24

1033.20

720.11

452.36

256.04

812.77

498.20

301.82

224.27

919.45

970.16

892.49

660.39

1013.57

944.55

②找出非对角线元素的最小值,d56=224.27,将第5个样本与第6个样本合并。

首先合并第5列和第6列,保留最短距离944.55。

合并方法可以在Word的表格中采用合并单元格的方式。

然后合并第5行和第6行,原则依然是“两数相遇取其短”。

将合并的结果记为第8类,见下表:

8:

桂林,温州

③在前述合并结果中找出对角线以外的最小距离,得到d13=247.27。

然后重复上述合并过程。

为了直观,首先将第3列剪贴到第2列的后面:

(315.42)

将对角线以上的元素剪贴到对角线下对称的位置,然后合并列。

为直观,不妨抹去较大的数:

逐行按列合并单元格:

福岗,3:

逐列按行合并单元格,将合并结果记为第9类:

9:

福岗,武汉

福岗,

④在第二次合并的结果中找到最小距离d89=256.04,重复前述合并过程。

为了直观,首先将第8列剪贴到第9列后面,然后将第8行剪贴到第9行的后面:

桂林,

(812.77)

(301.82)

将出现在对角线以上的数据剪贴到对角线一线对应的单元格中:

逐行按列合并单元格:

福岗,武汉;

逐列按行合并单元格,将合并结果记为第10类:

10:

9:

武汉;

⑤在第三步合并的结果中,找到最小距离d4,10=282.81,然后重复上述合并过程。

首先将第4行第4列剪贴到第10行第10列之下(后):

武汉

(661.61)

将对角线以上的数据661.61剪贴到对角线以下对应的位置:

武汉;

先合并列,再合并行,将结果记为第11类:

11:

10:

桂林,温州;

温州

⑥在第四步合并的结果中,找到最小距离d2,11=315.42,然后重复上述合并过程。

先合并列,后合并行,将结果记为第12类:

12:

11:

长沙;

1

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 成人教育 > 专升本

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2