多元统计分析期末复习Word文件下载.docx

资源描述

多元统计分析期末复习Word文件下载.docx

《多元统计分析期末复习Word文件下载.docx》由会员分享，可在线阅读，更多相关《多元统计分析期末复习Word文件下载.docx（15页珍藏版）》请在冰点文库上搜索。

多元统计分析期末复习Word文件下载.docx

（4）.多元正态分布的不相关与独立■等价.,Xp

X~Np（,）'

例3.见黑板.Ns（Ad,AA）

三、多元正态分布的参数估计

⑴“

为来自

p兀总体X的（简单）样本”的理解--

-独立同截面.

（1）,

X（n）

（2）多兀分布样本的数字特征-

—常见多兀统计量

（Xi,X2

,Xp）'

样本均值向量

（X（i）

X）（X（i）X）'

—

样本离差阵S=

样本协方差阵V=

样本相

X~Np（

-）

关阵RWp

（n

）X

（3）,V分别是

和

的最大似然估计；

⑷估计的性质

是的无偏估计；

，V分别是和的有效和一致估计;

S〜，与S相互独立；

第五章聚类分析：

一、什么是聚类分析：

聚类分析是根据“物以类聚”的道理，对样品或指标进行分

类的一种多元统计分析方法。

用于对事物类别不清楚，甚至事物总共可能有几类都不

能确定的情况下进行事物分类的场合。

聚类方法：

系统聚类法（直观易懂）、动态聚

类法（快）、有序聚类法（保序）……

Q-型聚类分析（样品）R-型聚类分析（变量）

变量按照测量它们的尺度不同，可以分为三类：

间隔尺度、有序尺度、名义尺度。

二、常用数据的变换方法:

中心化变换、标准化变换、极差正规化变换、对数变换（优

缺点）

1中心化变换（平移变换）：

中心化变换是一种坐标轴平移处理方法，它是先求出每个变量的样本平均值，再从原始数据中减去该变量的均值，就得到中心化变换后的数据。

不改变样本间的相互位置，也不改变变量间的相关性。

2、标准化变换：

首先对每个变量进行中心化变换，然后用该变量的标准差进行标准化。

经过标准化变换处理后，每个变量即数据矩阵中每列数据的平均值为0,方差为1,

且也不再具有量纲，同样也便于不同变量之间的比较。

3、极差正规化变换（规格化变换）：

规格化变换是从数据矩阵的每一个变量中找

出其最大值和最小值，这两者之差称为极差，然后从每个变量的每个原始数据中减去该变量中的最小值，再除以极差。

经过规格化变换后，数据矩阵中每列即每个变量的

最大数值为1,最小数值为0,其余数据取值均在0-1之间；

且变换后的数据都不再具有量纲，便于不同的变量之间的比较。

4、对数变换：

对数变换是将各个原始数据取对数，将原始数据的对数值作为变换后的新值。

它将具有指数特征的数据结构变换为线性数据结构。

三、样品间相近性的度量

研究样品或变量的亲疏程度的数量指标有两种：

距离，它是将每一个样品看作p

维空间的一个点，并用某种度量测量点与点之间的距离，距离较近的归为一类，距离

较远的点应属于不同的类；

相似系数，性质越接近的变量或样品，它们的相似系数越

接近于1或一I，而彼此无关的变量或样品它们的相似系数则越接近于0,相似的为

一类，不相似的为不同类。

样品之间的聚类即Q型聚类分析，则常用距离（统计量）来测度样品之间的亲疏程度；

而变量之间的聚类即R型聚类分析，常用相似系数（统计量）来测度变量之间的亲疏程度。

1、距离的算法：

明氏距离兰氏距离斜交空间距离马氏距离

3、样品分类和指标分类：

对样品分类常用距离，对指标分类常用相似系数

4、明氏（Minkowski）距离的两个缺点：

①明氏距离的值与各指标的量纲有关，而

各指标计量单位的选择有一定的人为性和随意性，各变量计量单位的不同不仅使此距

离的实际意义难以说清，而且，任何一个变量计量单位的改变都会使此距离的数值改变从而使该距离的数值依赖于各变量计量单位的选择。

②明氏距离的定义没有考虑各

个变量之间的相关性和重要性。

实际上，明考夫斯基距离是把各个变量都同等看待，将两个样品在各个变量上的离差简单地进行了综合.

5、相似系数：

通常所说相关系数，一般指变量间的相关系数，作为刻划样品间的相似关系也可类似给出定义，即第i个样品与第j个样品之间的相似系数定义为：

（XikXi）（XjkXj）实际上，就是两个向量中心化后的夹

ijP2P2

角余弦[ki（XikXi）][ki（XjkXj）]

6、距离和相似系数选择的原则：

（1）所选择的亲疏测度指标在实际应用中应有明确

的意义。

（2）亲疏测度指标的选择要综合考虑已对样本观测数据实施了的变换方法和将要采用的聚类分析方法。

（3）适当地考虑计算工作量的大小。

练习：

1.聚类分析是建立一种分类方法，它将一批样品或变量按照它们在性质上的

—进行科学的分类•

2.Q型聚类法是按_进行聚类，R型聚类法是按—进行聚类。

3.Q型聚类统计量是—，而R型聚类统计量通常采用—o

4•在聚类分析中需要对原始数据进行无量纲化处理，以消除不同量纲或数量级的影

响，达到数据间可同度量的目的。

常用的无量纲化方法有以下几种：

—、、__

5.Q型聚类方法有___、___、___、___等。

第六章判别分析：

1.四种判别方法：

距离判别法、费歇判别法、贝叶斯判别法、逐步判别法。

2.贝叶斯Bayes判别法：

距离判别方法简单实用，但没有考虑到每个总体出现的机会

大小，即先验概率，没有考虑到错判的损失；

Fisher判别法随着总体个数的增加，

建立的判别式也增加，计算量加大，如果考虑各总体的重要性，问题会突出而简单许多。

既要考虑到各个总体出现的先验概率，又要考虑到错判造成的损失，Bayes判别

就具有这些优点，其判别效果更加理想，应用也更广泛。

基本思想：

总是假定对所研究的对象已有一定的认识，常用先验分布来认识它，

然后，基于抽取的样本对先验概率作修正，得到后验概率，最后采用相应的判别准则

（如误判率最小准则，后验概率最大准则等）进行判别。

Bayes判别法，对各类（总

体）的分布有特定的要求，即已知先验概率和分布密度函数。

4.各判别法之间的联系：

在正态等协方差阵及先验概率相等的条件下贝叶斯判别与距离判别等价；

不加权的Fisher判别法等价于距离判别法

1•判别分析是要解决在研究对象已的情况下，确定新的观测数据属

于已知类别中哪一类的多元统计方法。

2.用判别分析方法处理问题时，通常以作为衡量新样本点与各已知组别接近

程度的指标。

3•进行判别分析时，通常指定一种判别规则，用来判定新样本的归属，常见的判别准则有、。

4.在p维空间Rp中，点与点之间的接近和疏远尺度用来衡量，最简单的就

是或。

5.类内样本点接近，类间样本点疏远的性质，可以通过与的大小差

异表现出来，而两者的比值能把不同的类区别幵来。

这个比值越大，说明类与类间的差异越，分类效果越。

6.Fisher判别法是找一个由p个变量组成的，使得各自组内点的尽可能接近，而不同组间点的尽可能疏远

简答题:

1判别分析的分类：

2•判别的基本思想：

是根据已掌握的、历史上若干样本的p个指标数据及所属类别的信息，总结出该事物分类的规律性，建立判别公式和判别准则。

根据总结出来的判别公式和判别准则，判别未知类别的样本点所属的类别。

3.简述两个总体的判别及判别准则:

基本思路：

（1）统计模型：

设G1,G2是两个不同的P维已知总体，x=（x1，…，xp）T是一个待判样品；

（2）距离判别准则：

（3）判别函数：

4.简述Fisher判别法及具体判别步骤：

Fisher判别的思想是投影，将k组p维数投影到某一个方向，使得他们的投影组与组之间尽可能的分幵。

5.简述逐步判别基本原理：

逐步引入变量，每次把一个判别能力最强的变量引入，每引入一个新的变量，对老变量又逐个进行检验，D如如其判别能力因新变量的引入而变得不显着，应把它从判别式中剔除，最终建立的判别函数中仅保留判别能力显着的变量。

6.简述BAYES判别分析与其它判别方法的优劣：

（1）与距离判别的优劣比较：

距离判别优于两个总体情况下的判别，对两个总体几乎没有任何要求，简捷，实用，易懂；

距离判别法在多个总体时，没有考虑各总体出现的概率，对各个变量的重要性一视同仁，难免产生误判。

Bayes判别法对的理论与方法严密而完善，对研究对象的信息利用充分，误判率大大降低，但计算较复杂。

（2）与Bayes判别法的比较：

Eay

es判别与Fisher判别的比较：

对总体的分布要求不同；

多个总体下，Fis

her判别的计算量大，但均值向量共线性程度较好时，可以考虑用Fisher判别；

各总体出现的重要性不同时应使用是Bayes判别。

第七章、主成分分析

1.主成分分析就是设法将原来变量重新组合成一组新的相互无关的综合变量来代替

原来的变量，并尽可能多地反映原来变量的信息数学表现为：

Var（Yj）最大；

cov（Yi，Yj）=O；

2.主成分就是以协方差阵的特征向量为系数的线性组合，iP它们互不相关，其方差的特

/i1

征根。

k/P

主成分的名次是按特征根取值大小的顺序排列的。

i5.8322.00

3.主成分模型中各统计量的意义：

，称为贡献率

k个主成分的方差和在全

1）贡献率：

第i个主成分的方差在全部方差中所占比重反映了原来P个指标多大的信息，有多大的综合能力

2）累积贡献率：

前k个主成分共有多大的综合能力，用这

部方差中所占比重来描述，称为累积贡献率。

例：

设的协方差矩阵为解得特征根为，

第一个主成分的贡献率为5.83/（5.83+2.00+0.17）=72.875%，尽管第一个主成

分的贡献率并不小，但在本题中第一主成分不含第三个原始变量的信息，所以应该取两个主成分。

4.1）从协方差阵和相关系数矩阵出发计算主成分一般是不同的。

2）主成分是原始变量的线性组合，故而起着原始变量的综合作用

3）对总体分布类型没有特定要求。

4）主成分个数的确定。

5）主成分用于系统评估。

6）除主成分分析之外，还有主成分回归和加权主成分分析。

填空：

1、对P元正态分布变量来说，找主成分的问题就是找P维空间中的椭球体的主轴问

题。

2、样本主成分的总方差等于

3、原始变量协方差矩阵的特征根的统计含义是o

4、主成分表达式的系数向量是—协方差阵［的特征向量。

5、主成分分析就是通过适当的变量替换，使新变量成为原变量的线性组合，并寻求主成分

来分析事物的一种方法。

第八章、因子分析11.5520.8530.6

1•什么是因子分析及基本思想

多元数据常常包含大量的测量变量，有时这些变量是相互重叠，存在相关性。

因

子分析的目的就是从实验所得的数据样本中概括和提取出较少量的关键因素，它们能

反映和解释所得的大量观测事实，从而建立最简洁、最基本的概念系统，揭示出事物之间最本质的联系。

因子分析的基本思想是通过变量（或样品）的相关系数矩阵内部结构的研究，找

出能控制所有变量的少数几个随机变量去描述多个变量（或样品）之间的相关关系。

2.主成分分析与因子分析的联系与区别？

相同之处：

都是多元数据处理降维的统计方法；

求解过程的出发点是一样的；

不同之处：

主成分分析是变量变换：

原始变量的线性组合表示新的综合变量，即主成分；

而因子分析需要构造因子模型：

潜在的假想变量和随机影响变量的线性组合表示

原始变量；

主成分的系数是唯一的；

而因子分析的载荷系数是不唯一的；

3.因子载荷aij的统计意义：

因子载荷a0是第i个变量与第j个公共因子的相关系数载荷矩阵中第i行，第j列的元素）反映了第i个变量与第j个公共因子的相关重要性。

绝对值越大，相关的密切程度越高。

例题：

假定某地固定资产投资率，通货膨胀率，失业率，相关系数矩阵

为

试用主成分分析法求因子分析模型。

特征根为:

可取前两个因子F1和F2为公共因子，第一公因子F1物价就业因子，对X的贡

献为1.55o第一公因子F2为投资因子，对X的贡献为0.85。

共同度分别为1,0.706，

0.706o

4.为什么要旋转因子：

由于因子载荷阵是不惟一的，所以应该对因子载荷阵进行旋转。

目的是使因子载荷阵的结构简化，使载荷矩阵每列或行的元素平方值向0和1两极分

化。

有三种主要的正交旋转法:

四次方最大法、方差最大法和等量最大法。

5.因子分析通常包括以下五个步骤：

选择分析的变量；

计算所选原始变量的相关系

数矩阵；

提取公共因子；

因子旋转；

计算因子得分。

他分析，也可以来进行综合评价等。

和。

记为

7.因子分析数学模型：

XAF

4因子分析和主成分分析在求解过程中都是从出发

简答：

1.比较因子分析和主成分分析模型的关系，说明它们的相似和不同之处。

2.能否将因子旋转的技术用于主成分分析，使主成分有更鲜明的实际背景

以根据原始变量计算出各个样本（个体）在每个因子上的得分，称为因子得分，因子

得分可以有多种求解方法，计算出因子得分后，可以把各个因子作为新的变量用于其

第九章、对应分析

1.对应分析：

也称关联分析、R-Q型因子分析，通过分析由定性变量构成的交互汇总

表来揭示变量间联系。

可以揭示同一变量的各个类别之间的差异，以及不同变量各个

类别之间的对应关系。

对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。

它最大特点是能把众多的样品和众多的

变量同时作到同一张图解上，将样品的大类及其属性在图上直观而又明了地表示出

来，具有直观性。

2.对应分析方法的优缺点：

（1）定性变量划分的类别越多，这种方法的优越性越明显

（2）揭示行变量类间与列变量类间的联系（3）将类别的联系直观地表现在图形中

（4）不能用于相关关系的假设检验（5）维数有研究者自定（6）受极端值的影响

第十章：

1.研究两组随机变量之间的相关性用典型相关分析。

典型相关分析就是分别构造各组

变量的适当线性组合，将两组变量的相关性转化为两个变量的相关性。

数学表现为：

最大；

U和V分别来自两组变量的线性组合。

2.课件P21页例题。

第十一章多重多元回归分析

一•回归分析的功能及涵义：

回归分析是研究一个（或多个）因变量对于一个或多个

其他变量（即自变量）的依存关系，并用数学模型加以模拟，目的在于根据已知的或

在多次重复抽样中固定的解释变量之值，估计、预测因变量的总体平均值。

二•回归分析的研究思路和步骤：

根据研究问题的性质、要求建立回归模型。

根据样本观测值对回归模型参数进行估计，求得回归方程。

对回归方程、参数估计值

进行显着性检验。

并从影响因变量的自变量中判断哪些显着，哪些不显着。

利用回归方程进行预测。

三.多元线性分析中逐步回归的原理

基本操作思想：

第一组回归方程：

1、首先选一个因变量y1,对它来筛选所有自变量；

转2

2、选第二个因变量y2，考虑y1,y2中是否有剔除；

转3

3、若没有剔除，由y1,y2筛选自变量；

转4

4、重复第二步；

第二组回归方程：

1、原始数据中删除第一组回归方程中已入选的因变量的资料;

2、重复整个过程指导因变量都有了回归方程时结束。

操作原理：

不断的假设检验

最终目标：

因变量分组

具体计算步骤：

第1步:

确定自变量和因变量的取舍标准；

设Fx和Fy分别为自变量和因变量的引

入和剔除临界值（可取相等）,

第2步：

任意（或回归平方和最大者）选入一个因变量Y1。

假设k步后，此时已引

入ml个自变量和pl个因变量;

第3步:

逐个检查是否需要剔除自变量，如有剔除转回三步；

第4步:

逐个检查是否需要引人自变量，如有引入转到三步；

第5步:

逐个检查是否需要剔除因变量，如有剔除转到三步；

第6步:

逐个检杳是否需要引入因变量，如有引入转到第-步；

第7步:

计算回归方程。

如果自第二步〜第六步已引入k个因变量，则计算此组的k

个回归方程;

第8步:

删除已引入的因变量的数据而保留所有自变量的数据，从第二步起继续计算

下一组回归方程，如此继续，直到全部因变量都有了回归方程为止。

附注：

回归分析中的自变量是非随机性的且自变量之间不存在严格线性相关（共线性）；

因变量之间是允许线性相关关系的；

若是多重多元且共线性模型，将使用偏最小二乘回归分析（加入主成分分析思想，典型相关分析的操作方法）

展开阅读全文