多元统计思考题及答案.docx

资源描述

多元统计思考题及答案.docx

《多元统计思考题及答案.docx》由会员分享，可在线阅读，更多相关《多元统计思考题及答案.docx（10页珍藏版）》请在冰点文库上搜索。

多元统计思考题及答案.docx

多元统计思考题及答案

《多元统计分析思考题》

第一章回归分析

1、回归分析是怎样的一种统计方法，用来解决什么问题？

答：

回归分析作为统计学的一个重要分支，基于观测数据建立变量之间的某种依赖关系，用来分析数据的内在规律，解决预报、控制方面的问题。

2、线性回归模型中线性关系指的是什么变量之间的关系？

自变量与因变量之间一定是线性关系形式才能做线性回归吗？

为什么？

答：

线性关系是用来描述自变量x与因变量y的关系；但是反过来如果自变量与因变量不一定要满足线性关系才能做回归，原因是回归方程只是一种拟合方法，如果自变量和因变量存在近似线性关系也可以做线性回归分析。

3、实际应用中，如何设定回归方程的形式？

答：

通常分为一元线性回归和多元线性回归，随机变量y受到p个非随机因素x1、x2、x3……xp和随机因素?

的影响，形式为：

是p+1个未知参数，

是随机误差，这就是回归方程的设定形式。

4、多元线性回归理论模型中，每个系数（偏回归系数）的含义是什么？

答：

偏回归系数

是p+1个未知参数，反映的是各个自变量对随机变量的影响程度。

5、经验回归模型中，参数是如何确定的？

有哪些评判参数估计的统计标准？

最小二乘估计法有哪些统计性质？

要想获得理想的参数估计值，需要注意一些什么问题？

答：

经验回归方程中参数是由最小二乘法来来估计的；

评判标准有：

普通最小二乘法、岭回归、主成分分析、偏最小二乘法等；

最小二乘法估计的统计性质:

其选择参数满足正规方程组，

（1）选择参数

分别是模型参数

的无偏估计，期望等于模型参数；

（2）选择参数是随机变量y的线性函数

要想获得理想的参数估计，必须注意由于方差的大小表示随机变量取值的波动性大小，因此自变量的波动性能够影响回归系数的波动性，要想使参数估计稳定性好，必须尽量分散地取自变量并使样本个数尽可能大。

6、理论回归模型中的随机误差项的实际意义是什么？

为什么要在回归模型中加入随机误差项？

建立回归模型时，对随机误差项作了哪些假定？

这些假定的实际意义是什么？

答：

随机误差项?

的引入使得变量之间的关系描述为一个随机方程，由于因变量y很难用有限个因素进行准确描述说明，故其代表了人们的认识局限而没有考虑到的偶然因素。

7、建立自变量与因变量的回归模型，是否意味着他们之间存在因果关系？

为什么？

答：

不是，因果关系是由变量之间的内在联系决定的，回归模型的建立只是一种定量分析手段，无法判断变量之间的内在联系，更不能判断变量之间的因果关系。

8、回归分析中，为什么要作假设检验？

检验依据的统计原理是什么？

检验的过程是怎样的？

答：

因为即使我们已经建立起了模型，但是尚且不知这个回归方程是否能够比较好地反映所描述的变量之间的影响关系，必须进行统计学上的假设检验；

假设性检验原理可以用小概率原理解释，通常认为小概率事件在一次试验中几乎不可能发生的，即对总体的某个假设是真实的，那么不支持这一个假设事件在一次试验中是几乎不可能发生的，要是这个事件发生了，我们就有理由怀疑这一假设的真实性，拒绝原假设；

检验过程：

（1）提出统计假设H0和H1；

（2）构造一个与H0相关的统计量，称其为检验统计量；

（3）根据其显着性水平

的值，确定一个拒绝域；

（4）作出统计决断；

9、回归诊断可以大致确定哪些问题？

回归分析有哪些基本假定？

如果实际应用中不满足这些假定，将可能引起怎样的后果？

如何检验实际应用问题是否满足这些假定？

对于各种不满足假定的情形，分别采用哪些改进方法？

答：

回归诊断解决：

（1）回归方程的线性假定；

（2）是否存在多重共线性；

（3）误差项的正态性假定；

（4）误差项的独立性假设；

（5）误差项同方差假定；

（6）是否存在数据异常；

原基本假定H：

（1）假设回归方程不显着；

（2）假设回归系数不显着；

引起后果：

与模型误差相比，自变量对因变量的影响是不重要的（模型误差太大、自变量对y的影响确实太小）。

如何检验：

用F统计量或者P值法来检验方程的显着性；

改进方法：

（1）对于模型的误差太大，我们要想办法缩小误差，检查是否漏掉了重要的自变量，或检查自变量与y的非线性关系；

（2）对于自变量对y影响较小，此时应该放弃回归分析方法。

10、回归分析中的R2有何意义？

它能用来衡量模型优劣吗？

答：

R2是回归平方和与总离差平方和之比，作为评判一个模型拟合度的标准，称为样本决定系数，其值越接近1，意味着模型的拟合优度越高。

但是其不是衡量模型优劣唯一标准，增加自变量会使得自由度减少，因此需要引入自由度修正的复相关系数。

这些都需要视具体的情况而定。

11、如何确定回归分析中变量之间的交互作用？

存在交互作用时，偏回归系数的意义与不存在交互作用的情形下是否相同？

为什么？

答：

交互作用是指因素之间联合搭配对试验指标的影响作用，存在交互作用是，偏回归系数肯定与不存在是的系数不同，毕竟变量之间有相互影响的关系。

12、有哪些确定最优回归模型的准则？

如何选择回归变量？

答：

（1）修正的复相关系数

达到最大；

（2）预测平方和达到最小；

（3）定义Cp统计量值小，选择

小的回归方程；

（4）赤池信息量达到最小；

按照以上准则进行回归变量的选择。

13、在怎样的情况下需要建立标准化的回归模型？

标准化回归模型与非标准化模型有何关系？

形式有否不同？

答：

在多元线性回归分析中，由于涉及到的变量量纲不同，差别很大，需要对变量进行中心化和标准化，数据中心化处理相当于将坐标原点移至样本中心坐标系的平移不改变直线的斜率；标准化处理后建立的回归方程模型比非标准化的回归方程少一个常数项，系数存在关系。

14、利用回归方法解决实际问题的大致步骤是怎样的？

答：

（1）根据预测目标，确定自变量和因变量；

（2）建立回归预测模型；

（3）进行相关分析；

（4）检验回归预测模型，计算预测误差；

（5）计算并确定预测值。

15、你能够利用哪些软件实现进行回归分析？

能否解释全部的软件输出结果？

答：

目前会用的软件是SPSS和matlab，关于地球物理的软件如grapher也可以进行回归分析。

对于SPSS的一些输出结果，还是不太理解。

第二章判别分析

1、判别分析的目的是什么？

答：

在自然科学和社会科学研究中，研究对象用某种方法已经划分为若干类别，当得到一个新的样本数据时，要确定该样本属于已知的哪一类。

2、有哪些常用的判别分析方法？

这些方法的基本原理或步骤是怎样的？

它们各有什么特点或优劣之处？

答：

（1）距离判别法：

根据已知分类数据，分别计算各类的重心，即是分类的均值；判别方法是—对于任意一个样品，若它与第i类的重心距离最近，就认为它来自第i类；特点是对各类数据分布并无特定的要求

（2）Fisher判别法：

其基本思想是投影，将k组m元数据投影到某一个方向，使得投影后组与组之间尽可能分开，其中利用了一元方差分析的思想导出判别函数；其特点是对总体的分布没有特殊要求，是处理概率分布未知的一种方法。

（3）逐步判别法：

逐步引入一个“最重要”的变量进入判别式，同时对先引入判别式的一些变量进行检验，如果判别能力随着引入新变量而变得不显着，则将它从判别式中剔除，直到没有新的变量能够进入，依然没有旧变量需要剔除为止。

3、判别分析与回归分析有何异同之处？

答：

（1）相同点：

这两种方法都有关于数据预测的功能；

不同点：

这个估计太多了，一般来讲判别分析功能是将样品归类，回归分析是探究样品对因变量的变动影响。

4、判别分析对变量与样本规模有何要求？

答：

判别分析对总体分布没有要求，但是判别分析的假设之一是要求每一个变量不能是其他判别变量的线性组合，即不能存在多重共线性。

5、如何度量判别效果？

有哪些影响判别效果的因素？

答：

通过评价判别准则来度量判别效果，常用方法：

（1）误判率回代法；

（2）误判率交叉确认估计；

影响因素是个总体之间的差异程度，各个总体之间差异越大，就越有可能建立有效的判别准则，如果差异太小，则判别分析的意义不大；当各个总体服从多元正态分布，我们可以根据各总体的均值向量是否相等进行统计检验。

当然也可以检验各总体的协方差矩阵是否相等来采用判别函数。

6、逐步判别是如何选择判别变量的？

基本思想或步骤是什么？

答：

在判别分析中，并不是观测变量越多越好，而是选择主要变量进行判别分析，将各个变量在分析中起的不同作用，将影响力比较低的变量保留在判别式中，会增加干扰，影响效果。

因此选择显着判别力的变量来建立判别式就是逐步判别法。

基本思想：

其与逐步回归法类似，都是采用“有进有出”的算法，即逐步引入一个“最重要”的变量进入判别式，同时对先引入的判别式进行检验，如果其判别能力随着新引入的变量显着性降低，则该因素应该被剔除，直到变量全部进入为止。

7、判别分析有哪些现实应用？

举例说明。

答：

判别分析在实际中的应用无处不在。

例如我们根据各种经济指标把各个国家分为发达国家和发展中国家，通过这些指标成功的判定了一个国家的经济发展水平。

第三章聚类分析

1、聚类分析的目的是什么？

与判别分析有何异同？

这种方法有哪些局限或欠缺？

答：

把某些方面相似的东西进行归类，以便从中发现规律性，达到认识客观事物规律的目的。

其与判别分析相同的地方是都是研究分组的问题；不同的是各自对于预先分组对象不一样，聚类分析是未知类别，判别分析是已知类别。

2、有哪些常用的聚类统计量？

答：

（1）Q型统计量：

对样本进行聚类，用“距离”来描述样本之间的接近程度；

R型统计量：

对变量进行聚类，用“相似系数”来度量变量之间的近视程度。

3、系统（谱系）聚类法的基本思想是怎样的？

它包含哪些具体方法？

答：

先将待聚类的n个样品（或变量）各自看成一类，共有n类，然后按照事先选定的聚类方法计算每两类之间的聚类统计量，即某种距离（或者相似系数），将关系最密切的两类并为一类，其余不变，即的n-1类，再按照前面的计算方法计算新类与其他类之间的距离（或者相似系数），再将关系最密切的两类归为一类，其余不变，即得n-2类，继续下去，每次重复都减少一类，直到所有样品（或者变量）都归于一类。

4、聚类分析对变量与样本规模有何要求?

有哪些因素影响分类效果？

要想减少不利因素的影响，可以采取哪些改进方法？

答：

聚类分析要求其样本规模较大，需要变量之间相关性较弱，变量个数小于样本数。

5、实际应用问题，如何确定分类数目？

答：

按理来说聚类分析的分类数目是事先不知道的，但是在实际应用中，应该根据相关专业知识确定分类数目，结合聚类统计量参考确定，并使用误判定理具体分析。

6、快速聚类法（K—均值法）的基本思想或步骤是怎样的？

答：

如果待分类样品比较多，应先给出一个大概的分类，然后不断对其进行修正，一直到分类结果比较合理为止。

7、有序样品的最优分别法的基本思想或步骤是怎样的？

答：

将n个样品看成一类，然后根据分类的误差函数逐渐增加分类，寻求最优分割，用分段的方法找出使组内离差平方和最小的分割点。

8、应用聚类分析解决实际问题的基本步骤是怎样的？

应该注意哪些方面的问题？

答：

（1）n个变量（样品）各自成一类，一共有n类，计算两两之间的距离，构成一个对称矩阵；

（2）选择这个对称矩阵中主对角元素以外的上（或者下）三角部分中的最小元素，合成的新类，并计算其与其他类之间的距离；

（3）划去与新类有关的行和列，将新类与其余类别的距离组成新的n-1阶对称矩阵；

（4）再重复以上步骤，直到n个样品聚为一个大类；

（5）记录下合并类别的编号以及所对应的距离，绘制聚类图；

（6）决定类的个数和聚类结果。

第四章主成分分析与典型相关分析

1、主成分分析的基本思想是什么？

在低维情况下，如何利用几何图形解释主成分的意义？

答：

构造原始变量的适当线性组合，使其产生一系列互不相关的新变量，从中选出少量的几个新变量并使它们含有足够多的原始变量的信息，从而使这几个新变量代替原始变量分析问题和解决问题提供了可能。

几何解释，可以借用平面上旋转坐标系方法来达到降维的目的。

2、什么是主成分的贡献率与累计贡献率？

实际应用时，如何确定主成分的个数？

答：

主成分中，描述第k个主成分提取的信息占据原来变量总信息的比重，称为第k个主成分的贡献率；

若将前m个主成分提取的总信息的比重相加，称为主成分的累计贡献率。

实际应用中，通常选取前m个主成分的累积贡献率达到一定的比列来确定主成分的个数。

3、主成分有哪些基本性质？

答：

（1）每一个主成分都是原始变量的线性组合；

（2）主成分的数目大大小于原始变量的数目；

（3）主成分保留了原始变量所包含的绝大部分信息；

（4）各个主成分之间互不相关。

4、对于任何情形的多个变量，都可以采取主成分方法降维吗？

为什么？

答：

肯定不是，必须要满足适合主成分分析的要求才可以降维。

举个简单的例子，其适用范围是各个变量之间应该具有比较强的相关性，如果多个变量均为各项同性，则主成分分析效果不明显。

5、怎样的情况下需要计算标准化的主成分？

答：

因为实际问题的变量有很多量纲，不同的量纲会引起各个变量的取值的分散程度差异较大，总体方差将主要受到方差较大的变量的控制。

如果用协方差矩阵

求主成分，则优先照顾方差大的变量，可能会得到不合理的结果，因此为了消除量纲的影响，需要计算标准化的主成分。

6、主成分有哪些应用?

答：

它的主要作用是降维，因此应用范围比较广泛，举个例子，衡量一个城市的综合发展指数涉及到的变量参数相当多，但是如果运用主成分的思想，只需要考虑较少的变量样品就好，一般选择GDP指数、环境指数、人口、面积等。

7、如何解释主成分的实际含义？

答：

主成分的实际意义需要结合到实际应用中，其往往不是最终目的，重要的是利用降维的思想来综合分析原始信息，利用有限的主成分来解释规律，从而进行相关研究。

8、典型相关分析的基本思想是什么？

有何实际用途？

答：

是研究两组变量间的相互依赖关系，把两组变量之间的关系变为研究两个新变量的相关，而又不抛弃原来变量的信息；

因为这两组变量所代表的内容不同，可以直接考虑其相关关系来反映两组变量之间的整体相关性。

例如工厂考察使用原料质量对生产产品质量的影响，需要对产品各种各样质量指标与所使用的原料指标之间的相关关系进行评判。

9、典型相关分析与回归分析、判别分析、主成分分析、因子分析有何关联？

试比较这些方法的异同之处。

答：

这是一个涉及面很大的问题，总的来讲这些方法的存在能够帮助我们对于客观数据现象的相关关系有一个更加深刻的了解，有的是对另外一种方向的优化与推广，有的本质思想与另外一种分析方法很接近，异同点可以根据教科书进行两两比对。

10、典型相关分析有哪些基本假定？

答：

线性假定影响典型相关分析的两个方面，首先任意两个变量间的相关系数是基于线性关系的。

如果这个关系不是线性的，一个或者两个变量需要变换。

其次，典型相关是变量间的相关，如果关系不是线性的，典型相关分析将不能测量到这种关系。

11、如何解释典型相关函数的实际意义？

答：

（1）典型权重（标准化系数）；

（2）典型荷载（结构系数）；

（3）典型交叉载荷。

用以上三种参数来使多个变量与多个变量的相关性转化为两个变量的相关性。

12、典型相关方法中冗余度分析的意义是什么？

答：

冗余度主要说明典型变量对各组观测变量总方差的代表比例和解释比例。

第五章因子分析与对应分析

1、因子分析是怎样的一种统计方法？

它的基本目的和用途是什么？

答：

其根据相关性大小将变量分组，使得同组内的变量之间相关性较高，不同组的相关性较低，每组变量代表一个基本结构，用一个不可观测的综合变量表示，这个基本结构成为公共因子，对所研究的问题就可以用最少的个数的不可观测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一个分量；

目的：

利用降维的思想，从研究原始变量相关矩阵内部结构出发，把一些具有错综复杂关系的变量归结为少数几个综合因子；

用途：

对变量进行分类，根据因子得分值在其轴所构成的空间中吧变量点画出来，从而分类。

2、因子分子中的KMO统计量与巴特莱特球形性检验的目的是什么？

答：

KMO统计量：

通过比较各个变量之间简单相关系数和偏相关系数的大小判断变量间的相关性，相关性强时，偏相关系数远小于简单相关系数，KMO值接近1.一般KMO＞0.9非常适合做因子分析；而大于0.7都可以，但是0.5一下不适合；

巴特莱特球形检验：

用于检验相关矩阵是否是单位矩阵，及各个变量是否是独立的。

它以变量的相关系数矩阵为出发地点，如果统计量数值较大，且相伴随的概率值小于用户给定的显着性水平，则应该拒绝原假设；反之，则认为相关系数矩阵可能是一个单位阵，不适合做因子分析。

3、因子分析有哪些类型？

它们有何区别？

Q型因子分析与聚类分析有何异同？

答：

Q型和R型两种；

Q型：

对样本进行因子分析，

R型：

对变量进行因子分析；

Q型因子分析可以认为是考虑指标的重要性，保留哪些去掉哪些；Q型聚类分析考虑的是指标的相关性，哪几类指标可能组成一类，使得组内距离尽可能小，组间距离尽可能大。

4、因子分析中的变量类型是怎样的？

因子分析对变量数目有没有要求？

对样本规模有没有要求？

答：

被描述的变量一般来讲都是可观测的随机变量；

变量必须是标准化的；

样品的数目大于变量的数目。

5、因子分析有怎样的基本假定？

对样本特点（或性质）有何要求？

答：

各个共同因子之间不相关，特殊因子之间也不相关，共同因子与特殊因子之间也不相关。

样本之间相关性越强越好。

6、因子分析模型中，因子载荷、变量共同度、方差贡献等统计量的统计意义是什么？

答：

（1）因子载荷：

指综合因子与公共因子的相关关系，表示其依赖公共因子的程度，反映了第i个变量对第j个公共因子的相对重要性，也是其间的密切程度，也是其公共因子的权；

（2）变量共同度：

指因子载荷矩阵中各行元素的平方和，表示x的第i个分量对于公共因子的每一个分量的共同依赖程度；

（3）方差贡献：

指因子载荷矩阵第j列各个元素的平方和，是衡量公共因子相对重要性的指标。

7、因子分析与主成分分析有何区别与联系？

它们分别适用于怎样的情况？

答：

联系：

均是降维的处理变量（样品）的方法；

区别：

因子分析是把变量表示成各个因子的线性组合，而主成分分析是把主成分表示成变量的线性组合；

因子分析重点是解释各个变量之间的协方差，主成分分析是解释变量的总方差；

因子分析需要一些假定，共同因子之间不相关，特殊因子之间不相关，以上两者也不相关，而主成分分析不需要假设；

因子分析中因子不是独特的，可以旋转得到不同的因子，主成分分析中对于给定的协方差和相关矩阵特殊值，成分是独特的；

因子个数需要分析者指定，而主成分中成分的数量是一定的。

8、如何确定公共因子数目？

如何解释公共因子的实际意义?

答：

用方差累计贡献率，一般只要前几个达到80%即可，或者碎石图也可以确定。

公共因子的含义，与实际问题相关，表示变量之间内部错综复杂的关联性。

9、怎样的情况下，需要作因子旋转？

答：

如果求出主因子解，但是主因子代表的变量不是很突出，容易使因子的含义模糊不清，需要做旋转。

10、有哪些估计因子得分的方法？

因子得分的估计是普通意义下的参数估计吗？

为什么？

答：

回归估计法、巴特莱特估计法、汤姆逊估计法；

不是普通意义下的参数估计，需要用公共因子F用变量的线性组合来表示。

11、对应分析的基本思想或原理是什么？

试举例说明它的应用。

答：

为了克服因子分析的不足之处，寻求R型和Q型变量的内在联系，将两者统一起来，将样品和变量反映到相同的坐标轴上进行解释。

比如对某一行业的经济效益进行综合性评价，要研究企业与企业的信息，指标与指标的内部结构、企业与指标的内在联系，这三个方面是一个密不可分的整体。

12、对应分析中总惯量的意义是什么？

答：

代表总体两个变量相互联系的总信息量，可以反映某种变量特征属性的接近程度，及时对数据组分进行约束。

展开阅读全文