多元统计分析简答题.docx

上传人:b****4 文档编号:4695429 上传时间:2023-05-07 格式:DOCX 页数:34 大小:115.29KB
下载 相关 举报
多元统计分析简答题.docx_第1页
第1页 / 共34页
多元统计分析简答题.docx_第2页
第2页 / 共34页
多元统计分析简答题.docx_第3页
第3页 / 共34页
多元统计分析简答题.docx_第4页
第4页 / 共34页
多元统计分析简答题.docx_第5页
第5页 / 共34页
多元统计分析简答题.docx_第6页
第6页 / 共34页
多元统计分析简答题.docx_第7页
第7页 / 共34页
多元统计分析简答题.docx_第8页
第8页 / 共34页
多元统计分析简答题.docx_第9页
第9页 / 共34页
多元统计分析简答题.docx_第10页
第10页 / 共34页
多元统计分析简答题.docx_第11页
第11页 / 共34页
多元统计分析简答题.docx_第12页
第12页 / 共34页
多元统计分析简答题.docx_第13页
第13页 / 共34页
多元统计分析简答题.docx_第14页
第14页 / 共34页
多元统计分析简答题.docx_第15页
第15页 / 共34页
多元统计分析简答题.docx_第16页
第16页 / 共34页
多元统计分析简答题.docx_第17页
第17页 / 共34页
多元统计分析简答题.docx_第18页
第18页 / 共34页
多元统计分析简答题.docx_第19页
第19页 / 共34页
多元统计分析简答题.docx_第20页
第20页 / 共34页
亲,该文档总共34页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

多元统计分析简答题.docx

《多元统计分析简答题.docx》由会员分享,可在线阅读,更多相关《多元统计分析简答题.docx(34页珍藏版)》请在冰点文库上搜索。

多元统计分析简答题.docx

多元统计分析简答题

1、简述多元统计分析中协差阵检验的步骤

第一,提出待检验的假设H0和H1;

第二,给出检验的统计量及其服从的分布;

第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域;

第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。

协差阵的检验

检验

检验

统计量

2.针对一个总体均值向量的检验而言,在协差阵已知和未知的两种情形下,如何分别构造的统计量?

3.作多元线性回归分析时,自变量与因变量之间的影响关系一定是线性形式的吗?

多元线性回归分析中的线性关系是指什么变量之间存在线性关系?

答:

作多元线性回归分析时,自变量与因变量之间的影响关系不一定是线性形式。

当自变量与因变量是非线性关系时可以通过某种变量代换,将其变为线性关系,然后再做回归分析。

多元线性回归分析的线性关系指的是随机变量间的关系,因变量y与回归系数βi间存在线性关系。

多元线性回归的条件是:

(1)各自变量间不存在多重共线性;

(2)各自变量与残差独立;

(3)各残差间相互独立并服从正态分布;

(4)Y与每一自变量X有线性关系。

4.回归分析的基本思想与步骤

基本思想:

所谓回归分析,是在掌握大量观察数据的基础上,利用数理统计方法建立因变量与自变量之间的回归关系函数表达式(称回归方程式)。

回归分析中,当研究的因果关系只涉及因变量和一个自变量时,叫做一元回归分析;当研究的因果关系涉及因变量和两个或两个以上自变量时,叫做多元回归分析。

此外,回归分析中,又依据描述自变量与因变量之间因果关系的函数表达式是线性的还是非线性的,分为线性回归分析和非线性回归分析。

通常线性回归分析法是最基本的分析方法,遇到非线性回归问题可以借助数学手段化为线性回归问题处理。

步骤:

1)确定回归方程中的解释变量和被解释变量。

2)确定回归模型

  根据函数拟合方式,通过观察散点图确定应通过哪种数学模型来描述回归线。

如果被解释变量和解释变量之间存在线性关系,则应进行线性回归分析,建立线性回归模型;如果被解释变量和解释变量之间存在非线性关系,则应进行非线性回归分析,建立非线性回归模型。

3)建立回归方程

  根据收集到的样本数据以及前步所确定的回归模型,在一定的统计拟合准则下估计出模型中的各个参数,得到一个确定的回归方程。

4)对回归方程进行各种检验

  由于回归方程是在样本数据基础上得到的,回归方程是否真实地反映了事物总体间的统计关系,以及回归方程能否用于预测等都需要进行检验。

5)利用回归方程进行预测

5.多重共线性问题、不良后果、解决方法

多重共线性是指线性回归模型中的自变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。

常见的是近似的多重共线性关系,即存在不全为0的p个常数C1,C2,…,Cp使得C1Xi1+C2Xi2+…+CpXip≈0,i=1,2,…n

不良后果:

模型存在完全的多重共线性,则资料阵X的秩

对于近似多重共线性情况,虽有r(X)=p+1,但|XTX|≈0,从而矩阵(XTX)-1的主对角线上的元素很大,使得估计的参数向量的协方差阵的对角线上的元素也很大,导致普通最小二乘参数估计量并非有效。

检验方法:

方差扩大因子(VIF)法和特征根判定法

方差扩大因子表达式为:

VIFi=1/(1-Ri2),其中Ri为自变量xi对其余自变量作回归分析的复相关系数。

当VIFi很大时,表明自变量间存在多重共线性。

解决方法:

当发现自变量存在严重的多重共线性时,可以通过剔除一些不重要的自变量、增大样本容量、对回归系数做有偏估计(如采用岭回归法、主成分法、偏最小二乘法等)等方法来克服多重共线性。

6.为什么要进行回归方程的显著性检验?

答:

对于任意给定的一组观测数据(xi1,xi2,...,xip;yi),(i=1,2,...,n),我们都可以建立回归方程。

但实际问题很可能y与自变量x1,x2,...,xp之间根本不存在线性关系,这时建立起来的回归方程的效果一定很差,即回归值yi实际上不能拟合真实的值yi。

即使整个回归方程的效果是显著的,在多元的情况下,是否每个变量都起着显著的作用呢?

因此还需要对各个回归系数进行显著性检验,对于回归效果不显著的自变量,我们可以从回归方程中剔除,而只保留起重要作用的自变量,这样可以使回归方程更简练。

7.统计性的依据是什么?

给出一个回归方程如何做显著性检验?

统计性的依据是方差分析。

对于多元线性回归方程作显著性检验就是要看自变量x1,x2,...xp从整体上对随机变量y是否有明显的影响,即检验假设H0:

β1=β2=...=βp=0H1:

至少有某个βi≠0,1<=i<=p

如果H0被接受,则表明y与x1,x2,...xp之间不存在线性关系,为了说明如何进行检验,我们首先要建立方差分析表。

在进行显著性检验中,我们可以用F统计量来检验回归方程的显著性,也可以用P值法做检验。

F统计量是:

F=MSR/MSE=[SSR/p]/[SSE/(n-p-1)]

当H0为真时,F~F(p,n-p-1)。

给定显著性水平α,查F分布表得临界值F1-α(p,n-p-1),计算F的观测值,若F0<=F1-α(p,n-p-1),则接受H0,即认为在显著性水平α之下,认为y与x1,x2,...xp之间线性关系不显著。

利用P值法做显著性检验十分方便,这里的P值是P(F>F0),定显著性水平α,若p<α,则拒绝H0,反之接受H0。

回归系数的显著性检验

回归方程通过了显著性检验并不意味着每个自变量xi都对y有显著影响。

而回归系数的显著性检验的目的就是从回归方程中剔除那些对y的影响不显著的自变量,从而建立一个较为有效的回归方程。

如果自变量xi对y无影响,则在线性模型中,βi=0

检验xi的影响是否显著等价于检验假设

H0:

βi=0,H1:

βi≠0

对给定的显著性水平α,当|ti|>tα/2(n-p-1)时,拒绝H0。

反之,则接受H0。

数据的中心化和标准化

目的:

解决利用回归方程分析实际问题时遇到的诸多自变量量纲不一致的问题。

数据中心化处理的几何意义:

相当于将坐标原点移至样本中心,而坐标系的平移并不改变直线的斜率,只改变了截距。

通过对残差进行分析,可以在一定程度上回答下列问题:

1)回归函数线性假定的可行性;

2)误差项的等方差假设的合理性;

3)误差项独立性假设的合理性;

4)误差项是否符合正态分布;

5)观测值中是否存在异常值;

6)是否在模型中遗漏了某些重要的自变量。

8.标准化回归方程与非标准化回归方程有何不同?

在怎样的情况下需要将变量标准化?

标准化回归方程就是将自变量因变量都标准化后的方程。

在spss输出的回归系数中有一列是标准化的回归系数,由于都标准化了,因此标准化方程中没有常数项了。

对数据标准化,即将原始数据减去相应变量的均数后再除以该变量的标准差,计算得到的回归方程称为标准化回归方程,相应的回归系数为标准化回归系数。

一般情况下的回归,并不必须标准化,直接回归即可。

在做主成分分析包括因子分析时,则必须标准化。

9.回归分析和相关分析的区别和联系

相关分析和回归分析都是对客观事物数量依存关系的分析,均有一元和多元,线性与非线性之分,在应用中相互结合渗透,但仍有差别,主要是:

(1)相关分析主要刻画两类变量间线性相关的密切程度,而回归分析则是揭示一个变量如何与其他变量相联系,并可由回归方程进行控制和预测

(2)在相关分析中,变量y与x处于平等的地位,在回归分析中,因变量y处于被解释的特殊地位

(3)在相关分析中所涉及的变量y与x完全是随机变量;而在回归分析中因变量y是随机变量,自变量可以是随机变量也可以是非随机变量。

一般来说,只有存在相关关系才可以进行回归分析,相关程度越高,回归分析的结果就越可靠。

10.回归方程的基本假定?

(1)回归函数的线性假设

(2)误差项的等方差假设

(3)误差项的独立性假设

(4)误差项的正态分布假设

11.运用回归分析解决问题时,回归变量的选择理论依据的什么?

选择回归变量时应注意哪些问题?

(1)从拟合角度考虑,可以采用修正的复相关系数达到最大的准则

准则1:

修正的复相关系数Ra2达到最大。

因为:

Ra2=1-MSE/(SST/(n-1))从这个关系式容易看出,Ra2达到最大时,MSE达到最小。

(2)从预测的角度考虑,可以采用预测平方和达到最小的准则及Cp准则

准则2:

预测平方和PRESSp达到最小

准则3:

(Cp准则)

(3)从极大似然估计角度考虑,可以采用赤池信息量化准则(AIC准则)

准则4:

赤池信息量达到最小

AIC=nln(SSEp)+2p选择AIC值最小的回归方程为最优回归方程

自变量的选择问题可以看成是应该采用全模型还是选模型的问题

全模型正确误用选模型:

全模型相应参数为有偏估计,选模型预测也是有偏的。

选模型的参数估计和预测残差以及均方差都有较小的方差。

选模型正确误用全模型,全模型参数估计和预测是有偏估计,而全模型预测值的方差和均方差大于选模型相应的方差。

上述结论说明丢掉那些对应变量影响不大的,或虽有影响,但难于观测的自变量是有利的。

12.逐步回归方法的基本思想与步骤

基本思想:

有进有出。

具体做法是将变量一个一个引入,引入变量的条件是通过了偏F统计量的检验,同时,每引入一个新变量后,对已入选方程的老变量进行检测,将经检验认为不显著的变量剔除,此过程经过若干步,直到既不能引入新变量又不能剔除老变量为止。

基本步骤:

(1)对于每个自变量xi(1≤i≤m),拟合m个一元线性回归模型,若Fi1

(1)>FE,则所选择含有自变量xi1的回归模型为当前模型,否则,没有变量引入模型,选择过程结束,即认为所有自变量对y的影响均不显著。

(2)在第一步的基础上,再将其余的m-1个自变量分别加入此模型中,得到m-1个二元回归方程,若若Fi1

(2)>FE则将自变量xi2引入模型,进一步考察xi2引入模型后,xi1对y的影响是否仍显著,若Fi1

(2)≤FD,则剔除xi。

(3)在第二步的基础上再将其余的m-2个自变量分别加入此模型中,拟合各个模型并计算偏F统计量值,与FE比较决定是否又新变量引入,如果有新的变量引入,还需要检验原模型中的老变量是否因为这个新变量的引入而不再显著,那样就应该被剔除。

重复以上步骤,直到没有新的变量进入模型,同时在模型中的老变量都不能被剔除,则结束选择过程。

13.在作判别分析时,如何检验判别效果的优良性?

当一个判别准则提出以后,还要研究其优良性,即要考察误判概率。

一般使用以训练样本为基础的回代估计法与交叉确认估计法。

(1)误判率回代估计法

回判过程中,用n12表示将本属于G1的样本误判为G2的个数,n21表示将本属于G2的样本误判为G1的个数,总的误判个数是n12+n21,误判率的回代估计为(n12+n21)/(n1+n2),但往往比真实的误判率要小。

(2)误判率的交叉确认估计

每次剔除训练样本中的一个样本,利用其余容量为n1+n2-1个训练样本来建立判别准则,再利用所建立的判别准则对删除的那个样本作判别,对训练样本中的每个样本做上述分析,以其误判的比例作为误判概率的估计。

14、简述费希尔判别法的基本思想。

从k个总体中抽取具有p个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数系数:

确定的原则是使得总体之间区别最大,而使每个总体内部的离差最小。

将新样品的p个指标值代入线性判别函数式中求出值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。

15.Fisher判别法的基本思想

基本思想是投影。

将k组m元数据投影到某一个方向,使得投影后组与组之间尽可能地分开,其中利用了一元差分的思想导出判别函数。

这个函数可以是线性的,也可以是其他类型的函数。

贝叶斯判别法的基本思想

基本思想是假定对所研究是对象(总体)在抽样前就有一定的认识,常用先验概率分布来描述这种认识。

然后基于抽取的样本再对先验概率做修正,得到后验概率分布,再基于后验概率分布做判别分析。

16.简述费歇尔准则下两类判别分析的基本思想。

答:

费歇尔的判别方法,其基本思想是把p个变量x1,x2,...,xp综合成一个新变量y,y=c1x1+c2x2+...+cpxp=c’x,也即产生一个综合判别指标,要求已知的g个类Gk,k=1,2,...,g在这个新变量下能最大程度地区分开,于是可用这个综合判别指标判别未知样品的归属。

其中c=(c1,c2,cp)’为待定参数。

判别方程除没有常数外,与回归方程非常相似,但两者有着本质的区别。

在回归方程中,y为因变量,是一个已知的随机变量,有其样本测试值,回归分析的任务是选择一组参数,使得根据回归方程预测的因变量的值与实测值尽可能地接近;而判别模型中y只是一个综合变量,实际上并不存在这样一个变量,因而也没有实测值。

判别模型的几何意义是把p维空间的点投影到一维空间(直线)上去,使各已知类在该直线上的投影尽可能分离。

17.比较费歇尔准则下的两类判别方程与回归方程的异同。

为什么判别方程中不需要常数项?

答:

除没有常数项外,与回归方程非常相似,但两者有着本质的区别。

在回归方程中,y为因变量,是一个已知的随机变量,有其样本测试值,回归分析的任务是选择一组参数,使得根据回归方程预测的因变量的值与实测值尽可能地接近;而判别模型中y只是一个综合变量,实际上并不存在这样一个变量,因而也没有实测值。

判别模型的几何意义是把p维空间的点投影到一维空间(直线)上去,使各已知类在该直线上的投影尽可能分离。

18.判别分析与聚类分析有何不同?

聚类分析和判别分析有相似的作用,都是起到分类的作用。

但是判别分析是已知分类然后总结出判别规则,是一种有指导的学习;而聚类分析则是有了一批样本,不知道它们的分类,甚至连分成几类都不知道,希望用某种方法把观测进行合理的分类,使得同一类的观测比较接近,不同类的观测相差较多,这是无指导的学习。

所以聚类分析依赖于对观测间的接近程度(距离)或相似程度的理解,定义不同的距离量度和相似性量度就可以产生不同的聚类结果。

19.简述聚类分析的基本思想。

有哪两类聚类分析?

各自的作用?

聚类分析就是根据空间点群的“亲疏”关系进行分类的一种方法。

为此要给出表示空间点与点之间“亲疏”关系的相似性度量,然后讨论根据相似性度量进行点群簇分的方法和应用。

聚类分析的目的是把分类对象按一定规则分成若干类,这些类不是事先给定的,而是根据数据的特征确定的。

在同一类中这些对象在某种意义上趋向于彼此相似,而在不同类中对象趋向于不相似。

聚类分析根据对象不同分为Q型聚类分析(对样本进行聚类)和R型聚类(对变量进行聚类)。

对样品或变量进行聚类时,我们常用距离和相似系数来对样品或变量之间的相似性进行度量。

距离用来度量样品之间的相似性,而相似系数常用来度量变量间的相似性。

20.距离系数需要满足的基本条件?

答:

点i和点j之间的距离dij可有各种不同的定义,只要其满足所谓的距离公理:

对一切是i,j,dij>=0;

dij=0等价于点i和点j为同一点,即X(i)=X(j);

对一切的i,j,dij=dji;

三角不等式成立,即对一切的i,j,k,有dij<=dik+dkj

21.系统聚类法的基本思想和步骤。

有哪些常用的系统聚类法?

基本思想:

(1)将聚类的n个样品(或者变量)各自看成一类,共有n类;

(2)按照事先选定的方法计算每两类之间的聚类统计量,即某种距离(或者相似系数),将关系最密切的两类并为一类,其余不变,即得n-1类;

(3)按前面的计算方法计算新类与其他类之间的距离(或者相似系数),将关系最密切的两类并为一类,其余不变,即得n-2类;

(4)如此继续下去,直到最后所有样品(或者变量)归为一类为止。

基本步骤:

(1)n个样品(或者变量)各自成一类,一共有n类。

计算两两之间的距离,显然D(Gp,Gq)=dpq,构成一个对称矩阵D(0)=(dij)n×n,其对角线上的元素全为0.

(2)选择D(0)中对角线元素以外的上(或者下)三角部分中的最小元素,设其为D(Gp,Gq),与其下标相对应,将类Gp与Gq合并成一个新类,记为Gr。

计算Gr与其他类Gk(k≠p,q)之间的距离。

(3)在D(0)中划去与Gp、Gq所对应的两行和两列,并加入由新类Gr与其他各类之间的距离所组成的一行和一列,得到一个新的n-1阶对称距离矩阵D

(1)。

(4)由D

(1)出发,重复步骤

(2)(3)得到对称矩阵D

(2);再由D

(2)出发,重复步骤

(2)(3)得到对称矩阵D(3),...,依次类推,直到n个样品(或者变量)聚为一个大类为止。

(5)在合并某两类的过程中记下两类样品(或者变量)的编号以及所对应的距离(或者相似系数),并绘制成果聚类图。

(6)决定类的个数以及聚类结果。

常用的系统聚类法有:

最短距离法、最长距离法、中间距离法、重心法、来平均法、离差平方和法

22.模糊聚类法的基本思想和步骤

基本思想:

采用模糊数学语言对事物按一定的要求进行描述和分类的数学方法称为模糊聚类分析,模糊聚类分析一般是指根据研究对象本身的属性来构造模糊矩阵,并在此基础上根据一定的隶属度来确定聚类关系,即用模糊数学的方法把样本之间的模糊关系定量的确定,从而客观且准确地进行聚类。

模糊聚类分析所讨论的对象,事先没有给定任何模式供分类参考,要求按照样本各自的属性特征加以分类。

聚类就是将数据集分成多个类或簇,使得各个类之间的数据差别应尽可能大,类内之间的数据差别应尽可能小,即为“最小化类间相似性,最大化类内相似性”原则。

基本步骤:

(1)选定一种计算距离或相似系数的公式。

(2)由观测数据矩阵计算样品间的距离dij(1≤i,j≤n)或变量间的相似系数rij(1≤i,j≤m),形成距离矩阵D=(dij)n×n或相似系数矩阵R=(rij)m×m

(3)将距离矩阵D或相似系数矩阵R中的元素压缩到0与1之间,形成模糊矩阵A=(aij)

(4)将模糊矩阵A改造成为模糊等价矩阵

(5)选取截取水平λ(0<λ<1),对样本进行模糊聚类

(6)按λ的值画出聚类的谱系图。

23如何确定合理的聚类数目?

聚类数目的真正确定在于研究的问题是什么,以及事先有无一个大致的判断标准。

分类的数目应该符合使用的目的。

确定聚类数的问题属于聚类有效性问题。

比如在模糊聚类分析中,可以根据方差分析理论,应用混合F统计量来确定最佳分类数。

24、在进行系统聚类分析时,不同的类间距离计算方法有何区别?

请举例说明。

设dij表示样品Xi与Xj之间距离,用Dij表示类Gi与Gj之间的距离。

(1).最短距离法

 

(2)最长距离法

(3)中间距离法

其中

(4)重心法

(5)类平均法

(6)可变类平均法

 

其中是可变的且<1

(7)可变法

其中是可变的且<1

(8)离差平方和法

25.数据变换

由于每个样品各个变量的观测值具有不同的数量级和不同的测量单位,所以有必要进行变换,得到无量纲数据,以消除其中的不合理现象,提高分类效果,常用的数据变换方法有:

标准化法、正规化法、极差标准化法、极大值正规化法、均值正规化法

26.Q型聚类统计量

考虑对样品进行聚类,描述变量之间的接近程度常用“距离”来度量。

两个样品之间的距离越小,表示两者之间的共同点越多;距离越大,共同点越少。

常用距离有:

绝对值距离、欧式距离、闵克夫斯基距离、切比雪夫距离、马哈拉诺比斯距离

27.R型聚类统计量

考虑对样品进行聚类,描述变量之间的接近程度常用“相似系数”来度量。

两个变量之间的相似系数的绝对值越接近于1,表示两者关系越密切;绝对值越接近于0,关系越疏远。

常用相似距离有:

夹角余弦和相似系数。

28.简述主成分分析的基本思想。

答:

主成分分析的基本思想是构造原始变量的适当的线性组合,以产生一系列互不相关的新变量,从中选出少量几个新变量并使它们含有足够多的原始变量带有的信息,从而使得用这几个新变量代替原始变量分析问题和解决问题成为可能。

29.主成分的求取

首先,求其协方差矩阵Σ的各特征值及相应的正交单位化特征向量,然后,以特征值从大到小所对应的特征向量为组合系数所得到的X1,X2,...,Xp的线性组合分别取作X的第一、第二、直至第p个主成分,而各主成分的方差等于相应的特征值。

30.主成分分析的基本思想,可以做什么应用及在应用中要选几个主成分?

主成分分析的基本思想:

构造原始变量的适当的线性组合,以产生一系列互不相关的新变量,从中选出少量几个新变量并使它们含有足够多的原始变量带有的信息,从而使得用这几个新变量代替原始变量分析问题和解决问题成为可能。

通常变量中所含信息的多少用该变量的方差(或样本方差)来度量,这是经典的信息量的表示方法。

解决的问题:

(1)研究的问题当中,随机变量的个数比较大,将增大计算量和分析问题的复杂性;

(2)随机变量之间存在着一定的相关性,它们的观测样本所反映的信息在一定程度上存在着重叠的。

一般地,在约束条件①liTli=1②Cov(Yi,Yk)=liTΣlk=0,k=1,2,...,i-1之下,使得Var(Yi)达到最大,由此li确定的Yi=liTX称为X1,X2,...,Xp的第i个主成分。

31.比较主成分分析与判别分析的基本思想。

主成分分析就是一种通过降维技术把多个指标约化为少数几个综合指标的统计分析方法。

其基本思想是:

设法将原来众多具有一定相关性的指标(设为p个),重新组合成一组新的相互无关的综合指标来代替原来指标。

数学上的处理就是将原来P个指标作线性组合,作为新的指标。

第一个线性组合,即第一个综合指标记为Y1,为了使该线性组合具有唯一性,要求在所有线性组合中Y1的方差最大,即Var(Y1)越大,那么包含的信息越多。

如果第一个主成分不足以代表原来p个指标的信息,再考虑选取第二个主成分Y2,并要求Y1已有的信息不出现在Y2中,即主成分分析是将分散在一组变量上的信息集中到某几个综合指标上的探索性统计分析方法。

以便利用主成分描述数据集内部结构,实际上也起着数据降维作用。

聚类分析的目的是把分类对象按一定规则分成若干类,这些类不是事先给定的,而是根据数据的特征确定的。

在同一类中这些对象在某种意义上趋向于彼此相似,而在不同类中对象趋向于不相似。

聚类分析根据对象不同可分为Q型聚类分析(对样本进行聚类)和R型聚类分析(对变量进行聚类)。

对样本或变量进行聚类时,我们常用距离和相似系数来对样品或变量之间的相似性进行度量。

距离常用来度量样品之间的相似性,而相似系数常用来度量变量间的相似性。

32、简述典型变量与典型相关系数的概念,并说明典型相关分析的基本思想。

在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。

选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对,如此下去直到两组之间的相关性被提取完毕为止。

被选出的线性组合配对称为典型变量,它们的相关系数称为典型相关系数。

33.因子分析的基本思想?

因子分析是主成分分析的推广,它也是利用降维的思想,从研究原始变量相关矩阵内部结构出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的多元统计分析方法,因子分析的基本思想是根据相关性大小将变量分组,使得同组内的变量之间相关性较高,不同组的变量相关性较低。

每一组变量代表一个基本结构,用一个不可观测的综合变量表示,这个基本结构称为公共因子。

对于所研究的问题就可用最少个数的不可观测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 人文社科 > 法律资料

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2