多元统计分析学习心得.docx

资源描述

多元统计分析学习心得.docx

《多元统计分析学习心得.docx》由会员分享，可在线阅读，更多相关《多元统计分析学习心得.docx（10页珍藏版）》请在冰点文库上搜索。

多元统计分析学习心得.docx

多元统计分析学习心得

竭诚为您提供优质文档/双击可除

多元统计分析学习心得

　　篇一：

多元统计分析学习心得总结

　　多元统计分析学习总结

　　多元统计分析方法现在已经广泛的应用社会科学和自然科学的许多领域中。

　　通过对多元统计一个学期的学习，基本掌握了一些可以运用在学习、生活跟实践中的方法比如多元统计分析中最常见的九种方法：

回归分析、时间序列分析、方差分析、判别分析、逻辑回归、联列表与相合性分析、因子分析、聚类分析和联合分析，基本掌握了运用spss软件来分析数据从而找到分析问题中存在的疑问。

　　当然了通过短短的一个学期的学习学习很多的方法并且把所有的方法尽然掌握不切实际，但是在生活中运用最多的基本上掌握的很熟练，而且在上机操作的过程中有老师的指点迷津也让自己很快的能够把握问题的实质，如何分析所得到的实验结果，如何与实际生活中所遇到的问题进行比对，然后得到的结果是不是跟实际有很大的出入等。

　　每次的上机操作的都会有一份相应的报告要提交，大多数情况下都是在老师帮助与指导下完成，自己独立完成的部分相对较少，虽然如此但是收获还是很多，在老师指导下完成一边，自己然后再把整个过程再重复一遍这样就能把所学的温习一遍，不至于跟老师走一遍就完事儿，最后什么都没有掌握，遇到问题也不会分析的局面，所以通过自己的不断练习与操作能够不断熟悉掌握多元统计的方法。

　　篇二：

多元统计分析心得

　　多元统计分析读书心得

　　聚类分析聚类与分类的不同在于，聚类所要求划分的类是未知的。

聚类是将数据分类到不同的类或者簇这样的一个过程，所以同一个簇中的对象有很大的相似性，而不同簇间的对象有很大的相异性。

聚类分析（clusteranalysis）是一组将研究对象分为相对同质的群组（clusters）的统计分析技术。

聚类分析也叫分类分析

　　（classificationanalysis）或数值分类（numericaltaxonomy）。

聚类分析方法认为，在所研究的统计总体中，各样品或指标（变量）之间存在着程度不同的相似性（亲琉关系），因此可以根据一批样品的多个观测指标，具休找到一些能够度量其相似程度的统计量，并依据这些统计量完成事物的分类。

具体的方法，是按样品或指标的相似性或亲疏关系，逐级地归并即聚类，每次的归并聚成一个新的类.直到把全部的样品或指标聚成一类，形成一个由小类逐步到大类的分类系统为止二若将聚类过程的结果绘成一张分类图谱并进行分析、则就可以完成整个聚类分析过程。

　　它的主要应用有：

聚类分析在商业上被用来发现不同的客户群，并且通过购买模式刻画不同的客户群的特征。

在生物上聚类分析被用来动植物分类和对基因进行分类，获取对种群固有结构的认识。

在地理上，聚类能够帮助在地球中被观察的数据库商趋于的相似性。

聚类分析在因特网上被用来在网上进行文档归类来修复信息等等。

　　下面来简要介绍一下曲国庆和姜玉春写的聚类分析及其在土地利用分类上的应用，它利用系统聚类分析的基本原理，并根据实际的土地申报登记和土地利用的调查资料，选择反映住宅建设和占地情况的人均占地面积、平均年建房率、建设用地利用率、反映耕地分布和占有情况的人均耕地面积、当地经济状况等为聚类指标，探讨聚类分析的模式相似性测度，计算方法和步骤。

这其中涉及了很多问题，如样本数据的采集、统计、标准化和样本相似度测度的选择及确定，文章最后给出了土地利用聚类分析的计算方法和步骤。

　　读何晓群编著的多元统计分析和张文璋编著的实用统计分析方法与spss应用得出的一些体会如下：

在聚类分析这一章，张文璋编的多元更具有系统性和层次性，比如他将聚类分析方法用一个表格的形式表现出来，让不同方法之间的区别与联系一目了然，同时，他将理论分析和spss软件操作结合在一起，都进行了仔细的讲述。

　　回归分析

　　在数量分析中，我们经常会看到变量与变量之间存在着一定的联系，而不只是前面所讨论的单个变量的某些孤立的特性，如均值、方差的特性等。

我们要了解的是变量之间是如何发生相互影响的，这就是所谓的相关分析和回归分析。

回归分析（regressionanalysis）是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法，运用十分广泛，回归分析按照涉及的自变量的多少，可

　　分为一元回归分析和多元回归分析；按照自变量和因变量之间的关系类型，可分为线性回归分析和非线性回归分析。

　　下面来介绍一下回归分析的步骤:

　　1根据预测目标，确定自变量和因变量

　　2建立回归预测模型

　　3进行相关分析

　　4检验回归预测模型，计算预测误差

　　5计算并确定预测值

　　以吴良欢和方勇等写的长期施用化肥与有机肥对土壤肥力影响的回归分析为例，该文章对1985～1994年持续27季稻-稻-麦轮作制下不同氮、磷、钾化肥和有机肥用量定位试验中20个不同施肥处理土壤作了肥力测定,采用回归分析法研究了长期施用化肥及有机肥对土壤肥力的影响，它结合不同施肥处理土壤养分肥力性状的编码值数据，不同施肥处理土壤经27季作物种植后，其有机质含量，氮、磷、钾全量与速效养分含量差异明显，这有利于进行施肥量与土壤养分肥力间的回归分析，用计算机建立土壤养分肥力与氮、磷、钾、有机肥用量（以编码值表示）的线性回归方程,并作回归系数的显著性检验，以探明长期施用氮、磷、钾化肥及有机肥对土壤养分肥力因子变化的定量关系。

　　判别分析和Logistic回归

　　判别分析是在分类确定的条件下，根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。

其基本原理是按照一定的判别准则，建立一个或多个判别函数，用研究对象的大量资料确定判别函数中的待定系数，并计算判别指标。

据此即可确定某一样本属于何类。

　　在陈舜华写的逐步Logistic判别分析中，他介绍用极大似然估计对

　　Logistic判别分析中的变量进行逐步筛选的方法，筛选过程是在对判别系数作似然比检验的基础上进行的，在变量向前选入与向后剔除的每一步中都用到这种检验，他先介绍了Logistic判别的矩阵模型，又介绍了逐步Logistic判别模型，最后研究从1954年到1983年二月与九月广州的蔬菜上市量，以分析春淡（以三月为代表）及秋淡（已九月为代表）的气象成因。

　　在张初兵写的判别分析与Logistic回归的模拟比较中，他利用随机模拟方法，研究判别分析和Logistic回归分类的回判正确率。

模拟结果显示，Logistic回归的回判正确率优于判别分析。

随着随机误差的增大，Logistic回归与判别分析的回判正确率差异逐渐减小。

随机误差超过一定界限，Logistic回归的回判正确率低于判别分析。

在随机模拟的基础上，引入修正Logistic回归分类，模拟结果显示,修正Logistic回归分类略优于Logistic回归。

　　篇三：

统计分析学习总结

　　经过四周的课程主要学习了以下几种分析方法：

　　1.方差分析

　　方差分析（AnalysisofVariance，简称AnoVA），又称"变异数分析"或"F检验"，是R.A.Fisher发明的，用于两个及两个以上样本均数差别的显著性检验。

由于各种因素的影响，研究所得的数据呈现波动状。

造成波动的原因可分成两类，一是不可控的随机因素，另一是研究　　

中施加的对结果形成影响的可控因素。

方差分析是从观测变量的方差入手，研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。

作用：

一个复杂的事物，其中往往有许多因素互相制约又互相依存。

方差分析的目的是通过数据分析找出对该事物有显著影响的因素，各因素之间的交互作用，以及显著影响因素的最佳水平等。

方差分析是在可比较的数组中，把数据间的总的“变差”按各指定的变差来源进行分解的一种技术。

对变差的度量，采用离差平方和。

方差分析方法就是从总离差平方和分解出可追溯到指定来源的部分离差平方和，这是一个很重要的思想。

　　经过方差分析若拒绝了检验假设，只能说明多个样本总体均值不相等或不全相等。

若要得到各组均值间更详细的信息，应在方差分析的基础上进行多个样本均值的两两比较。

（1）多个样本均值间两两比较

　　多个样本均值间两两比较常用q检验的方法，即newman-kueuls法，其基本步骤为：

建立检验假设-->样本均值排序-->计算q值-->查q界值表判断结果。

（2）多个实验组与一个对照组均值间两两比较

　　多个实验组与一个对照组均值间两两比较，若目的是减小第II类错误，最好选用最小显著差法（LsD法）；若目的是减小第I类错误，最好选用新复极差法，前者查t界值表，后者查q界值表。

折叠

　　分析方法

　　根据资料设计类型的不同，有以下两种方差分析的方法：

　　1、对成组设计的多个样本均值比较，应采用完全随机设计的方差分析，即单因素方差分析。

　　2、对随机区组设计的多个样本均值比较，应采用配伍组设计的方差分析，即两因素方差分析。

　　折叠两类方差分析的异同

　　两类方差分析的基本步骤相同，只是变异的分解方式不同，对成组设计的资料，总变异分解为组内变异和组间变异（随机误差），即：

ss总=ss组间+ss组内，而对配伍组设计的资料，总变异除了分解为处理组变异和随机误差外还包括配伍组变异，即：

ss总=ss处理+ss配伍+ss误差。

　　折叠基本步骤

　　整个方差分析的基本步骤如下：

　　1、建立检验假设；

　　h0：

多个样本总体均值相等；h1：

多个样本总体均值不相等或不全等。

　　检验水准为0.05。

　　2、计算检验统计量F值；

　　3、确定p值并作出推断结果。

　　2.回归分析法定义

　　所谓回归分析法，是在掌握大量观察数据的基础上，利用数理统计方法建立因变量与自变量之间的回归关系函数表达式（称回归方程式）。

回归分析法不能用于分析与评价工程项目风险。

　　分类

　　回归分析中，当研究的因果关系只涉及因变量和一个自变量时，叫做一元回归分析；当研究的因果关系涉及因变量和两个或两个以上自变量时，叫做多元回归分析。

根据自变量的个数，可以是一元回归，也可以是多元回归。

此外，回归分析中，又依据描述自变量与因变量之间因果关系的函数

　　表达式是线性的还是非线性的，分为线性回归

　　分析和非线性回归分析。

根据所研究问题的性质，可以是线性回归，也可以是非线性回归。

通常线性回归分析法是最基本的分析方法，遇到非线性回归问题可以借助数学手段化为线性回归问题处理。

回归分析法预测是利用回归分析方法，根据一个或一组自变量的变动情况预测与其有相关关系的某随机变量的未来值。

进行回归分析需要建立描述变量间相关关系的回归方程。

　　应用

　　社会经济现象之间的相关关系往往难以用确定性的函数关系来描述，它们大多是随机性的，要通过统计观察才能找出其中规律。

回归分析是利用统计学原理描述随机变量间相关关系的一种重要方法。

　　在物流的计算中，回归分析法的公式如下：

　　y=a+bx

　　b=∑xy－n·∑x∑y/[∑x

　　a=∑y－b·∑x/n

　　3.主成分分析和因子分析

　　principalcomponentanalysis（pcA）主成分分析法是一种数学变换的方法,它把给定的一组相关变量通过线性变换转成另一组不相关的变量，这些新的变量按照方差依次递减的顺序排列。

在数学变换中保持变量的总方差不变，使第一变

　　量具有最大的方差，称为第一主成分，第二变量的方差次大，并且和第一变量不相关，称为第二主成分。

依次类推，I个变量就有I个主成分。

　　其中Li为p维正交化向量（Li*Li=1），Zi之间互不相关且按照方差由大到小排列，则称Zi为x的第I个主成分。

设x的协方差矩阵为Σ，则Σ必为半正定对称矩阵，求特征值λi（按从大到小排序）及其特征向量，可以证明，λi所对应的正交化特征向量，即为第I个主成分Zi所对应的系数向量Li，而Zi的方差贡献率定义为λi/Σλj,通常要求提取的主成分的数量k满足

　　Σλk/Σλj>0.85。

　　主成分分析主要是一种探索性的技术，在分析者进行多元数据分析之前，用他来分析数据，让自己对数据有一个大致的了解，这是非常有必要的。

主成分分析一般很少单独使用:

a、了解数据。

（screeningthedata），b、和clusteranalysis（聚类分析）一起使用，c、和判别分析一起使用，比如当变量很多，个案数不多，直接使用判别分析可能无解，这时候可以使用主成分对变量简化（reducedimensionality），d、在多元回归中，主成分分析可以帮助判断是否存在共线性（条件指数），还可以用来处理共线性。

　　1、因子分析中是把变量表示成各因子的线性组合，而主成分分析中则是把主成分表示成各变量的线性组合。

　　2、主成分分析的重点在于解释各变量的总方差，而因子分析则把重点放在解释各变量之间的协方差。

　　3、主成分分析中不需要有假设（assumptions），因子分析则需要一些假设。

因子分析的假设包括:

各个共同因子之间不相关，特殊因子（specificfactor）之间也不相关，共同因子和特殊因子之间也不相关。

　　4、主成分分析中，当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候，主成分一般是独特的;而因子分析中因子不是独特的，可以旋转得到不同的因子。

　　5、在因子分析中，因子个数需要分析者指定（spss根据一定的条件自动设定，只要是特征值大于1的因子进入分析），而指定的因子数量不同而结果不同。

在主成分分析中，成分的数量是一定的，一般有几个变量就有几个主成分。

和主成分分析相比，由于因子分析可以使用旋转技术帮助解释因子，在解释方面更加有优势。

大致说来，当需要寻找潜在的因子，并对这些因子进行解释的时候，更加倾向于使用因子分析，并且借助旋转技术帮助更好解释。

而如果想把现有的变量变成少数几个新的变量（新的变量几乎带有原来所有变量的信息）来进入后续的分析，则可以使用主成分分析。

当然，这种情况也可以使用因子得分做到。

所以这种区分不是绝对的。

　　在算法上，主成分分析和因子分析很类似，不过在因子分析中所采用的协方差矩阵的对角元素不再是变量的方差，而是和变量对应的共同度（变量方差中被各因子所解释的部分）。

　　4.聚类分析

　　依据研究对象（样品或指标）的特征，对其进行分类的方法，减少研究对象的数目。

各类事物缺乏可靠的历史资料，无法确定共有多少类别，目的是将性质相近事物归入一类。

各指标之间具有一定的相关关系。

聚类分析（cluster

　　analysis）是一组将研究对象分为相对同质的群组（clusters）的统计分析技术。

聚类分析也叫分类分析（classificationanalysis）或数值分类（numericaltaxonomy）

　　变量类型：

定类变量、定量（离散和连续）变量

　　聚类方法

　　1,层次聚类（hierarchicalclustering）

　　合并法、分解法、树状图

　　2.非层次聚类

　　划分聚类、谱聚类

　　分析步骤：

　　定义问题与选择分类变量；聚类方法；确定群组数目；聚类结果评估；结果的描述、解释

　　5典型相关分析和对应分析典型相关分析（canonicalcorrelationanalysis）就是利用综合变量对之间的相关关系来反映两组指标之间的整体相关性的多元统计分析方法。

它的基本原理是：

为了从总体上把握两组指标之间的相关关系，分别在两组变量中提取有代表性的两个综合变量u1和V1（分别为两个变量组中各变量的线性组合），利用这两个综合变量之间的相关关系来反映两组指标之间的整体相关性。

　　对应分析（correspondenceanalysis）也称关联分析、R-Q型因子分析，是近年新发展起来的一种多元相依变量统计分析技术，通过分析由定性变量构成的交互汇总表来揭示变量间的联系。

可以揭示同一变量的各个类别之间的差异，以及不同变量各个类别之间的对应关系。

主要应用在市场细分、产品定位、地质研究以及计算机工程等领域中。

原因在于，它是一种视觉化的数据分析方法，它能够将几组看不出任何联系的数据，通过视觉上可以接受的定位图展现出来。

　　6.判别分析和时间序列分析

　　判别分析又称"分辨法"，是在分类确定的条件下，根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。

其基本原理是按照一定的判别准则，建立一个或多个判别函数，用研究对象的大量资料确定判别函数中的待定系数，并计算判别指标。

据此即可确定某一样本属于何类。

当得到一个新的样品数据，要确定该样品属于已知类型中哪一类，这类问题属于判别分析问题。

时间序列分析（Timeseriesanalysis）是一种动态数据处理的统计方法。

该方法基于随机过程理论和数理统计学方法，研究随机数据序列所遵从的统计规律，以用于解决实际问题。

它包括一般统计分析（如自相关分析，谱分析等）,统计模型的建立与推断，以及关于时间序列的最优预测、控制与滤波等内容。

经典的统计分析都假定数据序列具有独立性，而时间序列分析则侧重研究数据序列的互相依赖关系。

后者实际上是对离散指标的随机过程的统计分析，所以又可看作是随机过程统计的一个组成部分。

例如，记录了某地区第一个月，第二个月，?

，第n个月的降雨量，利用时间序列分析方法，可以对未来各月的雨量进行预报。

展开阅读全文