数理统计课程设计.docx

资源描述

数理统计课程设计.docx

《数理统计课程设计.docx》由会员分享，可在线阅读，更多相关《数理统计课程设计.docx（8页珍藏版）》请在冰点文库上搜索。

数理统计课程设计.docx

数理统计课程设计

一：

题目

8.高考单科成绩与公共基础课、专业基础课、专业选修成绩的相关性分析；公共基础课、专业基础课、专业选修课的分类在辅导员处查找。

二：

题目分析

依照题意，咱们要分析高科单科成绩与公共基础课、专业基础课、专业选修成绩的相关性，就需找一个统计量，它能反映出它们之间的相关程度。

假设高考单科成绩：

语文，数学，英语，综合和公共基础课，专业基础课和专业选修课均是持续型变量，而且它们各自的散布是某个散布族中的一个。

而关于持续性的变量，最经常使用的是描述变量间取值线性相关的样本

Pearson相关系数。

设变量

的样本量为

的观测值为

那么样本Pearson相关系数（coefficientofcorrelation）为

且r介于-1与1之间，r的绝对值越大，表示x，y取值间的线性联系越强。

三：

变量说明

x1:

高考语文成绩

x2:

高考数学成绩

x3:

高考英语成绩

x4:

高考综合成绩

y1：

所有公共基础课总成绩

y2:

所有专业基础课总成绩

y3:

所有专业选修课总成绩

Ex:

观测值x（x1,x2,x3,x4）的均值

Ey:

观测值y（y1,y2,y3）的均值

cov:

观测值x与y之间的协方差

r为相关系数矩阵且r（j，k）为xj与yk之间的相关系数（j=1,2,3,4；k=1,2,3）

四：

缺失值处置

对数据缺失特点的描述，最重要的是要考察数据的缺失值机制。

数据的缺失值机制包括三种：

完全随机缺失（MissingCompletelyAtRandom,MCAR）、随机缺失（MissingAtRandom,MAR）与非随机缺失（NotMissingAtRandom,NMAR）。

若是数据缺失的概率既不依托于观测值也不依托于缺失值，那么数据缺失状态属于MCAR；若是数据缺失的概率仅仅依托于观测值，那么数据缺失状态属于MAR；而若是数据缺失的概率既依托于观测值又依托于缺失值，那么数据缺失状态属于NMAR，这种缺失状态又被称为不可轻忽缺失。

关于数据缺失状态是不是属于MCAR，Little提出了一种查验方式，即Little查验。

缺失值的处置有以下几种方式：

一）个案剔除法（ListwiseDeletion）

最多见、最简单的处置缺失数据的方式是用个案剔除法（listwisedeletion），也是很多统计软件（如SPSS和SAS）默许的缺失值处置方式。

在这种方式中若是任何一个变量含有缺失数据的话，就把相对应的个案从分析中剔除。

若是缺失值所占比例比较小的话，这一方式十分有效。

至于具体多大的缺失比例算是“小”比例，专家们意见也存在较大的差距。

有学者以为应在5%以下，也有学者以为20%以下即可。

但是，这种方式却有专门大的局限性。

它是以减少样本量来换取信息的完备，会造成资源的大量浪费，抛弃了大量隐藏在这些对象中的信息。

在样本量较小的情形下，删除少量对象就足以严峻阻碍到数据的客观性和结果的正确性。

因此，当缺失数据所占比例较大，专门是当缺数据非随机散布时，这种方式可能致使数据发生偏离，从而得犯错误的结论。

二）均值替换法（MeanImputation）

在变量十分重要而所缺失的数据量又较为庞大的时候，个案剔除法就碰到了困难，因为许多有效的数据也同时被剔除。

围绕着这一问题，研究者尝试了各类各样的方法。

其中的一个方式是均值替换法（meanimputation）。

咱们将变量的属性分为数值型和非数值型来别离进行处置。

若是缺失值是数值型的，就依照该变量在其他所有对象的取值的平均值来填充该缺失的变量值；若是缺失值是非数值型的，就依照统计学中的众数原理，用该变量在其他所有对象的取值次数最多的值来补齐该缺失的变量值。

但这种方式会产生有偏估量，因此并非被推崇。

均值替换法也是一种简便、快速的缺失数据处置方式。

利用均值替换法插补缺失数据，对该变量的均值估量可不能产生阻碍。

但这种方式是成立在完全随机缺失（MCAR）的假设之上的，而且会造成变量的方差和标准差变小。

三）热卡填充法（Hotdecking）

关于一个包括缺失值的变量，热卡填充法在数据库中找到一个与它最相似的对象，然后用那个相似对象的值来进行填充。

不同的问题可能会选用不同的标准来对相似进行判定。

最多见的是利用相关系数矩阵来确信哪个变量（如变量Y）与缺失值所在变量（如变量X）最相关。

然后把所有个案按Y的取值大小进行排序。

那么变量X的缺失值就能够够用排在缺失值前的那个个案的数据来代替了。

与均值替换法相较，利用热卡填充法插补数据后，其变量的标准差与插补前比较接近。

但在回归方程中，利用热卡填充法容易使得回归方程的误差增大，参数估量变得不稳固，而且这种方式利用不便，比较耗时。

四）回归替换法（RegressionImputation）

回归替换法第一需要选择假设干个预测缺失值的自变量，然后成立回归方程估量缺失值，即用缺失数据的条件期望值对缺失值进行替换。

与前述几种插补方式比较，该方式利用了数据库中尽可能多的信息，而且一些统计软件（如Stata）也已经能够直接执行该功能。

但该方式也有诸多短处，第一，这尽管是一个无偏估量，可是却容易轻忽随机误差，低估标准差和其他未知性质的测量值，而且这一问题会随着缺失信息的增多而变得加倍严峻。

第二，研究者必需假设存在缺失值所在的变量与其他变量存在线性关系，很多时候这种关系是不存在的。

五）多重替代法（MultipleImputation）

多重估算是由Rubin等人于1987年成立起来的一种数据扩充和统计分析方式，作为简单估算的改良产物。

第一，多重估算技术用一系列可能的值来替换每一个缺失值，以反映被替换的缺失数据的不确信性。

然后，用标准的统计分析进程对多次替换后产生的假设干个数据集进行分析。

最后，把来自于各个数据集的统计结果进行综合，取得整体参数的估量值。

由于多重估算技术并非是用单一的值来替换缺失值，而是试图产生缺失值的一个随机样本，这种方式反映出了由于数据缺失而致使的不确信性，能够产生加倍有效的统计推断。

结合这种方式，研究者能够比较容易地，在不舍弃任何数据的情形下对缺失数据的未知性质进行推断。

NORM统计软件能够较为简便地操作该方式。

五：

此题处置方式

由于此题数据的缺失不依托与任何不完却变量或数据缺失的概率既不依托于观测值也不依托于缺失值，那么数据缺失状态属于完全随机缺失（MissingCompletelyAtRandom,MCAR）。

因此采纳：

一）个案剔除法（ListwiseDeletion）

二）均值替换法（MeanImputation）

六：

计算

计算程序：

X=[x1,x2,x3,x4];

Y=[y1,y2,y3];

n=size（x1）;

n=n

（1）

r=zeros（4,3）;

forj=1:

x=X（:

j）;

fork=1:

y=Y（:

k）;

Ex=0;

Ey=0;

cov=0;

Darx=0;

Dary=0;

fori=1:

Ex=Ex+（1/n）.*x（i）;

Ey=Ey+（1/n）.*y（i）;

end

fori=1:

cov=cov+（x（i）-Ex）.*（y（i）-Ey）;

Darx=Darx+（x（i）-Ex）.^2;

Dary=Dary+（y（i）-Ey）.^2;

end

Dar=（Darx.*Dary）.^1/2;

r（j,k）=cov./Dary;

end

r=r

七：

计算结果及分析

一）用个案剔除法（ListwiseDeletion），去掉含有缺失值的个案后，取得高考单科成绩与公共基础课，专业基础课及专业选修课成绩之间的相关系数如下：

公共基础课

专业基础课

专业选修课

高考语文成绩

-1606

高考数学成绩

高考英语成绩

高考综合成绩

（具体数据，程序别离为附录数据1和Untiled1）。

二）用均值替换法（MeanImputation）法，确信缺失值后，取得高考单科成绩与公共基础课，专业基础课及专业选修课成绩之间的相关系数如下：

公共基础课

专业基础课

专业选修课

高考语文成绩

-1275

高考数学成绩

高考英语成绩

高考综合成绩

（具体数据，程序别离为附录数据2和Untiled2）。

由样本Pearson相关系数（coefficientofcorrelation）

绝对值的大小可知：

（1）高考单科成绩与公共基础课，专业基础课及专业选修课成绩之间具有必然的相关性，并非是独立的，相关性较低。

（2）高考单科成绩与专业选修课最具相关相关性，与公共基础课相关程度次之，与专业基础课的相关性最小。

（3）用均值替换法（MeanImputation）处置缺失值比用个案剔除法（ListwiseDeletion）处置缺失值后取得的样本Pearson相关系数的绝对值小。

八．参考文献：

（1）飞思科技产品研发中心.MATLAB7基础与提高.北京：

电子工业出版社，

（2）郑明，陈子毅，汪嘉冈.数理统计讲义.上海：

复旦大学出版社，

（3）岳勇，田考聪.数据缺失及其填补方式综述.预防医学情报杂志2005年第21卷第6期

（4）胡红晓河北医科大学图书馆谢佳韩冰西南财经大学统计学院.缺失值处置方式比较研究

展开阅读全文