毕业论文《R语言在数理统计相关问题中的程序包设计》.docx

上传人:b****0 文档编号:9743615 上传时间:2023-05-20 格式:DOCX 页数:28 大小:475.55KB
下载 相关 举报
毕业论文《R语言在数理统计相关问题中的程序包设计》.docx_第1页
第1页 / 共28页
毕业论文《R语言在数理统计相关问题中的程序包设计》.docx_第2页
第2页 / 共28页
毕业论文《R语言在数理统计相关问题中的程序包设计》.docx_第3页
第3页 / 共28页
毕业论文《R语言在数理统计相关问题中的程序包设计》.docx_第4页
第4页 / 共28页
毕业论文《R语言在数理统计相关问题中的程序包设计》.docx_第5页
第5页 / 共28页
毕业论文《R语言在数理统计相关问题中的程序包设计》.docx_第6页
第6页 / 共28页
毕业论文《R语言在数理统计相关问题中的程序包设计》.docx_第7页
第7页 / 共28页
毕业论文《R语言在数理统计相关问题中的程序包设计》.docx_第8页
第8页 / 共28页
毕业论文《R语言在数理统计相关问题中的程序包设计》.docx_第9页
第9页 / 共28页
毕业论文《R语言在数理统计相关问题中的程序包设计》.docx_第10页
第10页 / 共28页
毕业论文《R语言在数理统计相关问题中的程序包设计》.docx_第11页
第11页 / 共28页
毕业论文《R语言在数理统计相关问题中的程序包设计》.docx_第12页
第12页 / 共28页
毕业论文《R语言在数理统计相关问题中的程序包设计》.docx_第13页
第13页 / 共28页
毕业论文《R语言在数理统计相关问题中的程序包设计》.docx_第14页
第14页 / 共28页
毕业论文《R语言在数理统计相关问题中的程序包设计》.docx_第15页
第15页 / 共28页
毕业论文《R语言在数理统计相关问题中的程序包设计》.docx_第16页
第16页 / 共28页
毕业论文《R语言在数理统计相关问题中的程序包设计》.docx_第17页
第17页 / 共28页
毕业论文《R语言在数理统计相关问题中的程序包设计》.docx_第18页
第18页 / 共28页
毕业论文《R语言在数理统计相关问题中的程序包设计》.docx_第19页
第19页 / 共28页
毕业论文《R语言在数理统计相关问题中的程序包设计》.docx_第20页
第20页 / 共28页
亲,该文档总共28页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

毕业论文《R语言在数理统计相关问题中的程序包设计》.docx

《毕业论文《R语言在数理统计相关问题中的程序包设计》.docx》由会员分享,可在线阅读,更多相关《毕业论文《R语言在数理统计相关问题中的程序包设计》.docx(28页珍藏版)》请在冰点文库上搜索。

毕业论文《R语言在数理统计相关问题中的程序包设计》.docx

毕业论文《R语言在数理统计相关问题中的程序包设计》

 

摘要

主成分分析方法的诸多优点使得它成为一种应用十分广泛的统计分析方法,致使有些人盲目的使用主成分分析方法进行统计分析,而对其适用性,主成分个数的检验等问题不以讨论,这对于科学研究是极其不利的。

本论文主要从假设检验方面对主成分分析方法中的主成分个数进行检验。

在构造检验统计量的时候,使用的是巴特莱特检验统计量,经过证明,该统计量服从卡方分布,进而使用卡方检验来检验原假设。

论文最后部分是检验过程在R语言中的实现过程,主要是为了检验统计量,也是为了对R语言中不完善的卡方检验进行初步探索。

关键词:

主成分分析,卡方检验,R语言,SPSS

 

ABSTRACT

Principalcomponentanalysismethodisalotofadvantagemakesitbecomeakindofstatisticalanalysismethods,theyarewidelyusedinsomepeopleblindlyusingprincipalcomponentanalysismethodofstatisticalanalysis,andonitsapplicability,thecheckofthenumberofprincipalcomponentstodiscuss,itisextremelyunfavorableforscientificresearch.

Thisthesismainlyfromtheaspectsofhypothesistestmethodofprincipalcomponentanalysisofthetestnumberofprincipalcomponents.Atthetimeofstructureteststatistics,usingthebartlettteststatistics,proven,andthestatisticchi-squaredistributed,thususingchi-squaretesttotestthenullhypothesis.PaperisfinalpartinspectionprocessintheprocessofimplementationinRlanguage,mainlytoteststatistics,butalsotoimperfectinRlanguage,inspectioncarriesonthepreliminaryexploration.

KEYWORDS:

principalcomponentanalysis,Chi-squaretest,Rlanguage,SPSS

 

前言

主成分分析方法是一种比较好的分析方法,但是,并不完善,尤其对主成分个数的确定,一直以来都没有非常客观的方法,所以,在论文中,我将就主成分个数的确定和检验,进行论证,试图找出一种比较客观,科学的验证主成分个数的方法,并使用统计专业软件—R予以实现。

主成分个数的检验问题,还没有引起大家足够的重视,没有专门的人或机构对该问题进行专业性研究。

就国内而言,少数学者、专家在主成分个数检验方面有类似的文章,其中最具说服力的是傅德印博士,他采用的是建立统计检验体系,对主成分分析方法进行一系列检验,其中就有对主成分个数的检验,其检验方法主要有,巴特莱特检验、累计贡献率法、特征值平均数法。

在主成分的确定中,我们经常使用的一种比较权威的数学方法就是SPSS软件计算主成分个数。

SPSS软件选取主成分的原理有两种供选择:

一是基于原数据的相关矩阵计算得主成分,选取其方差大于相关矩阵的特征值平均数—1的主成分用作主成分分析;另一个是学者自己设置需要的主成分个数,这些方法都局限于主观的范畴,主观性强。

本论文使用的检验方法有:

1、构造巴特莱特检验统计量,使其服从卡方分布,联系卡方检验的知识,对原假设做出检验结论;2、对选取的主成分的累计方差贡献率进行判断,看是否达到一般性的答案要求。

后者只是作为对前者实用性的主观判断。

在本文中使用两个例题来对本论文的检验方法进行实际操作,以说明我们的检验方法是否达到要求,或者说,是否符合实际要求。

首先我们通过SPSS软件计算出主成分个数,而后,使用R语言实现理论部分的检验过程。

在该部分第三节,我们使用经过实验论证的检验方法,书写一个R语言自定义函数pcan(),即程序包,其功能就是在给定原始数据和预判的主成分个数的情况下,我们使用pcan()函数检验预判的主成分个数是否正确,并且输出结果。

本文主旨在书写R语言程序包,之前的理论检验部分如有纰漏,恳请大家改正,本人亦对程序包做相应修正。

 

第1章主成分个数检验问题

1.1主成分分析相关概念

在讨论主成分个数的检验问题之前,首先我们来了解关于主成分分析方法的一些基本概念:

1.11、主成分分析

主成分的概念最初由KarlParson在1901年提出的,1933年,Hotelling将主成分概念推广到随机变量。

主成分分析就是将多个指标化为少数互相无关的综合指标的统计方法,也称主分量分析。

主成分分析也是数学上降维的一种方法。

主成分分析除了可以单独用来处理多指标且指标之间有一定相关性的问题外,还可以与其他方法结合起来使用,例如与回归分析结合起来就是主成分回归,可它以克服回归问题中由于自变量之间的高度相关而产生的分析困难。

1.12、主成分分析基本思想

主成分分析的基本思想是设法将原来具有一定相关性的指标(比如p个指标),重新组合成一组新的相互无关的综合指标来代替原来指标。

1.13、主成分

主成分分析通常数学上的处理就是将原来p个指标作线性组合,作为新的综合指标,这些新的综合指标为主成分。

主成分如果不加以限制,可以有很多,如果将选取的第一个线性组合即第一个综合指标记为F1,自然希望F1尽可能多的反映原来指标的信息,这里的“信息”经典的方法就是用F1的方差来表示,即Var(F1)越大,表示F1包含的信息越多。

因此,在所有的线性组合中所选取的F1应该是方差最大的,故称F1为第一主成分。

如果第一主成分不足以代表原来p个指标的信息,在考虑选取F2即第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求

称F2为第二主成分。

同理,可以构造出第三,四,……,第p个主成分。

1.14、主成分的贡献率

主成分的贡献率为

,就是主成分

的方差

在全部方差中的比值。

某个主成分的贡献率越大,表示该主成分综合原始数据的信息能力越强。

[1]。

1.15、主成分个数的确定

在实际操作中,对于主成分个数的确定,一般使用以下方法:

1、选取方差大于1的主成分;

2、按照方差累计贡献率,一般情况设定累计贡献率为85%;

1.2检验部分理论

当通过上述主成分的计算步骤,或者使用软件计算出主成分极其个数之后,我们就需要对确定的主成分个数进行检验,下面我们主要使用构建巴特莱特检验统计量的卡方检验法,来检验主成分的个数。

1.21.巴特莱特检验统计量检验主成分个数

1)前提条件

是p维随机向量,均值

,协差阵

,用X的p个向量,(即p个指标向量)

作线性组合为:

上述方程组要求:

(1)

,且系数

由下列原则决定:

(2)

不相关;

(3)F1是

的一切线性组合中方差最大的,F2是与F1不相关的

一切线性组合中方差最大的,……,Fp是与F1,F2,…Fp-1都不相关的

的一线性组合中方差最大的。

(4)

的的特征根,也是Fi的方差。

2)提出假设

是p维随机向量,提出假设

原假设

备择假设

不为0或不全为0.

因为,特征根相等意味着数据在相应的p-q维空间上包含着相同的信息。

若接受H0,则在q的基础上,再增加任何主成分就得把剩下的全部包括进去,因为后p-q个主成分含有相同的信息量。

3)构造统计量

在H0成立的条件下,可得Bartlet近似检验统计量:

其中

算术平均

几何平均

4)求拒绝域

设显著性水平为

,因为上述检验统计量服从自由度为

分布,所以可以查

分布表得到临界值

所以其拒绝域为:

5)主成分个数假设检验结论

,则接受原假设

即取前q个主成分已经足够描述当前的数据信息;

,则拒绝原假设,即应增加主成分个数。

确定

,使用q’代替q继续进行假设检验。

1.22、累计贡献率法检验主成分个数

对于假设检验得出的主成分个数q,是从主成分方差的数值是否相等或者说从每个主成分包含信息量是否重复来确定主成分个数的,用累计贡献值法是从主成分包含信息量大小方面,来判断所选取的q个主成分是否达到题目要求包含原始数据的信息量。

方差贡献率描述了各个主成分在反映各个原始指标信息量方面的能力大小,所以将各个主成分的方差贡献率作为各个主成分的权重,实际上就是一种客观赋权。

设累计贡献率为

,根据题目要求的主成分累计贡献率需要达到的

,判断,若

,则符合题目要求;

,则对确定的q重新考虑。

[2]

 

第2章主成分个数确定及检验的R语言实现过程

2.1.R语言基本概念和R统计软件基本操作

2.11、R语言

R可以看作是贝尔实验室(BellLaboratories)的RickBecker,JohnChambers和AllanWilks开发的S语言的一种实现或形式。

因此,R是一种软件也可以说是一种语言。

S语言现在主要内涵在由Insightful公司经营的S-PLUS软件中,可以将R和S-PLUS视为S语言的两种形式。

2.12、R的特点

现在越来越多的人开始接触、学习和使用R,因为他有其显著的有点,主要包括:

1)免费:

尽管S-PlUS是非常优秀的统计分析软件,但你需要支付一笔费用,而R是一个免费的统计分析软件(环境);

2)浮点运算功能强大:

R可以作为一台高级科学计算器,因为R同Matlab一样不需要编译就可以执行代码;

3)不依赖于操作系统:

R可以运行与UNIX,Linux,Windows和Macintosh的操作系统上,它们的安装文件以及安装说明都可以在CRAN(ComprehensiveRArchiveNetwork)社区下载;

4)帮助功能完善:

R嵌入了一个非常实用的帮助系统——随软件所附的pdf帮助文件可以随时通过主菜单打开或打印。

5)作图功能强大:

其内嵌的作图函数能将产生的图片展示在一个独立的窗口中,并能将之保存为各种形式的文件;

6)统计分析能力尤为突出:

R内嵌了许多使用的统计分析函数,统计分析的结果也能被直接显示出来,一些中间结果既可保存到专门的文件中,也可以直接用于进一步的分析。

7)可移植性强:

8)较强大的拓展与开发能力:

R是开发新的交互式数据分析方法一个非常好的工具。

9)灵活而不死板:

一般的软件旺旺会直接展示分析的结果,而R则将这些结果都存放在一个对象(object)里,所以常常在分析执行结束后并不现实任何结果。

2.13、R的基本原理

首先,同Matlab一样,R是一种编程语言,因为R是一种解释性语言,而不是变异语言,也就意味这输入的命令能够直接被执行,而不需要像C语言需要编译和连接等操作。

其次,R的语法非常见大和直观。

当R运行是,所有变量、数据、函数及结果都以对象的形势存入计算机的活动内存中,并冠有相应的名字代号。

再次,在R中进行的所有操作都是针对存储在活动内存中的对象的,数据、结果或图标的输入与输出都是通过对计算机硬盘中的文件读写而实现。

最后,所有能使用的R函数都被包含在一个库(Library)中,该库存放在R安装文件夹的Library目录下。

这个目录下含有具有各种功能的包(packages),各个包也是按照目录的方式组织起来的。

2.14、R基本操作

1)数据的存储与读取:

R软件中使用函数write.table()或save()在文件中写入一个对象,一般是写一个数据框,也可以是其他类型的对象(向量、矩阵、数组、列表等)。

R可以用函数read.table(),scan()和read.fwf读取存储在文本文件(ASCII)中的数据。

2)R的绘图功能:

这里不可能详细说明R软件在绘图方面的所有功能,主要是因为每个绘图函数都有大量的选项,使得图形的绘制十分的灵活多变。

2.14、用R写程序

一般情况下,一个R程序以文本格式保存,扩展名为‘.R’。

如果一个操作要重复许多次,我们最好使用R程序来实现。

函数是大多数R程序实现的方式,而且这些函数的输入参数都放在一个括号里面。

使用人员可以使用function()来编写自己的函数,并且函数和R里面的其他函数有一样的作用。

函数是一系列操作的组合,形式为:

函数名=function(变量1,变量2,……){函数体}.编写自己的函数可以更加灵活、有效、合理的使用R。

[3]

2.2.举例使用软件实现讨论过程

例1:

现在我们用一组全国30个省市自治区经济发展基本情况的八项指标为例,使用SPSS软件和R软件分别实现出主成分个数的确定和检验过程。

样本原始数据如下:

表2.1全国三十个省市自治区经济发展的八项指标(单位:

亿元)

省份

GDP

居民消费水平

固定资产投资

职工平均工资

货物周转量

居民消费价格指数

商品零售价格指数

工业总产值

北京

1394.89

2502.00

519.01

8144.00

373.90

117.30

112.60

843.43

天津

920.11

2720.00

345.46

6501.00

342.80

115.20

110.60

582.51

河北

2849.52

1258.00

704.87

4839.00

2033.30

115.20

115.80

1234.85

山西

1092.48

1250.00

290.90

4721.00

717.30

116.90

115.60

697.25

内蒙古

832.88

1387.00

250.23

4134.00

781.70

117.50

116.80

419.39

辽宁

2793.37

2397.00

387.99

4911.00

1371.10

116.10

114.00

1840.55

吉林

1129.20

1872.00

320.45

4430.00

497.40

115.20

114.20

762.47

黑龙江

2014.53

2334.00

435.73

4145.00

824.80

116.10

114.30

1240.37

上海

2462.57

5343.00

996.48

9279.00

207.40

118.70

113.00

1642.00

江苏

5155.25

1926.00

1434.95

5943.00

1025.50

115.80

114.30

2026.64

浙江

3524.79

2249.00

1006.39

6619.00

754.40

116.60

113.50

916.59

安徽

2003.58

1254.00

474.00

4609.00

908.30

114.80

112.70

824.14

福建

2160.52

2320.00

553.97

5857.00

609.30

115.20

114.40

433.67

江西

1205.11

1182.00

282.84

4211.00

411.70

116.90

115.90

571.84

山东

5002.34

1527.00

1229.55

5145.00

1196.60

117.60

114.20

2207.69

河南

3002.74

1034.00

670.35

4344.00

1574.40

116.50

114.90

1367.92

湖北

2391.42

1527.00

571.68

4685.00

849.00

120.00

116.60

1220.72

湖南

2195.70

1408.00

422.61

4797.00

1011.80

119.00

115.50

843.83

广东

5381.72

2699.00

1639.83

8250.00

656.50

114.00

111.60

1396.35

广西

1606.15

1314.00

382.59

5105.00

556.00

118.40

116.40

554.97

海南

364.17

1814.00

198.35

5340.00

232.10

113.50

111.30

64.33

四川

3534.00

1261.00

822.54

4645.00

902.30

118.50

117.00

1431.81

贵州

630.07

942.00

150.84

4475.00

301.10

121.40

117.20

324.72

云南

1206.68

1261.00

334.00

5149.00

310.40

121.30

118.10

716.65

西藏

55.98

1110.00

17.87

7382.00

4.20

117.30

114.90

5.57

陕西

1000.03

1208.00

300.27

4396.00

500.90

119.00

117.00

600.98

甘肃

553.35

1007.00

114.81

5493.00

507.00

119.80

116.50

468.79

青海

165.31

1445.00

47.76

5753.00

61.60

118.00

116.30

105.80

宁夏

169.75

1355.00

61.98

5079.00

121.80

117.10

115.30

114.40

新疆

834.57

1469.00

376.95

5348.00

339.00

119.70

116.70

428.76

标准化后数据如下,

表2.2表2.1的标准化

省份

ZGDP

Z居民消费水平

Z固定资产投资

Z职工平均工资

Z货物周转量

Z居民消费价格指数

Z商品零售价格指数

Z工业总产值

北京

-0.35678

0.87768

0.01788

-0.00610

-0.63535

0.00658

-1.21526

0.01472

天津

-0.67872

1.13071

-0.39067

-0.10874

-0.70297

-1.03029

-2.26896

-0.43653

河北

0.62956

-0.56623

0.47935

-0.21256

2.97255

-1.03029

0.47065

0.69166

山西

-0.56184

-0.57551

-0.54849

-0.21993

0.11128

-0.19092

0.36528

-0.23809

内蒙古

-0.73786

-0.41650

-0.64946

-0.25660

0.25130

0.10533

0.99750

-0.71864

辽宁

0.59149

0.75581

-0.30742

-0.20806

1.53278

-0.58592

-0.47768

1.73918

吉林

-0.53694

0.14644

-0.47512

-0.23811

-0.36683

-1.03029

-0.37231

-0.12530

黑龙江

0.06338

0.68268

-0.18889

-0.25592

0.34501

-0.58592

-0.31962

0.70120

上海

0.36718

4.17522

1.20337

5.28228

-0.99736

0.69784

-1.00452

1.39580

江苏

2.19302

0.20912

2.29203

-0.14360

0.78137

-0.73404

-0.31962

2.06101

浙江

1.08677

0.58402

1.22798

-0.10137

0.19194

-0.33904

-0.74110

0.14124

安徽

0.05595

-0.57087

-0.09387

-0.22693

0.52655

-1.22779

-1.16258

-0.01864

福建

0.16237

0.66643

0.10468

-0.14897

-0.12354

-1.03029

-0.26694

-0.69394

江西

-0.48547

-0.65444

-0.56850

-0.25179

-0.55316

-0.19092

0.52334

-0.45498

山东

2.08933

-0.25400

1.78205

-0.19345

1.15338

0.15471

-0.37231

2.37413

河南

0.73346

-0.82622

0.39364

-0.24348

1.97480

-0.38842

-0.00351

0.92179

湖北

0.31894

-0.25400

0.14865

-0.22218

0.39762

1.33971

0.89213

0.66722

湖南

0.18623

-0.39212

-0.22147

-0.21519

0.75158

0.84596

0.31260

0.01541

广东

2.34658

1.10634

2.80072

0.00052

-0.02092

-1.62280

-1.74211

-0.48416

广西

-0.21353

-0.50123

-0.32083

-0.19594

-0.23943

0.54971

0.78676

-0.48416

海南

-1.05568

0.07912

-0.77827

-0.18126

-0.94365

-1.86967

-1.90016

-1.33269

四川

1.09369

-0.56274

0.77150

-0.22468

0.51351

0.59908

1.10287

1.03229

贵州

-0.87538

-0.93301

-0.89623

-0.23530

-0.79363

2.03096

1.20824

-0.88236

云南

-0.48440

-0.56274

-0.44147

-0.19320

-0.77341

1.98159

1.68240

-

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 小学教育 > 语文

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2