ImageVerifierCode 换一换
格式:DOCX , 页数:28 ,大小:475.55KB ,
资源ID:9743615      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bingdoc.com/d-9743615.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(毕业论文《R语言在数理统计相关问题中的程序包设计》.docx)为本站会员(b****0)主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(发送邮件至service@bingdoc.com或直接QQ联系客服),我们立即给予删除!

毕业论文《R语言在数理统计相关问题中的程序包设计》.docx

1、毕业论文R语言在数理统计相关问题中的程序包设计摘 要主成分分析方法的诸多优点使得它成为一种应用十分广泛的统计分析方法,致使有些人盲目的使用主成分分析方法进行统计分析,而对其适用性,主成分个数的检验等问题不以讨论,这对于科学研究是极其不利的。本论文主要从假设检验方面对主成分分析方法中的主成分个数进行检验。在构造检验统计量的时候,使用的是巴特莱特检验统计量,经过证明,该统计量服从卡方分布,进而使用卡方检验来检验原假设。论文最后部分是检验过程在R语言中的实现过程,主要是为了检验统计量,也是为了对R语言中不完善的卡方检验进行初步探索。关键词:主成分分析,卡方检验,R语言,SPSSABSTRACTPri

2、ncipal component analysis method is a lot of advantage makes it become a kind of statistical analysis methods, they are widely used in some people blindly using principal component analysis method of statistical analysis, and on its applicability, the check of the number of principal components to d

3、iscuss, it is extremely unfavorable for scientific research.Thisthesis mainly from the aspects of hypothesis test method of principal component analysis of the test number of principal components. At the time of structure test statistics, using the bartlett test statistics, proven, and the statistic

4、 chi-square distributed, thus using chi-square test to test the null hypothesis. Paper is final part inspection process in the process of implementation in R language, mainly to test statistics, but also to imperfect in R language, inspection carries on the preliminary exploration.KEY WORDS:principa

5、l component analysis,Chi-square test, R language ,SPSS前 言主成分分析方法是一种比较好的分析方法,但是,并不完善,尤其对主成分个数的确定,一直以来都没有非常客观的方法,所以,在论文中,我将就主成分个数的确定和检验,进行论证,试图找出一种比较客观,科学的验证主成分个数的方法,并使用统计专业软件R予以实现。主成分个数的检验问题,还没有引起大家足够的重视,没有专门的人或机构对该问题进行专业性研究。就国内而言,少数学者、专家在主成分个数检验方面有类似的文章,其中最具说服力的是傅德印博士,他采用的是建立统计检验体系,对主成分分析方法进行一系列检验,其

6、中就有对主成分个数的检验,其检验方法主要有,巴特莱特检验、累计贡献率法、特征值平均数法。在主成分的确定中,我们经常使用的一种比较权威的数学方法就是SPSS软件计算主成分个数。SPSS软件选取主成分的原理有两种供选择:一是基于原数据的相关矩阵计算得主成分,选取其方差大于相关矩阵的特征值平均数1的主成分用作主成分分析;另一个是学者自己设置需要的主成分个数,这些方法都局限于主观的范畴,主观性强。本论文使用的检验方法有:1、构造巴特莱特检验统计量,使其服从卡方分布,联系卡方检验的知识,对原假设做出检验结论;2、对选取的主成分的累计方差贡献率进行判断,看是否达到一般性的答案要求。后者只是作为对前者实用性

7、的主观判断。在本文中使用两个例题来对本论文的检验方法进行实际操作,以说明我们的检验方法是否达到要求,或者说,是否符合实际要求。首先我们通过SPSS软件计算出主成分个数,而后,使用R语言实现理论部分的检验过程。在该部分第三节,我们使用经过实验论证的检验方法,书写一个R语言自定义函数pcan(),即程序包,其功能就是在给定原始数据和预判的主成分个数的情况下,我们使用pcan()函数检验预判的主成分个数是否正确,并且输出结果。本文主旨在书写R语言程序包,之前的理论检验部分如有纰漏,恳请大家改正,本人亦对程序包做相应修正。第1章 主成分个数检验问题1.1 主成分分析相关概念在讨论主成分个数的检验问题之

8、前,首先我们来了解关于主成分分析方法的一些基本概念:1.11、主成分分析主成分的概念最初由Karl Parson在1901年提出的,1933年,Hotelling将主成分概念推广到随机变量。主成分分析就是将多个指标化为少数互相无关的综合指标的统计方法,也称主分量分析。主成分分析也是数学上降维的一种方法。主成分分析除了可以单独用来处理多指标且指标之间有一定相关性的问题外,还可以与其他方法结合起来使用,例如与回归分析结合起来就是主成分回归,可它以克服回归问题中由于自变量之间的高度相关而产生的分析困难。1.12、主成分分析基本思想主成分分析的基本思想是设法将原来具有一定相关性的指标(比如p个指标),

9、重新组合成一组新的相互无关的综合指标来代替原来指标。1.13、主成分主成分分析通常数学上的处理就是将原来p个指标作线性组合,作为新的综合指标,这些新的综合指标为主成分。主成分如果不加以限制,可以有很多,如果将选取的第一个线性组合即第一个综合指标记为F1,自然希望F1尽可能多的反映原来指标的信息,这里的“信息”经典的方法就是用F1的方差来表示,即Var(F1)越大,表示F1包含的信息越多。因此,在所有的线性组合中所选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来p个指标的信息,在考虑选取F2即第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2

10、中,用数学语言表达就是要求称F2为第二主成分。同理,可以构造出第三,四,第p个主成分。1.14、主成分的贡献率主成分的贡献率为,就是主成分的方差在全部方差中的比值。某个主成分的贡献率越大,表示该主成分综合原始数据的信息能力越强。1。1.15、主成分个数的确定在实际操作中,对于主成分个数的确定,一般使用以下方法:1、选取方差大于1的主成分;2、按照方差累计贡献率,一般情况设定累计贡献率为85%;1.2检验部分理论当通过上述主成分的计算步骤,或者使用软件计算出主成分极其个数之后,我们就需要对确定的主成分个数进行检验,下面我们主要使用构建巴特莱特检验统计量的卡方检验法,来检验主成分的个数。1.21.

11、巴特莱特检验统计量检验主成分个数1)前提条件设是p维随机向量,均值,协差阵,用X的p个向量,(即p个指标向量)作线性组合为:上述方程组要求:(1),且系数由下列原则决定:(2)与不相关;(3)F1是的一切线性组合中方差最大的,F2是与F1不相关的一切线性组合中方差最大的,Fp是与F1,F2,Fp-1都不相关的的一线性组合中方差最大的。(4)为的的特征根,也是Fi的方差。2)提出假设设是p维随机向量,提出假设原假设 :备择假设 :不为0或不全为0.因为,特征根相等意味着数据在相应的p-q维空间上包含着相同的信息。若接受H0,则在q的基础上,再增加任何主成分就得把剩下的全部包括进去,因为后p-q个

12、主成分含有相同的信息量。3)构造统计量在H0成立的条件下,可得Bartlet近似检验统计量:其中 算术平均 几何平均4)求拒绝域设显著性水平为,因为上述检验统计量服从自由度为的分布,所以可以查分布表得到临界值所以其拒绝域为:5)主成分个数假设检验结论若,则接受原假设:。即取前q个主成分已经足够描述当前的数据信息;若,则拒绝原假设,即应增加主成分个数。确定,使用q代替q继续进行假设检验。1.22、累计贡献率法检验主成分个数对于假设检验得出的主成分个数q,是从主成分方差的数值是否相等或者说从每个主成分包含信息量是否重复来确定主成分个数的,用累计贡献值法是从主成分包含信息量大小方面,来判断所选取的q

13、个主成分是否达到题目要求包含原始数据的信息量。方差贡献率描述了各个主成分在反映各个原始指标信息量方面的能力大小,所以将各个主成分的方差贡献率作为各个主成分的权重,实际上就是一种客观赋权。设累计贡献率为,根据题目要求的主成分累计贡献率需要达到的,判断,若,则符合题目要求;,则对确定的q重新考虑。2第2章 主成分个数确定及检验的R语言实现过程2.1.R语言基本概念和R统计软件基本操作2.11、R语言R可以看作是贝尔实验室(Bell Laboratories)的Rick Becker,John Chambers和Allan Wilks开发的S语言的一种实现或形式。因此,R是一种软件也可以说是一种语言

14、。S语言现在主要内涵在由Insightful公司经营的S-PLUS软件中,可以将R和S-PLUS视为S语言的两种形式。2.12、R的特点现在越来越多的人开始接触、学习和使用R,因为他有其显著的有点,主要包括:1)免费:尽管S-PlUS是非常优秀的统计分析软件,但你需要支付一笔费用,而R是一个免费的统计分析软件(环境);2)浮点运算功能强大:R可以作为一台高级科学计算器,因为R同Matlab一样不需要编译就可以执行代码;3)不依赖于操作系统:R可以运行与UNIX,Linux,Windows和Macintosh的操作系统上,它们的安装文件以及安装说明都可以在CRAN(Comprehensive R

15、 Archive Network)社区下载;4)帮助功能完善:R嵌入了一个非常实用的帮助系统随软件所附的pdf帮助文件可以随时通过主菜单打开或打印。5)作图功能强大:其内嵌的作图函数能将产生的图片展示在一个独立的窗口中,并能将之保存为各种形式的文件;6)统计分析能力尤为突出:R内嵌了许多使用的统计分析函数,统计分析的结果也能被直接显示出来,一些中间结果既可保存到专门的文件中,也可以直接用于进一步的分析。7)可移植性强: 8)较强大的拓展与开发能力:R是开发新的交互式数据分析方法一个非常好的工具。9)灵活而不死板:一般的软件旺旺会直接展示分析的结果,而R则将这些结果都存放在一个对象(object

16、)里,所以常常在分析执行结束后并不现实任何结果。2.13、R的基本原理首先,同Matlab一样,R是一种编程语言,因为R是一种解释性语言,而不是变异语言,也就意味这输入的命令能够直接被执行,而不需要像C语言需要编译和连接等操作。其次,R的语法非常见大和直观。当R运行是,所有变量、数据、函数及结果都以对象的形势存入计算机的活动内存中,并冠有相应的名字代号。再次,在R 中进行的所有操作都是针对存储在活动内存中的对象的,数据、结果或图标的输入与输出都是通过对计算机硬盘中的文件读写而实现。最后,所有能使用的R函数都被包含在一个库(Library)中,该库存放在R安装文件夹的Library目录下。这个目

17、录下含有具有各种功能的包(packages),各个包也是按照目录的方式组织起来的。2.14、R基本操作1)数据的存储与读取:R软件中使用函数write.table()或save()在文件中写入一个对象,一般是写一个数据框,也可以是其他类型的对象(向量、矩阵、数组、列表等)。R可以用函数read.table(),scan()和read.fwf读取存储在文本文件(ASCII)中的数据。2)R的绘图功能:这里不可能详细说明R软件在绘图方面的所有功能,主要是因为每个绘图函数都有大量的选项,使得图形的绘制十分的灵活多变。2.14、用R写程序一般情况下,一个R程序以文本格式保存,扩展名为.R。如果一个操作

18、要重复许多次,我们最好使用R程序来实现。函数是大多数R程序实现的方式,而且这些函数的输入参数都放在一个括号里面。使用人员可以使用function()来编写自己的函数,并且函数和R里面的其他函数有一样的作用。函数是一系列操作的组合,形式为:函数名=function(变量1,变量2,)函数体.编写自己的函数可以更加灵活、有效、合理的使用R。32.2.举例使用软件实现讨论过程例1:现在我们用一组全国30个省市自治区经济发展基本情况的八项指标为例,使用SPSS软件和R软件分别实现出主成分个数的确定和检验过程。样本原始数据如下:表2.1 全国三十个省市自治区经济发展的八项指标(单位:亿元)省份GDP居民

19、消费水平固定资产投资职工平均工资货物周转量居民消费价格指数商品零售价格指数工业总产值北京1394.892502.00519.018144.00373.90117.30112.60843.43天津920.112720.00345.466501.00342.80115.20110.60582.51河北2849.521258.00704.874839.002033.30115.20115.801234.85山西1092.481250.00290.904721.00717.30116.90115.60697.25内蒙古832.881387.00250.234134.00781.70117.50116.

20、80419.39辽宁2793.372397.00387.994911.001371.10116.10114.001840.55吉林1129.201872.00320.454430.00497.40115.20114.20762.47黑龙江2014.532334.00435.734145.00824.80116.10114.301240.37上海2462.575343.00996.489279.00207.40118.70113.001642.00江苏5155.251926.001434.955943.001025.50115.80114.302026.64浙江3524.792249.00100

21、6.396619.00754.40116.60113.50916.59安徽2003.581254.00474.004609.00908.30114.80112.70824.14福建2160.522320.00553.975857.00609.30115.20114.40433.67江西1205.111182.00282.844211.00411.70116.90115.90571.84山东5002.341527.001229.555145.001196.60117.60114.202207.69河南3002.741034.00670.354344.001574.40116.50114.9013

22、67.92湖北2391.421527.00571.684685.00849.00120.00116.601220.72湖南2195.701408.00422.614797.001011.80119.00115.50843.83广东5381.722699.001639.838250.00656.50114.00111.601396.35广西1606.151314.00382.595105.00556.00118.40116.40554.97海南364.171814.00198.355340.00232.10113.50111.3064.33四川3534.001261.00822.544645.0

23、0902.30118.50117.001431.81贵州630.07942.00150.844475.00301.10121.40117.20324.72云南1206.681261.00334.005149.00310.40121.30118.10716.65西藏55.981110.0017.877382.004.20117.30114.905.57陕西1000.031208.00300.274396.00500.90119.00117.00600.98甘肃553.351007.00114.815493.00507.00119.80116.50468.79青海165.311445.0047.7

24、65753.0061.60118.00116.30105.80宁夏169.751355.0061.985079.00121.80117.10115.30114.40新疆834.571469.00376.955348.00339.00119.70116.70428.76标准化后数据如下,表2.2 表2.1的标准化省份ZGDPZ居民消费水平Z固定资产投资Z职工平均工资Z货物周转量Z居民消费价格指数Z商品零售价格指数Z工业总产值北京-0.356780.877680.01788-0.00610-0.635350.00658-1.215260.01472天津-0.678721.13071-0.39067

25、-0.10874-0.70297-1.03029-2.26896-0.43653河北0.62956-0.566230.47935-0.212562.97255-1.030290.470650.69166山西-0.56184-0.57551-0.54849-0.219930.11128-0.190920.36528-0.23809内蒙古-0.73786-0.41650-0.64946-0.256600.251300.105330.99750-0.71864辽宁0.591490.75581-0.30742-0.208061.53278-0.58592-0.477681.73918吉林-0.5369

26、40.14644-0.47512-0.23811-0.36683-1.03029-0.37231-0.12530黑龙江0.063380.68268-0.18889-0.255920.34501-0.58592-0.319620.70120上海0.367184.175221.203375.28228-0.997360.69784-1.004521.39580江苏2.193020.209122.29203-0.143600.78137-0.73404-0.319622.06101浙江1.086770.584021.22798-0.101370.19194-0.33904-0.741100.1412

27、4安徽0.05595-0.57087-0.09387-0.226930.52655-1.22779-1.16258-0.01864福建0.162370.666430.10468-0.14897-0.12354-1.03029-0.26694-0.69394江西-0.48547-0.65444-0.56850-0.25179-0.55316-0.190920.52334-0.45498山东2.08933-0.254001.78205-0.193451.153380.15471-0.372312.37413河南0.73346-0.826220.39364-0.243481.97480-0.3884

28、2-0.003510.92179湖北0.31894-0.254000.14865-0.222180.397621.339710.892130.66722湖南0.18623-0.39212-0.22147-0.215190.751580.845960.312600.01541广东2.346581.106342.800720.00052-0.02092-1.62280-1.74211-0.48416广西-0.21353-0.50123-0.32083-0.19594-0.239430.549710.78676-0.48416海南-1.055680.07912-0.77827-0.18126-0.94365-1.86967-1.90016-1.33269四川1.09369-0.562740.77150-0.224680.513510.599081.102871.03229贵州-0.87538-0.93301-0.89623-0.23530-0.793632.030961.20824-0.88236云南-0.48440-0.56274-0.44147-0.19320-0.773411.981591.68240-

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2