毕业论文定稿版优秀毕业论文统计学本科基于SPSS的多元回归分析模型选取的应用Word下载.doc
《毕业论文定稿版优秀毕业论文统计学本科基于SPSS的多元回归分析模型选取的应用Word下载.doc》由会员分享,可在线阅读,更多相关《毕业论文定稿版优秀毕业论文统计学本科基于SPSS的多元回归分析模型选取的应用Word下载.doc(31页珍藏版)》请在冰点文库上搜索。
sfiscalrevenue.Inthispaper,throughtwoempiricaltaobaotransactionsandfiscalrevenueresearchfromdifferentdegreeofthestudyofnonlinearregressionmodelandvariableselectionusingacommonlanguageandplaintheSPSSstatisticalanalysismethodinmultipleregressionanalysisofpresentinfrontofeveryone,leteveryonetomultipleregressionanalysisandSPSSsoftwarecanhaveadeeperunderstanding.ThroughSPSSsoftwaretoanalyzedata,andsummarizesmethodofdataprocessing,findouttheadvantagesanddisadvantagesofSPSSfordataprocessingandanalysis,finallyhadtoputforwardtheproposaltotheoperationoftheselectionofvariablesandsoftware.
Keywords:
Statistical,SPSS,Theselectionofvariables,multipleregressionanalysis
目录
第一章引言 3
第二章多元回归模型的选取 4
2.1多元回归分析概述 4
2.2相关系数概述 5
2.3非线性回归模型概述 5
2.4多元线性回归模型自变量的选取 6
第三章非线性回归模型案例:
淘宝交易额模型的研究 7
3.1回归模型变量的确定 7
3.1.1数据来源 7
3.1.2复相关系数 8
3.1.3散点图看线性关系 9
3.1.4回归分析看拟合度 11
3.1.5确定回归模型变量 11
3.2调整后的变量的相关分析 12
3.2.1散点图 12
3.2.2计算相关系数 14
3.3多元线性回归分析 16
3.4小结 18
第四章线性回归分析变量选取案例:
财政收入模型的研究 18
4.1数据来源及变量选取 18
4.2相关分析 20
4.2.1散点图 20
4.2.2计算相关系数 21
4.3线性回归分析 24
4.4逐步回归 26
4.5小结 27
第五章总结 28
参考文献 30
第一章引言
随着社会的发展,统计的运用范围越来越广泛,统计学作为高等院校经济类专业和工商管理类专业的核心课程,不管是在经济管理领域,或是在军事、医学等领域的研究中对于数量分析与统计分析都需要更高的要求,需要用到的数学知识较多,应用方面的灵活性也较强,计算量大且复杂.然而科学研究的深入,研究的对象也日益变得复杂,复杂系统的研究问题更是成为当今研究的热点.为了更好的描述一个复杂的现象,就需要大量的数据和信息,如何高效、准确地利用已知的信息便成为当今社会研究的一项重要课题.
在科学技术飞速发展的今天,统计学通过不断吸收和融合相关学科的新理论,开发应用新技术和新方法,拓展新的领域的同时不断深化和丰富了统计学传统领域的理论与方法.在我国,社会主义市场经济体制的逐步建立,实践发展的需要对统计学提出了新的更多、更高的要求.随着我国社会主义市场经济的成长和不断完善,统计学的潜在功能将得到更充分更完满的开掘.从20世纪60年代开始,关于回归自变量的选择成为统计学中研究的热点问题,统计学家提出了许多回归选元的准则,并提出了许多行之有效的选元方法.在应用回归分析去处理实际问题时,回归自变量选择是首先要解决的重要问题.通常在做回归分析时,人们根据所研究问题的目的,结合经济理论罗列出对因变量可能有影响的的一些因素作为自变量引进回归模型,把一些对因变量影响很小的,有些甚至是没有影响的自变量,不但使得计算量变大,估计和预测的精度也下降了.此外,如果遗漏了某些重要变量,回归方程的效果肯定不好.SPSS软件作为当今国际上运用广泛的统计分析软件,其功能齐全带有各种特点,在各个领域内都得到了迅速普及,并成为各个行业提高管理水平、形成科学决策的重要手段.然而,我国对于该软件的运用和理解始终处于早期应用阶段,无论是在功能的研究开发还是实际生活当中的运用都与西方发达国家相差甚远.尤其是在管理决策方面,都因为没有进行深度分析而造成了浪费,要么就是利用SPSS软件进行简单分析而未进行深度开发,导致所得的信息有限、各信息间的关系不明确,最终导致管理者的判断出现偏差.
基于以上背景,本文通过总结和吸取其他国内外学者对统计学研究的,并结合我国的实际情况,本文采用了案例一对于网络购物这块的的研究,通过对2005年到2012年的居民消费水平,以及我国网络普及度,我国人人均纯收入以及我国的居民消费水平对淘宝网的未来发展趋势进行非线性回归模型的研究以及案例二对于我国财政收入的进行变量选取研究,通过对1992年到2012年的人均国内生产总值,城镇居民家庭人均可支配收入,全社会固定投资,进出口总额,居民消费价格水平对我国财政收入的影响进行定量数据的研究.通过对数据的选取,回归模型的确定以及软件的操作方法来告知读者如何在SPSS的操作中变量选取的原则、要求和方法.
第二章多元回归模型的选取
2.1多元回归分析概述
回归分析是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法(即寻找具有相关关系的变量减的数学表达式并进行统计推断的一种统计方法).按照其所涉及的自变量,可分为一元回归分析和多元回归分析;
线性回归分析和非线性回归分析是按照自变量和因变量之间的关系划分的.
而本文运用了多元线性回归分析中的方法,多元线性回归分析就是指回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系.多元回归分析的主要内容有以下几点:
(1)从一组数据出发,确定某些变量之间的定量关系式,即建立数学模型并估计其中的未知参数.估计参数的常用方法是最小二乘法;
(2)对这些关系式的可信程度进行检验;
(3)在许多自变量共同影响着一个因变量的关系中,判断哪些自变量的影响是显著的,哪些自变量的影响是不显著的,将影响显著的自变量选入模型中,而剔除影响不显著的变量,通常用逐步回归等方法;
(4)利用所求的关系式对某一生产过程进行预测或控制.
回归分析研究的主要问题是确定与间的定量关系表达式,这种表达式称为回归方程;
对求得的回归方程的可信度进行检验;
判断自变量对因变量有无影响;
利用所求得的回归方程进行预测和控制.回归分析主要应用于研究两个变量之间到底是哪个变量受哪个变量的影响,影响程度如何,通过分析现象之间相关的具体形式,确定其因果关系,并用数学模型来表现其具体关系,并根据实测数据来求解模型的各个参数,然后评价回归模型是否能够很好的拟合实测数据;
如果能够很好的拟合,则可以根据自变量作进一步预测.
2.2相关系数概述
相关关系是一种非确定性的关系,相关系数是研究变量之间线性相关程度的量.相关关系是现象间客观存在的,但数值又是不严格及不完全确定的相互依存关系.
1)复相关系数
在一元回归分析中我们用相关系数来说明两变量之间线性相关的程度,在多元回归分析中,仍用它来表示与其他自变量之间的线性密切程度,此为复相关系数.复相关是指因变量与多个自变量之间的相关关系.复相关系数只是反映变量间表面的非本质的联系,因为变量很有可能受到其他变量的影响.
2)偏相关系数
在多变量的情况下,变量之间的相关系数是相当复杂的.任意两个变量之间都有可能存在着相关关系,因此,只知道被解释变量与解释变量的总的相关程度是不够的.如果需要了解某两个变量间的相关程度,就应在消除其他变量影响的情况下来计算他们的相关系数,这就是偏相关系数.偏相关系数与复相关系数不同,复相关系数的取值在0-1之间,而偏相关系数则是有正有负,所以复相关系数与偏相关系数之间也有可能相差很大.变量之间本存在错综复杂的关系,甚至可能使得符号也相反,但是偏相关系数才是变现变量之间的本质联系的.
偏相关的主要用途:
偏相关主要是用来研究自变量与因变量之间的关系的,其通过得到的自变量与因变量数据来进行计算,通过偏相关系数可以看出哪些自变量对因变量的影响更大一些,同时对于偏相关系数较小的变量,可以剔除.
2.3非线性回归模型概述
非线性回归模型是指在众多的现象中,分析变量之间的关系时不符合解释变量线性和参数线性的一种模型.在实际的经济活动中,经济变量的关系是相当复杂的,直接表示为线性关系的情况也并不多见.但大多数的非线性关系是可以通过一些简单的数学处理,使之转化为线性关系,从而通过线性回归来进行计算.而非线性回归模型又分为可化为线性模型的非线性回归模型和不可化为线性模型的非线性回归模型.
本文研究的是可转化为线性模型的非线性回归模型,而可转化为线性模型的非线性回归模型又有好几种方法可以对变量进行转换.其有以下几种模型:
1)多项式函数模型
对于形如:
,
的模型为多项式模型.令
原模型可化为线性形式
那么就可以用多元线性回归分析的方法进行处理了.
2)指数函数模型
的模型为指数函数模型.令
3)双曲线模型;
4)半对数模型和双对数模型等.
本文将对指数函数型非线性模型进行案例说明,所以对于其他类型的非线性回归模型的道理是一致的,在这里就不进行一一解释.
2.4多元线性回归模型自变量的选择
在多元线性回归模型中自变量的选择实质上就是模型的选择.现设一切可供选择的变量是个,它们组成的回归模型称为全模型(记:
),在获得组观测数据后,我们有模型:
其中:
是的观测值,是未知参数向量,是结构矩阵,并假定的秩为.
现从这个变量中选变量,不妨设,那么对全模型中的参数和结构矩阵可作如下的分块(记:
):
.
我们称下面的回归模型为选模型:
是的观测值,是未知参数向量,是结构矩阵,并假定的秩为.
自变量的选择可以看成是这样的两个问题,一是究竟是用全模型还是用选模型,二是若用选模型,则究竟应包含多少变量最适合.然而自变量的选择与相关系数,回归分析都有密切的关系,自变量的选择需要通过一系列的验证,剔除之后才能得到最好的变量从而得到最好的回归模型.下面我们用两个案例来对多元回归模型的选取来进行解释和探讨.
淘宝交易额研究
3.1回归模型变量的确定
3.1.1数据来源
为研究淘宝网未来发展趋势,从新浪官方微博淘宝数据魔方中获得淘宝2009年聚划算中购物群众的年龄比例作为定性数据,进行研究年龄对淘宝购物的影响.并在新浪财经网上获得淘宝网自2003年到2012年的淘宝交易额以及淘宝注册人数的数据.在中商情报局里获得我国近网络普及度等数据并从国家统计年鉴中选取统计指标居民消费水平.
淘宝注册人数()在一定程度上反应了网络购物的群众的人数,反应了当今社会网络购物的普遍性.同时淘宝的注册人数也展现了人们对网络购物的认可度,换言之也就是说接受了网络购物并会在网上进行消费,是对网络购物很大程度上的支持.
我国网络普及度()是指我国近几年网络在我国普及的范围,这一块更好的反映了网络对居民网络消费的影响,因为网络是网络消费的必要条件.我国网络普及度反映的是在我国日趋发展的经济下,人们对网络的接受程以及信任程度也是直接影响到淘宝的网络购物.
居民消费水平()主要通过消费的物质产品和劳务的数量和质量来反映.居民消费水平的提高也能很好的展现在网络消费上作出的贡献.
第二产业增加值()是指采矿业,制造业,电力、煤气及水的生产和供应业,建筑业.而制造业的发展也相继影响着产品的销售,所以在这里采用第二产业对淘宝交易额的影响.通过对以上这三个定量数据的研究来其与淘宝交易额的关系,从而研究淘宝未来的发展趋势以及优劣态.原始数据如下:
表3.1
为消除数据之间因单位不同产生的量纲的影响,对数据进行标准化得如下数据得到
表3.2
3.1.2复相关系数
对表3.2的数据进行复相关系数的研究,看变量之间的复相关关系,得到如下表3.3的复相关系数表:
表3.3
表3.3中有带“**”号的结果表明有关的两变量在0.01的显著性水平下显著相关,由上图可知,与的相关系数为0.987>
0,表示变量之间存在线性关系,其相关系数检验对应的概率值为0.000,低于显著性水平0.05,说明淘宝交易额与淘宝注册人数之间相关性显著.与的相关系数为0.923>
0,表示变量之间存在线性关系,其对应值为0.000,小于显著性水平0.05,说明淘宝交易额与我国网络普及度之间相关性显著.与的相关系数为0.963>
0,表示变量之间存在线性关系,其对应值为0.000,小于显著性水平0.05,说明淘宝交易额与居民消费水平之间相关性显著.与的相关系数为0.919>
0,表示变量之间存在线性关系,其对应值为0.000,小于显著性水平0.05,说明我国第二产业增加值与居民消费水平之间相关性显著.
综上所述通过SPSS得出的相关系数的矩阵得到为:
0.987,0.923,0.963,0.919.虽然变量都通过了检验,但是可以看到和较另外两个复相关系数较低,因此对变量进行散点图的分析来了解自变量与因变量的相关关系.
3.1.3散点图看线性关系
对与各个变量作出散点图
(1)淘宝注册人数与淘宝网交易总额的相关性散点图:
图3.1
(2)网络普及度与淘宝网交易总额的散点图:
图3.2
(3)我国居民消费水平与淘宝交易额的散点图:
图3.3
(4)第二产业增加值对淘宝交易额的散点图:
图3.4
图3.2和3.4分别是自变量和与因变量的相关系数图,可以看出自变量和因变量之间呈明显的指数线性关系,而变量也是同样与因变量之间呈明显的指数线性关系.他们之间是非线性回归模型的关系.所拟合的效果不理想所以我们还需要对数据进行进一步的处理和分析,得到确切的答案.
3.1.4回归分析看拟合度
对数据进行回归分析:
表3.4
表3.4是自变量与因变量得到的回归分析,可知,因变量与常数项和自变量,,,的回归的标准化回归系数分别为0.01,0.660,-0.229,1.439,-0.899.而通过检验可以看到由上表2.4可以看出常数项以及各自变量的值分别为:
0.906,0.000,0.018,0.000及0.000.可以看出原始变量所得到的值并没有全部通过检验.说明常数项对因变量影响不显著.对数据进行值检验,在给定的,自由度的临界值时,查表得2.262,其常数项的值为0.123小于2.262,说明常数项不显著.综上所述,可以初步得到一个模型为:
.
3.1.5确定回归模型变量
综上通过散点图、复相关系数以及回归分析可以知道由于自变量和与因变量之间是非线性关系,是呈指数线性关系为研究之间线性关系,所以得到的模型的拟合程度并不是很理想.因此对自变量和进行取的对数即和来对变量进行研究看拟合效果得到下表.
表3.5
下面对表3.5进行变量分析与研究,通过对非线性模型中的变量的研究来了解多元回归分析中变量的选取与使用,同时对自变量进一步进行分析.
3.2调整后变量的相关分析
3.2.1散点图
图3.5
(2)的网络普及度次方与淘宝网交易总额的相关性检验:
图3.6
(3)我国居民消费水平与淘宝交易额的相关性检验:
图3.7
(4)的第二产业增加值的次方对淘宝交易额的影响:
图3.8
由以上四个散点图可知,其所有的点均落在了左上至右下的一条直线上,表明了数据之间存在显著相关关系.所以我们还需要对数据进行进一步的分析,得到确切的答案.
3.2.2计算相关系数
(1)复相关系数是用来衡量回归直线对于观察值配合的密切程度,即用来衡量因变量与自变量,,,之间相关的密切程度.以下是用SPSS对数据进行相关性分析,得到如下的相关系数图
表3.6
图中有带“**”号的结果表明有关的两变量在0.01的显著性水平下显著相关,由上图可知,与的相关系数为0.987>
0,表示变量之间存在线性关系,其相关系数检验对应的概率P值为0.000,低于显著性水平0.05,说明淘宝交易额与淘宝注册人数之间相关性显著.与的相关系数为0.979>
0,表示变量之间存在线性关系,其对应P值为0.000,小于显著性水平0.05,说明淘宝交易额与我国网络普及度之间相关性显著.与的相关系数为0.963>
0,表示变量之间存在线性关系,其对应P值为0.000,小于显著性水平0.05,说明淘宝交易额与居民消费水平之间相关性显著.与的相关系数为0.997>
0,表示变量之间存在线性关系,其对应P值为0.000,小于显著性水平0.05,说明我国第二产业增加值与居民消费水平之间相关性显著.
0.987,0.979,0.963,0.997.
由以上数据可以看出,各列之间存在正相关关系.即淘宝网注册人数、的我国网络普及度、我国居民消费水平、的我国第二产业增加值次方与淘宝交易总额存在显著的相关关系.
(2)计算偏相关系数:
下面是用SPSS作出的偏相关系数:
①消除我国网络普及度、第二产业增加值和居民消费水平的影响后,计算淘宝注册人数与淘宝交易额的偏相关系数为:
表3.7
由上可知,淘宝注册人数与淘宝交易额的偏相关系数为0.795.
②消除淘宝交易额、第二产业增加值和居民消费水平的影响后,我国网络普及度和淘宝交易额的偏相关系数为:
表3.8
由上可知我国网络普及度与淘宝交易额的偏相关系数为0.733.
③消除淘宝注册人数、第二产业增加值和我国网络普及度的影响后,我国居民消费水平和淘宝交易额的偏相关系数:
表3.9
由上可知,我国居民消费水平和淘宝交易额的偏相关系数为-0.932.
④消除淘宝注册人数、我国网络普及度和居民消费水平的影响后,计算第二产业增加值与淘宝交易额的偏相关系数:
表3.10
由上可知,的第二产业增加值次方与淘宝交易额的偏相关系数为0.946.
⑤下表为各个变量之间的偏相关系数表,为方便,这里直接变各变量之间的偏相关系数:
0.795
0.773
-0.932
0.946
-0.611
0.758
-0.59
0.702
-0.521
0.818
表3.11
这里我们对变量和采用的是其指数幂,是因为在对变量的相关性进行检验时,通过散点图可以看出和与因变量之间呈的是指数线性关系,是非线性关系所以对数据进行了处理,因为原始变量之间存在的非线性关系得出的结果不具有代表性.可以通过散点图看到从以上的偏相关系数来看,如果,和保持不变,与之间存在相关关系,当,和的保持不变时,和之间存在相关关系,其他关系同上,在这里就不进行一一解释.我们也可以通过以上的偏相关系数表可以看出各个自变量之间也存在一定的偏相关关系,但是相对于自变量与因变量之间的偏相