多元统计分析论文.docx

资源描述

多元统计分析论文.docx

《多元统计分析论文.docx》由会员分享，可在线阅读，更多相关《多元统计分析论文.docx（14页珍藏版）》请在冰点文库上搜索。

多元统计分析论文.docx

多元统计分析论文

关于各地区固定资产投资价格指数的分析

摘要：

本文主要通过主成分分析、聚类分析和判别分析对全国30多个省的固定资产投资指数、建筑安装工程指数、设备工器具购置指数、其他费用指数进行分析。

关键词：

主成分分析、欧氏距离、系统聚类分析、判别分析

Summary：

Thisarticlemainlythroughtheprincipalcomponentsanalysis,theclusteranalysisandthedistinctionanalysistothenationalmorethan30provinceinvestmentinthefixedassetsindices,constructionandinstallationtheprojectindex,theequipmentlaborappliancepurchaseindex,otherexpenseindexcarriesontheanalysis.

Keywords：

PrincipalComponentsAnalysis、Euclideandistance、Discriminantanalysis

一、导言：

注意微量信息引起的巨变，蝴蝶效应就是微量信息在一定条件下发生作用的过程。

在我们的经济活动中，每天的信息是大量的，这就要求我们从中发现那些对经济能产生最大影响的信息，有些是微量信息，有些是次级别的信息，本文的各地区固定资产投资价格指数就是一个非常值得深入发觉的信息。

该指数可以准确地反映固定资产投资中涉及的各类投资品和取费项目价格变动趋势和变动幅度，消除按现价计算的固定资产投资指标中的价格变动因素，真实地反映固定资产投资的规模、速度、结构和效益，为国家科学地制定、检查固定资产投资计划并提高宏观调控水平，为完善国民经济核算体系提供科学的、可靠的依据。

本文通过对中国2007年的30个省份各地区固定资产投资价格指数的分析，通过对固定资产投资指数、建筑安装工程指数、设备工器具购置指数、其他费用指数，应用主成分分析的方法设法将原来具有一定相关性的四个指标，重新组合成一组新的相互无关的综合指标来代替原来的指标；通过系统聚类方法将其中的27个省份聚成3类；通过聚类的结果来建立判别函数来判别剩余的青海、宁夏、新疆等3个省份属于哪一类。

二、固定资产投资价格指数的概述：

是反映一定时期内固定资产投资品及取费项目的价格变动趋势和程度的相对数。

固定资产投资额是由建筑安装工程投资完成额、设备工器具购置投资完成额和其他费用投资完成额三部分组成的。

编制固定资产投资价格指数应首先分别编制上述三部分投资的价格指数，然后采用加权算术平均法求出固定资产投资价格总指数。

三、主成分分析的概述及主要方法

主成分分析也称主分量分析，旨在利用降维的思想，把多指标转化为少数几个综合指标。

在实证问题研究中，为了全面、系统地分析问题，我们必须考虑众多影响因素。

这些涉及的因素一般称为指标，在多元统计分析中也称为变量。

因为每个变量都在不同程度上反映了所研究问题的某些信息，并且指标之间彼此有一定的相关性，因而所得的统计数据反映的信息在一定程度上有重叠。

在用统计方法研究多变量问题时，变量太多会增加计算量和增加分析问题的复杂性，人们希望在进行定量分析的过程中，涉及的变量较少，得到的信息量较多。

主成分分析正是适应这一要求产生的。

主成分分析法是一种数学变换的方法,它把给定的一组相关变量通过线性变换转成另一组不相关的变量，这些新的变量按照方差依次递减的顺序排列。

在数学变换中保持变量的总方差不变，使第一变量具有最大的方差，称为第一主成分，第二变量的方差次大，并且和第一变量不相关，称为第二主成分。

主成分的数学模型：

设X'=（X1,X2,…..,XP）是p维随机向量，它的主成分为：

其中：

Y1是一切Y=e'X中方差最大者，Y2是一切Y=e'X中方差次大者,…….,Yp是一切Y=e'X中方差最小者；且它们互不相关。

因此P个变量的P个主成分就是这P个变量的P个线性组合，其中线性组合的系数向量是单位向量。

表达式：

F=a1*X1+a2*X2+a3*X3+a4*X4

COV（F1,F2）=0

四、聚类分析的主要原理及方法

聚类分析又称群分析，它是研究（样品或指标）分类问题的一种多元统计方法。

所谓类，通俗地说，就是指相似元素的集合，严格的数学定义是较麻烦的，在不同的问题中类的定义是不同的。

聚类分析起源于分类学，随着生产技术和科学的发展，人类的知识不断加深，分类越来越细，要求也越来越高，有时光凭经验和专业知识是不能进行确切分类的，往往需要定性和定量分析结合起来分类，于是数学工具逐渐被引进分类学中，形成了数值分类学，后来随着多元分析的引进，聚类分析又逐渐从数值分类学中分离出来而形成一个相对独立的分支。

聚类分析的方法：

系统聚类法、模糊聚类法、k-均值法、有序样品聚类等。

五、判别分析的主要原理及方法

判别分析是在已知研究对象分成若干类型（或组别）并已取得各种类型的一批已知样品的观测数据，在此基础上根据某些准则建立判别式，然后对未知类型的样品进行判别分类。

判别分析的方法有很多，按判别的组数来区分，有两组判别分析和多组判别分析；按区分不同总体的所用的数学模型来分，有线性判别和非线性判别；按判别时所处理的变量方法不同，有逐步判别和序贯判别等。

六、主成分分析过程：

以下是2007年各地区固定资产投资价格指数：

地区

固定资产投资

建筑安装工程

设备工具器购置

其他费用

北京

102.8

104.1

98.9

102.1

天津

102.6

103.5

99.1

103.6

河北

103.8

105.4

100.7

102.4

山西

104.1

106.0

100.6

102.4

内蒙古

103.8

104.6

100.3

105.2

辽宁

104.3

106.1

100.2

104.2

吉林

103.9

105.2

99.9

105.9

黑龙江

104.5

105.5

99.9

109.1

上海

103.5

104.6

99.4

104.1

江苏

104.9

107.8

99.7

104.5

浙江

104.4

105.6

100.5

105.2

安徽

105.4

107.4

100.4

103.7

福建

105.9

107.1

99.6

109.2

江西

105.4

106.9

100.5

106.2

山东

104.0

105.5

100.8

104.6

河南

104.6

106.3

101.4

101.9

湖北

104.1

104.9

101.5

104.2

湖南

105.8

107.6

101.4

103.4

广东

102.4

103.8

99.5

100.5

广西

102.3

103.0

101.0

101.1

海南

106.1

109.9

100.2

102.2

重庆

105.5

106.0

100.2

107.8

四川

104.7

106.4

101.0

103.4

贵州

103.5

105.4

100.2

100.9

云南

104.2

104.5

100.5

107.0

陕西

104.0

105.6

100.6

甘肃

102.8

103.9

101.8

102.3

青海

104.2

104.6

102.9

102.6

宁夏

103.2

104.1

100.4

101.0

新疆

104.4

105.5

101.6

102.8

将这些数据导入到spss16.0分别点击analyze-datareduction-factor进行主成分分析得到以下结果：

表6.1：

分析：

从上表中我们可以看出主成分提取原来的信息都达到了90%以上。

表6.2;

分析：

输出结果则显示了各个主成分解释原始变量总方差的情况，我们可以看出本文保留三个主成分即可，而这三个主成分包含了99.286%的信息，远大于所要求的85%标准。

输出表6.3：

分析：

我们将输出结果成分矩阵标准化，求得的三个主成分线性表示的表达式：

F1=0.134085688*X1+0.122717851*X2-0.000410886*X3+0.083409789*X4

F2=0.029885616*X1+0.035083114*X2+0.167619323*X3-0.098938094*X4

F3=-0.001942858*X1-0.094471477*X2+0.10394291*X3+0.142314358*X4

其中F1表示第一主成分，F2表示第二主成分，F3表示第三主成分，X1表示固定资产投资，X2表示建筑安装工程，X3表示设备工具器购置，X4表示其他费用。

同理我们可以运用spss16.0对数据处理得以下的各主成分得分表：

地区

第一主成分

第二主成分

第三主成分

北京

-0.96774

-0.77483

-1.89467

天津

-1.45252

-0.01671

-1.56841

河北

-0.12977

-0.58318

0.174556

山西

0.267344

-0.6829

0.024854

内蒙古

-0.67677

0.723274

-0.10931

辽宁

0.278724

0.035968

-0.37

吉林

-0.40199

0.857798

-0.60736

黑龙江

-0.27553

2.224866

-0.46884

上海

-0.64956

0.114238

-1.22529

江苏

1.286618

-0.17819

-1.06432

浙江

0.001292

0.612983

0.078681

安徽

1.344897

-0.28318

-0.17574

福建

1.038288

2.076775

-0.83609

江西

0.915188

0.890837

0.078253

山东

-0.18849

0.362803

0.374051

河南

0.596054

-0.79867

0.961132

湖北

-0.42341

0.41638

1.253142

湖南

1.555599

-0.28315

0.999537

广东

-1.18379

-1.36984

-1.26086

广西

-1.7339

-0.78472

0.580872

海南

2.868203

-1.37984

-0.6585

重庆

0.459919

1.736661

-0.10618

四川

0.588733

-0.21975

0.54523

贵州

-0.09927

-1.31461

-0.48949

云南

-0.70952

1.581052

0.238218

陕西

0.199418

-1.37115

-0.00048

甘肃

-1.286

-0.31033

1.50559

青海

-0.48167

-0.01932

2.873168

宁夏

-0.81465

-1.0119

-0.1419

新疆

0.074292

-0.25135

1.290153

七、聚类分析过程：

我们将原来27组数据导入到spss16.0中去依次点击analyze-classify-hierarchical进行系统聚类分析得以下结果：

输出表7.1：

输出表7.2：

分析：

输出表7.1是反映每一阶段聚类的结果，coefficients表示聚合系数，第2列和第3列表示聚合的类，比如第一阶段时第3组（河北）和第4组（山西）聚为一类；第24组（贵州）和第26组（陕西）聚成一类。

输出表7.2反映了整个27个省得聚类的结果，由表7.2可看到当阀值取略小于20时可得到三类结果。

将此聚类结果输入到表格中得到以下数据：

地区

固定资产投资

建筑安装工程

设备工具器购置

其他费用

聚类结果

北京

102.8

104.1

98.9

102.1

天津

102.6

103.5

99.1

103.6

河北

103.8

105.4

100.7

102.4

山西

104.1

106.0

100.6

102.4

内蒙古

103.8

104.6

100.3

105.2

辽宁

104.3

106.1

100.2

104.2

吉林

103.9

105.2

99.9

105.9

黑龙江

104.5

105.5

99.9

109.1

上海

103.5

104.6

99.4

104.1

江苏

104.9

107.8

99.7

104.5

浙江

104.4

105.6

100.5

105.2

安徽

105.4

107.4

100.4

103.7

福建

105.9

107.1

99.6

109.2

江西

105.4

106.9

100.5

106.2

山东

104.0

105.5

100.8

104.6

河南

104.6

106.3

101.4

101.9

湖北

104.1

104.9

101.5

104.2

湖南

105.8

107.6

101.4

103.4

广东

102.4

103.8

99.5

100.5

广西

102.3

103.0

101.0

101.1

海南

106.1

109.9

100.2

102.2

重庆

105.5

106.0

100.2

107.8

四川

104.7

106.4

101.0

103.4

贵州

103.5

105.4

100.2

100.9

云南

104.2

104.5

100.5

107.0

陕西

104.0

105.6

100.6

甘肃

102.8

103.9

101.8

102.3

青海

104.2

104.6

102.9

102.6

待判

宁夏

103.2

104.1

100.4

101.0

待判

新疆

104.4

105.5

101.6

102.8

待判

八、判别分析过程：

将上面27组数据通过系统聚类的结果和剩下的三组未聚类的数据导入导spss中去，依次点击analyze-classify-discriminant进行判别分析得出以下结果：

输出表8.1：

CasewiseStatistics

分析：

从输出结果中，我们可以看出第28组（青海）、第29组（宁夏）和第30组（新疆）都归为第一类。

而原来第10组（江苏）本属于第一类的，现在重新判为第三类；原来第25组（云南）本属于第一类的，现在重新判为第二类。

具体的判别结果如下表：

地区

固定资产投资

建筑安装工程

设备工具器购置

其他费用

聚类结果

判别结果

北京

102.8

104.1

98.9

102.1

天津

102.6

103.5

99.1

103.6

河北

103.8

105.4

100.7

102.4

山西

104.1

106.0

100.6

102.4

内蒙古

103.8

104.6

100.3

105.2

辽宁

104.3

106.1

100.2

104.2

吉林

103.9

105.2

99.9

105.9

黑龙江

104.5

105.5

99.9

109.1

上海

103.5

104.6

99.4

104.1

江苏

104.9

107.8

99.7

104.5

浙江

104.4

105.6

100.5

105.2

安徽

105.4

107.4

100.4

103.7

福建

105.9

107.1

99.6

109.2

江西

105.4

106.9

100.5

106.2

山东

104.0

105.5

100.8

104.6

河南

104.6

106.3

101.4

101.9

湖北

104.1

104.9

101.5

104.2

湖南

105.8

107.6

101.4

103.4

广东

102.4

103.8

99.5

100.5

广西

102.3

103.0

101.0

101.1

海南

106.1

109.9

100.2

102.2

重庆

105.5

106.0

100.2

107.8

四川

104.7

106.4

101.0

103.4

贵州

103.5

105.4

100.2

100.9

云南

104.2

104.5

100.5

107.0

陕西

104.0

105.6

100.6

甘肃

102.8

103.9

101.8

102.3

青海

104.2

104.6

102.9

102.6

待判

宁夏

103.2

104.1

100.4

101.0

待判

新疆

104.4

105.5

101.6

102.8

待判

九、结果分析与讨论：

从最终的结果看北京为第一类：

北京、天津、河北、山西、内蒙古、辽宁、吉林、上海、浙江、安徽、山西、山东、河南、湖北、湖南、广东、广西、四川、贵州、陕西、甘肃、青海、宁夏、新疆。

第二类为：

黑龙江、福建、重庆、云南。

第三类为：

江苏、海南。

由此可见建筑安装工程投资、设备工器具购置和其他费用等指数上第三类比较高，第二类次之，说明这些省份的固定资产投资额比较高，投资比较活跃。

针对以上的各地区固定资产投资价格指数的分析结果，以及为保持我国经济能够较快的平稳增长，我提出以下两点建议：

1、保持投资长期稳定增长，充分调动民间投资和外商投资的积极性，积极培育多元投资主体。

进一步改善投资环境，加大招商引资力度，扩大利用外资的规模。

引入竞争机制，在政策环境、市场环境、信息咨询和服务环境等方面全面启动民间投资。

培育和发展资本市场，引进市场化机制募集资本和吸纳社会资金，开辟多元化投融资渠道。

运用市场手段推动国有资产流动重组，促进资源向优势企业和优势产品聚集，同时，着力帮助解决民营经济和中小企业融资难问题。

2、加快区域投资结构调整，着眼于促进区域经济的合理布局和协调发展，充分利用地区资源丰富、劳动力价格低、市场广阔等比较优势，加强与经济发达地区的联系，更多地利用区外资金包括外资，以冲破其发展瓶颈，实现经济的良性循环。

参考文献：

[1]中国国家统计局中国统计年鉴2007.

[2]于秀林、任雪松编著.多元统计分析.中国统计出版社

[3]曾五一、肖红叶编著.统计学导论.科学出版社

展开阅读全文