SAS软件与统计应用论文.docx

资源描述

SAS软件与统计应用论文.docx

《SAS软件与统计应用论文.docx》由会员分享，可在线阅读，更多相关《SAS软件与统计应用论文.docx（17页珍藏版）》请在冰点文库上搜索。

SAS软件与统计应用论文.docx

SAS软件与统计应用论文

摘要

本学期通过对《SAS软件与统计应用》这门课的学习，让我知道SAS系统是一个大型的应用软件系统，具有完备的数据访问、管理、分析、呈现，以及应用开发功能。

这篇文章运用主成分分析综合评价方法，对1999年我国西部地区教育人力资源发展水平进行处理和分析，采用的是西藏，新疆等西部省份教育人力资源发展水平（原始数据见附录）。

选出14个省的情况作为统计分析数据，其中分析的项目为：

每百万人口学校数；每十万人口毕业生数；每十万人口招生数；每十万人口在校生数；每十万人口研究生数；每十万人口教职工数；每十万人口专职教师数；高级教师占专职教师的比例；每所学校在校生数；生师比。

依次用A1，A2，A3，A4，A5，A6，A7，A8，A9，A10表示。

用“分析家”作主成分分析，并且对数据进行如下处理：

第一：

对于所选取的统计数据进行简单描述统计分析，得出数据的平均值、数据标准差，最大值，最小值等。

第二：

对于所选取的统计数据用”analyst”作主成分分析计算相关系数矩阵的特征值、上下特征值之差、各主成分的方差贡献率、以及累积贡献率。

第三：

由相关系数矩阵的两个最大特征值的特征向量，可以写出第一、第二主成分的得分。

第四：

在“insight”里面绘制了散点图。

由图可知，在散点图越靠向右上角的地区，教育人力资源发展水平越高，越靠向左上角的地区，教育人力资源发展水平越低。

从以上结论分析可以知道影响各省份教育人力资源发展水平的主要因素，从而可以更好地帮助国家调整教育人力资源结构，更好地发展我国西部教育事业。

关键字：

analyst主成分分析教育人力资源发展MEANS过程

第一章基本介绍3

1.1研究目的3

1.2采用方法3

1.3理论知识3

第二章数据预处理4

第三章具体模型4

3.1建立数据集4

3.2具体模型（程序）4

运行结果及分析5

4.1使用“分析家”做主成分分析的步骤5

4.2主成分的结果分析8

参考文献12

附录13

第一章基本介绍

1.1研究目的

通过SAS软件分析，对1999年我国西部地区教育人力资源发展水平有一个大致了解。

随着国家教育方针的调整，西部各地区为了促进本地区的教育发展，分别采取了各种措施，教育方面的发展有了显著地成就。

本文通过SAS软件分析，对1999年我国西部地区教育人力资源发展水平有一个大致了解，从而可以更好地帮助国家调整（优化）教育人力资源结构，使人民的受教育水平更加优越。

1.2采用方法

（1）描述性统计量：

means。

（2）检验：

使用analyst模块进行主成分分析。

1.3理论知识

Means过程（均值过程）：

用于对数据型变量产生针对单个变量的简单描述性统计。

procmeans过程时，会对所有数值型变量进行操作，得到各变量的非缺失观测数N，均值MEAN，标准差STDDEV，最大值Max和最小值Min五种统计值，但means过程可以计算16种统计量。

主成分分析：

是对于原先提出的所有变量，建立尽可能少的新变量，使得这些新变量是两两不相关的，而且这些新变量在反映课题的信息方面尽可能保持原有的信息。

主成分分析是数学上对数据降维的一种方法。

其基本思想是设法将原来众多的具有一定相关性的指标（比如p个指标），重新组合成一组新的互不相关的综合指标来代替原来指标。

通常数学上的处理就是将原来p个指标作线性组合，作为新的综合指标。

在所有的线性组合中所选取的F1应该是方差最大的，故称F1为第一主成分。

如果第一主成分不足以代表原来p个指标的信息，再考虑选取F2即选第二个线性组合。

为了有效地反映原有信息，F1已有的信息就不需要再出现在F2中，用数学语言表达就是要求Cov（F1，F2）＝0。

称F2为第二主成分，依此类推可以构造出第三、第四、…、第p个主成分。

第二章数据预处理

对数据较少的程序，可以用DATA步建立永久的SAS集。

永久的SAS集，由定义逻辑库与定义数据集两步完成。

逻辑库定义通过LIBNAME语句完成，数据集定义用DATA语句实现。

指定逻辑库的命令语句为全程语句，其格式如下：

LIBNAME<逻辑库名>"<路径>"；

指定要建立数据集的命令语句格式如下：

DATA<逻辑库名>.<数据集名>；

LIBNAME语句把磁盘中的子目录与用户定义的逻辑库名连接起来。

用此方法根据已知的数据就可以建立生成以下的数据集。

第三章具体模型

3.1建立数据集

2012年11月19日星期一下午12时19分55秒5

ObsregionA1A2A3A4A5A6A7A8A9A10

1海南0.66496419112.047190.33291410.160

2广西0.62416919234.040180.33311310.450

3山西0.726111819360.074300.33409210.170

4内蒙古0.80467721153.071320.3626177.430

5四川0.7566112314164.077320.39419910.100

6重庆0.504177211120.053210.37419210.100

7贵州0.54286715221.035160.3328238.950

8云南0.57386617649.044200.3830798361

9西藏1.5642651573.968300.1410055.100

10陕西1.19100188496398.0140550.3641739.900

11甘肃0.715590246113.065270.3134809.230

12青海1.18496818317.068340.2015585.320

13宁夏0.92498324225.073330.3326247.520

14新疆0.966611030551.096420.3031807.230

3.2具体模型（程序）

Datawork.data1;

inputregion$1-10A1A2A3A4A5A6A7A8A9A10;

cards;

海南0.6649641911247190.33291410.16

广西0.6241691923440180.33311310.45

山西0.72611181936074300.33409210.17

内蒙古0.846772115371320.3626177.43

四川0.756611231416477320.39419910.1

重庆0.5417721112053210.37419210.1

贵州0.5428671522135160.3328238.95

云南0.5738661764944200.3830798361

西藏1.5642651573.968300.1410055.1

陕西1.19100188496398140550.3641739.9

甘肃0.71559024611365270.3134809.23

青海1.1849681831768340.215585.32

宁夏0.9249832422573330.3326247.52

新疆0.96661103055196420.331807.23

;

run;

procprint;

run;

第四章运行结果及分析

4.1使用“分析家”做主成分分析的步骤

1）在“分析家”中打开数据集work.data1；

2）选择菜单“Statistics（统计）”“Multivariate（多元分析）”“PrincipalComponents（主成分分析）”，打开“PrincipalComponents”对话框；

3）在对话框中输入主成分分析的变量，如图4-1；

图4-1

4）单击“Statistics（统计）”按钮，打开“PrincipalComponents：

Statistics”对话框；在“#ofcomponents：

”右边的框中指定主成分的个数10，如图4-2，单击“OK”返回；

图4-2

5）单击“SaveData”按钮，打开“PrincipalComponents：

SaveData”对话框，在该对话框中可选择存储数据。

选中“Createandsavescoresdata”，如图4-3所示。

单击“OK”返回；

图4-3

6）单击“Plots”按钮，打开“PrincipalComponents：

Plots”对话框，可以设置图形输出。

在“ScreePlot（碎石图）”选项卡中（图4-4），选中“Createscreeplot（建立碎石图）”复选框。

在“ComponentPlot（成分图）”选项卡中（图4-5），选中“CreatecomponentPlot（建立成分图）”复选框。

图4-4

图4-5

4.2主成分的结果分析

输出的数字分析结果包括4个部分：

简单统计量、相关系数矩阵、相关系数矩阵的特征值以及相关系数矩阵的特征向量。

1）图4-6给出变量的简单统计量，图中显示10项指标中A9（每所学校在校生数）、A5（每十万人口研究生数）、A4（每十万人口在校生数）是最为重要的，其标准差远远高出其他变量

图4-6

2）图4-7可得：

A2（每十万人口毕业生数）与A3（每十万人口招生数）、A4（每十万人口在校生数）、A6（每十万人口教职工数）；A7（每十万人口专职教师数）与A6（每十万人口教职工数与）；A4（每十万人口在校生数）与A3（每十万人口招生数）、A5（每十万人口研究生数）有较强的相关性。

图4-7

3）图4-8给出相关系数矩阵的特征值（Eigenvalues）、上下特征值之差（Difference）、各主成分的方差贡献率（proportion）以及累积贡献率（Cumulative）

图4-8

相关系数矩阵的特征值即各主成分的方差，可以看出，第一主成分的方差贡献率为58.54%，第二主成分的方差贡献率为34.40%，第三主成分的方差贡献率为3.05%。

说明第一、二主成分方差贡献率已经达到85%以上，可以很好地概括这组数据。

在“分析家”左边的管理窗口中双击“Screeplot”项，打开的“Screeplot”对话框显示10个特征值的“碎石图”，很直观地看到第一、二主成分远远大于其它特征值，说明第一、二主成分已经代表了绝大部分信息。

图4-9

根据步骤1-4，在“#ofcomponents：

”右边的框中指定主成分的个数2，单击“OK”返回，其他步骤均一样。

得到输出结果如图4-10。

图4-10

4）图4-11给出相关系数矩阵的特征向量，由最大特征值所对应的特征向量可以写出第一、二主成分的表达式。

Prin1=0.103724A1*+0.399505A2*+0.404750A3*+0.401993A4*+0.380404A5*

+0.379236A6*+0.348603A7*+0.137677A8*+0.243173A9*-0.126794A10*Prin2=-0.508787A1*-0.070746A2*+0.001527A3*-0.010396A4*+0.072045A5*

-0.201026A6*-0.265655A7*+0.466344A8*+0.415852A9*+0.479168A10*

图4-11

可见，第一主成分中A2、A3、A4、A5、A6、A7的系数最大；第二主成分中A8、A9、A10具有较大的正系数，A1则具有较大的负系数。

因此，可以把第一主成分看成是由A2（每十万人口毕业生数）、A3（每十万人口招生数）、A4（每十万人口在校生数）、A5（每十万人口研究生数）、A6（每十万人口教职工数）、A7（每十万人口专职教师数）所刻画的反映1999年我国西部地区教学水平的综合指标；把第二主成分看成是由A1（每百万人口学校数）、A8（高级教师占专职教师的比例）、A9（每所学校在校生数）、A10（生师比）所刻画的我国西部地区教育发展水平的综合指标。

利用特征向量各分量的值可以对主成分进行解释，对于第一、二主成分而言，各变量所占比重如图4-11，且（第一主成分各变量对应的比重）均为正数，说明第一，二主成份是对所有指标的一个综合测度，作为综合的信用等级指标。

5）在“分析家”窗口中，双击左边项目管理中的“ScoresTable”项，打开“ScoresTable”对话框；

选择菜单“File”→“SaveasBySASName”，将其保存为数据表Scores；里面包含了第一、二主成分的得分。

图4-12

图4-13

由图4-13可知：

陕西、四川、新疆的第一主成分取值较高，重庆，广西，云南第二主成分取值较高。

结果分析

陕西、四川、新疆的第一主成分取值较高说明这些地区教学水平较高，其次是山西、甘肃等。

由于在第二主成分中A1（每百万人口学校数）具有负的载荷量，因此处于右半图中的重庆、四川、广西等地的每百万人口学校数较小，A10（生师比）较大,表明这些地区的教育发展水平较高；而左半图中青海、西藏等地的每百万人口学校数水平较高，A10（生师比）较小,表明这些地区的教育发展水平较低。

从以上统计分析可以看出，高等教育人力资源发展水平受地域的影晌很大中部，陕西、四川的教育水平较高。

总体上说来，教育人力资源的发展水平

与地域的关系为：

东高西低，北高南低，四周低于中间，沿海高于内地，中部

省区发展水平居中，其中陕西、四川的教育基础好，排名稍微靠前。

这些统计

分析结果与实际情况是相吻合的。

从以上分析可以看出，我国高等教育在地域

布局上偏重于沿海大城市和中部重要地区，边远地区很少有高等院校分布。

这

有深层次的经济原因。

我国地域辽阔，资源分布不均，生产力发展不平衡：

东

部地区得天独厚，基础好，发展快；而西部边沿地区经济基础却非常薄弱。

经

济上的不平衡特征反应在高等教育上表现为地域间存在很大差异，并且这种差

异将随着经济差异的扩大而扩大。

高等教育水平地域差异的过分扩大将导致高

等教育的地区分割与对立。

相关部门有必要采取措施逐步缩小这种差距。

参考文献

【1】SAS软件与统计应用教程汪远征，徐雅静，北京机械工业出版，2007；

【2】SAS统计分析及应用，黄燕，机械工业出版社，2006；

【3】

附录

下表中数据反映了1999年我国西部地区教育人力资源发展水平的相关数据。

A1：

每百万人口学校数；A2：

每十万人口毕业生数A3：

每十万人口招生数、A4：

每十万人口在校生数、A5：

每十万人口研究生数、A6：

每十万人口教职工数、A7：

每十万人口专职教师数A8：

高级教师占专职教师的比例、A9：

每所学校在校生数、A10：

生师比。

用统计软件的若干方法分析西部地区的教育人力资源发展情况。

region

A10

海南

0.66

191

0.33

2914

10.16

广西

0.62

192

0.33

3113

10.45

山西

0.72

118

193

0.33

4092

10.17

内蒙古

0.8

211

0.36

2617

7.43

四川

0.75

112

314

164

0.39

4199

10.1

重庆

0.5

211

120

0.37

4192

10.1

贵州

0.54

152

0.33

2823

8.95

云南

0.57

176

0.38

3079

8.361

西藏

1.56

157

3.9

0.14

1005

5.1

陕西

1.19

100

188

496

398

140

0.36

4173

9.9

甘肃

0.71

246

113

0.31

3480

9.23

青海

1.18

183

0.2

1558

5.32

宁夏

0.92

242

0.33

2624

7.52

新疆

0.96

110

305

0.3

3180

7.23

展开阅读全文